AI 领域值得关注的 GitHub 仓库——老张的精选列表

老张2026/4/30大约 12 分钟

AI 领域值得关注的 GitHub 仓库——老张的精选列表

适读人群：AI应用工程师、想在AI领域深耕的开发者 | 阅读时长：约18分钟 | 核心价值：30个经过实际使用筛选的仓库，每个都说清楚为什么值得关注

我有一个习惯，每隔一段时间会清理一遍GitHub的star列表。

不是因为star太多，而是因为很多仓库star了之后再也没打开过——那说明它对我的实际工作没有真实价值，不值得占用注意力。

这篇我整理的是经过这个筛选之后剩下来的，真正在我日常工作或者学习中被打开过的AI工程相关仓库。不是网上各种"AI必备仓库100个"那种凑数的清单，是我自己用过的。

分成五类来讲，每个我都会说清楚：它是什么、我为什么觉得值得关注、它的局限在哪里。

一、工程框架类（7个）

1. LangChain4j

https://github.com/langchain4j/langchain4j

Java生态里目前最成熟的LLM应用开发框架。我是从它还在早期版本的时候开始用的，一路看着它从一个粗糙的移植品变成现在有完整抽象层的框架。

为什么推荐：它的设计哲学是让Java工程师用熟悉的方式开发AI应用，没有把Python那套强行搬过来，整体架构是Java-native的。Memory、RAG、Tools的抽象都清晰。集成的模型和工具数量在Java生态里是最多的。

局限：文档质量参差不齐，部分Integration的文档很薄，要靠读源码和测试。社区相比Python生态小很多，遇到问题搜索引擎基本搜不到答案，只能去GitHub Issues。

2. Spring AI

https://github.com/spring-projects/spring-ai

Pivotal官方出品，把AI能力整合进Spring生态。如果你的系统本来就是Spring Boot，这个是最自然的选择。

为什么推荐：和Spring Boot的集成是一等公民待遇，配置方式、Bean注入、自动装配，全都符合Spring工程师的直觉。背靠Pivotal，长期维护有保障。

局限：版本迭代快，API breaking change比较多，如果是生产项目要锁定版本，不要追最新。功能完整度目前不如LangChain4j，某些场景还是得配合LangChain4j使用。

3. LlamaIndex

https://github.com/run-llama/llama_index

Python生态的RAG专精框架。如果你的工作有Python成分，这个必须了解。

为什么推荐：在RAG这个垂直方向做得深。不只是基础的chunk-embed-retrieve，而是有完整的索引类型体系、各种检索策略、查询变换方法。想深入理解RAG工程，读它的源码比读论文更有收获。

局限：抽象层太多，有时候调试起来很难知道哪一层出了问题。API变更频繁，老代码经常在新版本里跑不通。

4. Semantic Kernel

https://github.com/microsoft/semantic-kernel

微软出的AI应用开发SDK，支持Python、C#、Java三个语言。

为什么推荐：微软在企业AI落地上下了真功夫，Semantic Kernel在企业场景（权限控制、审计日志、与Azure生态集成）的考量比LangChain系列更完整。如果你的客户是大型企业，这个值得了解。

局限：Java版本的功能完整度明显落后于Python和C#版本，不要对Java版抱太高期望。文档里Microsoft的推广意味很重。

5. Haystack

https://github.com/deepset-ai/haystack

deepset出的NLP/AI应用框架，Pipeline设计是它的核心。

为什么推荐：Pipeline的设计思路很工程化，把AI处理流程表达成有向图，每个节点是一个组件，这种设计在需要复杂处理流程的场景下非常清晰。比LangChain在某些复杂场景下更容易维护。

局限：社区生态和学习资料不如LangChain，遇到问题的排查成本高。

6. DSPy

https://github.com/stanfordnlp/dspy

斯坦福NLP组出的"用编程代替提示词工程"框架。

为什么推荐：它代表了一个真实的技术方向——把LLM的能力用可优化的模块来表达，而不是用自然语言拼Prompt。如果你在做需要持续优化效果的AI应用，了解它的思路对你有帮助，哪怕你不直接用它。

局限：学习曲线陡，文档不友好，对初学者不是好的起点。

7. LiteLLM

https://github.com/BerriAI/litellm

一个统一调用接口，让你用OpenAI的API格式调用100+个LLM。

为什么推荐：多模型切换场景的救星。我现在所有新项目默认都会套一层LiteLLM，一旦某个模型API涨价或者不稳定，切换成本接近零。它的proxy模式还能给你整个团队提供一个统一的模型调用入口，带日志和成本统计。

局限：多了一层中间件就多了一层故障点，生产环境要做好监控。

二、工具与基础设施类（8个）

8. Ollama

https://github.com/ollama/ollama

本地运行开源LLM的工具，一行命令启动本地模型。

为什么推荐：开发阶段用它跑本地模型，调试Prompt不花钱，响应速度快，没有网络问题。几乎成了我开发环境的标配。API设计和OpenAI兼容，基本上把api.openai.com换成localhost:11434就能用。

局限：模型质量和GPT-4级别的商用模型还有差距，生产环境该付费的时候还是要付费。

9. Chroma

https://github.com/chroma-core/chroma

最容易上手的向量数据库，Python优先。

为什么推荐：开发阶段用它原型验证RAG方案非常快，不需要部署服务端，直接内嵌在进程里就能跑。API简洁，概念直白。

局限：性能和生产级向量数据库（Qdrant、Weaviate）有差距，数据量大了之后不适合继续用。

10. Qdrant

https://github.com/qdrant/qdrant

生产级向量数据库，Rust写的，性能优秀。

为什么推荐：性能好，过滤查询功能强（向量相似度+元数据过滤组合查询），部署运维成本不高，有完整的REST API。我现在生产环境用的就是它。

局限：文档的某些高级功能说明不够详细，要靠实验。

11. vLLM

https://github.com/vllm-project/vllm

高性能LLM推理引擎，如果你要自己部署模型。

为什么推荐：PagedAttention技术让它在吞吐量上碾压原生HuggingFace推理，OpenAI兼容API，现有代码改动最小。有能力自己部署模型的团队，这个是第一选择。

局限：GPU内存要求高，消费级显卡用起来需要量化，效果有折损。

12. Instructor

https://github.com/jxnl/instructor

让LLM输出结构化数据的库，基于Pydantic。

为什么推荐：解决了LLM输出不稳定的痛点。定义好Pydantic模型，Instructor帮你重试直到输出符合结构。在需要从LLM输出里提取结构化信息的场景下，这个比自己写解析和重试逻辑省太多时间。

局限：主要是Python生态，Java版（instructor4j）还早期。

13. LangFuse

https://github.com/langfuse/langfuse

LLM应用的可观测性平台，开源可自托管。

为什么推荐：上生产的LLM应用必须有可观测性，否则出问题你完全不知道发生了什么。LangFuse是目前开源方案里最完整的：trace、span、评估、成本统计全都有，UI清晰，接入成本低。

局限：自托管需要维护一套PostgreSQL，如果团队没有运维能力，建议用它的云版本。

14. Promptfoo

https://github.com/promptfoo/promptfoo

Prompt的测试和评估工具。

为什么推荐：这个工具解决了一个被低估的问题——你改了Prompt之后，怎么知道改得更好还是更差？Promptfoo让你把测试用例写成YAML，批量跑，对比不同Prompt版本的效果。工程化Prompt开发的必备工具。

局限：设置一套好的测试用例本身需要时间，对于小项目投入产出比一般。

15. BentoML

https://github.com/bentoml/BentoML

ML模型服务化框架，把模型部署成API。

为什么推荐：如果你有自己训练或者fine-tune的模型需要部署，BentoML处理了大量服务化的脏活：容器化、API包装、批处理、GPU资源管理。比自己写FastAPI+gunicorn省很多工程时间。

三、学习资源类（7个）

16. Awesome-LLM

https://github.com/Hannibal046/Awesome-LLM

LLM领域论文和资源的大型整合列表。

为什么推荐：把LLM领域的重要论文按类别整理好了，省去你自己在arXiv上找的时间。想系统了解某个方向（比如RAG、Agent、Fine-tuning）的时候，从这里找论文清单是个好起点。

局限：信息量大，不做筛选会迷失。建议结合你当前的工作方向，只看相关类别。

17. llm-course

https://github.com/mlabonne/llm-course

LLM工程师课程仓库，有完整的学习路径。

为什么推荐：它把LLM工程分成三个方向——LLM科学家（研究）、LLM工程师（应用开发）、部署，每个方向都有配套的Colab notebook。我是应用工程师，LLM工程师那条线上的内容质量不错。

18. build-your-own-x（AI相关部分）

https://github.com/codecrafters-io/build-your-own-x

手动实现各种技术的教程集合。

为什么推荐：理解一个技术最好的方式是自己实现一遍。这里有"Build your own vector database"、"Build your own neural network"等内容。特别推荐给对底层原理感兴趣的工程师。

19. Prompt Engineering Guide

https://github.com/dair-ai/Prompt-Engineering-Guide

提示词工程系统指南，DAIR.AI维护。

为什么推荐：目前最系统的Prompt工程资料，从基础技巧到Chain-of-Thought、RAG、Agent各种进阶模式都有。不是碎片化的技巧集合，是有体系的。

20. The Art of Asking ChatGPT

不是仓库，但值得提：这种标题的书我一概不看。真正有价值的Prompt工程知识在上面那个仓库里。

21. AI Engineering（书的配套仓库）

https://github.com/chiphuyen/aie-book

Chip Huyen《AI Engineering》书的配套代码仓库。

为什么推荐：这本书是目前AI应用工程方向最系统的工程实践指南，不是研究向的，是工程向的。书还没出版时我就在跟踪这个仓库，现在书出了，仓库里的代码示例质量很高。

22. Lilian Weng's Blog（GitHub Pages版）

https://github.com/lilianweng/lilianweng.github.io

OpenAI研究员Lilian Weng的博客源码仓库。

为什么推荐：她的博客是AI领域把研究成果转化成工程师能看懂的技术解读做得最好的之一。RAG、Agent、Fine-tuning这些方向的技术综述写得极好。直接看她的博客网站就够了，但star这个仓库是为了不错过更新通知。

四、有趣项目类（5个）

23. Open Interpreter

https://github.com/OpenInterpreter/open-interpreter

让LLM在你的机器上运行代码。

为什么推荐：这个项目的价值不完全是功能本身，而是它展示了一种把LLM当操作系统界面的思路。读它的实现代码，对理解Code Agent的设计有帮助。

24. MetaGPT

https://github.com/geekan/MetaGPT

多Agent模拟软件公司的框架。

为什么推荐：它的架构设计值得研究，特别是多个Agent如何分工协作、如何传递上下文。不是说它的效果有多好（实际效果仍然有限），而是它的工程实现有参考价值。

25. PrivateGPT

https://github.com/zylon-ai/private-gpt

完全本地运行的文档问答系统。

为什么推荐：对需要数据不出本地的企业场景，这个是一个可以直接参考的参考实现。架构清晰，可以拆开来用里面的某个部分。

26. Continue

https://github.com/continuedev/continue

VS Code和JetBrains的AI编程助手插件，开源的。

为什么推荐：如果你关心AI编程工具的实现，这个是目前开源里做得最完整的。可以连接任何本地或者云端模型，代码质量不错，可以作为学习IDE插件+AI集成的参考。

27. Open WebUI

https://github.com/open-webui/open-webui

给Ollama和OpenAI API套一个ChatGPT风格的Web界面。

为什么推荐：本地LLM的标配UI，部署简单，功能够用，支持多模型切换、文件上传、RAG。给非技术同事用本地模型的时候，这个比让他们装Ollama CLI友好多了。

五、监控与评估类（3个）

28. RAGAS

https://github.com/explodinggradients/ragas

RAG系统的评估框架。

为什么推荐：RAG系统的效果怎么量化评估，这是个真实的工程问题。RAGAS提供了faithfulness、answer relevance、context precision等指标的自动化评估，填补了"凭感觉觉得效果还行"和"有数据支撑的效果评估"之间的缺口。

29. Evidently

https://github.com/evidentlyai/evidently

ML模型监控和测试库。

为什么推荐：在AI应用跑了一段时间之后，你需要知道效果是否在退化。Evidently处理数据漂移检测、输出质量监控这些问题，有Dashboard，有报告导出。

30. TruLens

https://github.com/truera/trulens

LLM应用的评估和追踪工具，特别是RAG评估。

为什么推荐：RAGAS和它有功能重叠，但TruLens的可视化更友好，对工程师展示效果给非技术人员更方便。两个可以配合用，或者根据团队喜好选一个。

最后说一个筛选原则：这30个里，我日常打开频率最高的是LangChain4j、LiteLLM、LangFuse和Qdrant这四个。其他的，根据你的具体工作场景选择性关注就好，不必全部深入。

GitHub上的AI仓库增长速度比任何人跟得上的都快。选择聚焦，比广撒网重要。