AI 工程化的核心技能——2025年下半年更新版
AI 工程化的核心技能——2025年下半年更新版
适读人群:想做 AI 工程方向的工程师 | 阅读时长:约 12 分钟 | 核心价值:基于 2025 年上半年新变化,重新排序的 AI 工程技能优先级
我上一次系统整理 AI 工程核心技能清单是 2024 年底。那份清单半年后有些地方明显过时了。
不是说基础不重要了,而是优先级变了。MCP 协议在工程师里普及速度超出我预期,Claude Code 这类代码智能体工具已经成为很多团队的日常工作流,多模态从"技术演示"变成了"正式商用"。
这些变化影响了"值得优先学什么"的判断。我把这半年的观察整理成这篇文章,给想系统建立 AI 工程能力的人一个更新的参考。
变化了什么:2025 上半年的三个新现实
在讲技能之前,先说清楚驱动这次更新的背景变化。
变化 1:MCP 从概念变成基础设施
MCP(Model Context Protocol)是 Anthropic 推出的工具调用协议标准。2024 年底它只是一个"有意思的协议",到 2025 年上半年,主流的 AI 开发工具和 IDE 插件都开始支持它了。
这意味着"如何让 AI 模型安全、可预测地调用外部工具"不再是每个团队自己造轮子的问题,而是有了一个逐渐成为事实标准的规范。不了解 MCP 的工程师,在对接工具调用相关的工作时会越来越处于劣势。
变化 2:AI 代码智能体工具成为工程师日常
Claude Code、GitHub Copilot Workspace 这类工具,已经从"看演示很惊艳但我不知道怎么用到工作里"变成了很多团队的标准配置。
但这带来了一个新的技能需求:如何有效地驾驭 AI 代码智能体。这不只是"会用提示词",而是理解智能体的决策模式、知道在哪里介入、能识别和纠正它的错误。这是 2024 年还不是核心技能、2025 年已经是的东西。
变化 3:多模态从实验变成生产
视觉理解(图片输入)现在在很多产品里已经是正式功能,不再是 Beta。文档理解、图表解析、产品截图分析——这些多模态能力在工程侧已经足够稳定,可以放到生产里。
技能优先级:重新排序
下面是我更新后的技能优先级,分三个层次。不是功能介绍,是我对"现在投入学习的回报率"的判断。
优先级 A:今年投入,立刻有回报
1. LLM API 的工程用法(不是 UI 用法)
这是基础,没有捷径。
不是会 ChatGPT 的 Web 界面,而是:
- 理解 token、context window、温度等参数的实际工程含义
- 会用 streaming 处理实时输出
- 会做错误处理、重试、超时控制
- 理解成本计算,能做出有成本意识的设计决策
import anthropic
import time
from typing import Generator
client = anthropic.Anthropic()
def resilient_llm_call(
prompt: str,
max_retries: int = 3,
base_delay: float = 1.0
) -> Generator[str, None, None]:
"""
带重试和流式输出的稳健 LLM 调用
工程实践:这是生产代码的基本配置,不是可选项
"""
for attempt in range(max_retries):
try:
with client.messages.stream(
model="claude-opus-4-5",
max_tokens=1024,
messages=[{"role": "user", "content": prompt}]
) as stream:
for text in stream.text_stream:
yield text
return # 成功,退出
except anthropic.RateLimitError:
if attempt < max_retries - 1:
wait_time = base_delay * (2 ** attempt) # 指数退避
print(f"Rate limited, waiting {wait_time}s...")
time.sleep(wait_time)
else:
raise
except anthropic.APIConnectionError as e:
if attempt < max_retries - 1:
time.sleep(base_delay)
else:
raise2. RAG 系统的完整工程实现
不是"调一个 LangChain 函数",而是理解整个链路:
- 文档切分策略(chunk size、overlap、递归切分)
- 向量化和向量存储
- 检索质量优化(混合检索、重排序)
- 上下文压缩和去噪
这是 2025 年最普遍的 AI 应用模式,掌握它的深度直接决定你能做出什么质量的产品。
3. MCP 协议的工具开发
学会按照 MCP 规范写工具服务器。这不复杂,但值得现在学:
# 一个简单的 MCP 工具服务器示例框架
# 实际开发用 Anthropic 的 mcp SDK
from mcp.server import Server
from mcp.server.models import InitializationOptions
from mcp.types import Tool, TextContent
import mcp.server.stdio
server = Server("my-tool-server")
@server.list_tools()
async def handle_list_tools() -> list[Tool]:
"""告诉客户端这个服务器提供哪些工具"""
return [
Tool(
name="query_database",
description="查询公司内部数据库,返回相关数据",
inputSchema={
"type": "object",
"properties": {
"table": {"type": "string", "description": "要查询的表名"},
"condition": {"type": "string", "description": "查询条件(SQL WHERE 子句)"}
},
"required": ["table"]
}
)
]
@server.call_tool()
async def handle_call_tool(name: str, arguments: dict) -> list[TextContent]:
"""处理工具调用请求"""
if name == "query_database":
table = arguments.get("table")
condition = arguments.get("condition", "1=1")
# 实际的数据库查询逻辑
result = execute_safe_query(table, condition)
return [TextContent(type="text", text=str(result))]
raise ValueError(f"Unknown tool: {name}")
async def main():
async with mcp.server.stdio.stdio_server() as (read_stream, write_stream):
await server.run(read_stream, write_stream, InitializationOptions())优先级 B:值得学,但不急于这个月
4. Fine-tuning 工程实践(LoRA/QLoRA)
不是理论,是真正跑过微调、处理过数据、调过超参数的能力。这个技能门槛比较高(需要 GPU),但市场上真正有实操经验的人仍然不多,溢价明显。
5. AI 应用的评估与测试体系
如何量化评估 AI 应用的质量,如何做 prompt 版本管理,如何科学地做 A/B 测试。很多团队的 AI 应用处于"凭感觉改 prompt"的阶段,能建立系统性评估流程的工程师非常稀缺。
6. 多模态应用开发
会用视觉 API 做图片理解、文档解析、图表分析。这个方向的应用场景正在快速增加,但真正做过生产级多模态应用的工程师还不多。
import anthropic
import base64
from pathlib import Path
client = anthropic.Anthropic()
def analyze_document_image(image_path: str, analysis_type: str = "extract_info") -> str:
"""
多模态文档分析:从图片或扫描件中提取结构化信息
实际场景:合同扫描件、发票图片、产品截图等
"""
image_data = Path(image_path).read_bytes()
base64_image = base64.standard_b64encode(image_data).decode("utf-8")
prompts = {
"extract_info": "请提取这个文档图片中的所有关键信息,以结构化格式输出。",
"summarize": "请总结这个文档图片的主要内容。",
"extract_table": "请将图片中的表格内容转换为 Markdown 格式。"
}
response = client.messages.create(
model="claude-opus-4-5",
max_tokens=2048,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": base64_image,
},
},
{
"type": "text",
"text": prompts.get(analysis_type, prompts["extract_info"])
}
],
}
],
)
return response.content[0].text优先级 C:了解即可,暂不深入
7. LLM 底层原理(Transformer、注意力机制)
如果你是应用工程师,不需要深入理解模型内部。了解基本概念足够了,不需要能从头实现。
8. 模型量化和推理优化
除非你在做边缘部署或者需要极致性能的场景,大多数应用工程师不需要深入这个领域。
具体的学习路径建议
如果你是有 3 年以上 Java/Python 开发经验的工程师,想转 AI 工程方向:
第 1-2 个月:
- 把 Anthropic 和 OpenAI 的 API 文档从头到尾读一遍,动手跑每个例子
- 做一个完整的 RAG 项目(不用框架,自己写接入层)
- 部署 Qdrant,把自己的一批文档向量化进去
第 3-4 个月:
- 用 MCP 写 2-3 个工具服务器,连接你熟悉的系统(数据库、内部 API 等)
- 学 Claude Code / GitHub Copilot 的高效使用方式
- 参与一个有实际用户的 AI 应用项目(哪怕是内部工具)
第 5-6 个月:
- 做一次 LoRA 微调,哪怕只是跑通流程
- 建立一套 AI 应用的评估测试体系
- 尝试多模态功能的集成最重要的一点: 现在的 AI 工程技能,实践价值远大于理论学习价值。找一个真实的问题,用 AI 技术解决它,比读 100 篇文章更有效。
