CrewAI 多角色协作——我在一个真实项目里用了，结果出乎意料

老张2026/4/30大约 9 分钟

CrewAI 多角色协作——我在一个真实项目里用了，结果出乎意料

适读人群：对多 Agent 框架感兴趣、有实际项目需求的开发者 | 阅读时长：约 13 分钟 | 核心价值：CrewAI 在真实项目里的实际效果复盘，包括预期和现实的差距，以及我调整后的使用方式

我当时对 CrewAI 抱有很高的期望。

那是一个内容生产项目：客户需要定期生成行业分析报告。报告要有数据收集、竞品分析、趋势总结、最终撰写四个环节。CrewAI "研究员 + 分析师 + 写手 + 编辑" 这套多角色协作的 Demo 看起来简直就是为这个场景量身定制的。

我花了一周做出了原型，内部测试，然后让客户试用了两周。

结果是：用户反馈比我预期的差，但也有一些地方比我预期的好。差在哪里，好在哪里，这篇文章一一讲清楚。

CrewAI 的核心概念

先把 CrewAI 的基本结构说清楚，方便后面讲问题。

CrewAI 里有三个主要概念：

Agent（智能体）： 有角色定义、目标、背景故事的 LLM 实例。

Task（任务）： 分配给 Agent 的具体工作，有描述、期望输出、可选的工具。

Crew（团队）： 把多个 Agent 和 Task 组合起来，定义执行流程（顺序或并行）。

CrewAI 的设计理念是"角色扮演"——给每个 Agent 一个具体的身份（"你是一个有10年经验的市场研究员"），让 LLM 按照这个角色思考和工作。

这个理念在某些场景里是有效的，但我发现它被过度宣传了。

我搭的系统和遇到的第一个问题

# crew_report_demo.py
from crewai import Agent, Task, Crew, Process
from crewai_tools import SerperDevTool, ScrapeWebsiteTool
from langchain_openai import ChatOpenAI

# 工具
search_tool = SerperDevTool()
scrape_tool = ScrapeWebsiteTool()

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.3)
llm_strong = ChatOpenAI(model="gpt-4o", temperature=0.3)

# 定义 Agent
researcher = Agent(
    role="行业研究员",
    goal="收集最新、最全面的行业数据和新闻",
    backstory="""你是一个有着10年经验的行业研究员，擅长快速从多个信息源收集
    准确的市场数据。你注重数据的时效性和可靠性，只引用可验证的来源。""",
    tools=[search_tool, scrape_tool],
    llm=llm,
    verbose=True
)

analyst = Agent(
    role="市场分析师",
    goal="基于研究员提供的数据，深度分析市场趋势和竞争格局",
    backstory="""你是一个专注于科技行业的市场分析师，有丰富的竞品分析经验。
    你善于从数据中发现隐藏的趋势，不做泛泛而谈的分析。""",
    tools=[],
    llm=llm_strong,
    verbose=True
)

writer = Agent(
    role="报告撰写专家",
    goal="将分析结果转化为清晰、专业的分析报告",
    backstory="""你是一个擅长将复杂分析简化为清晰叙述的内容专家。
    你的报告逻辑严密、数据充分、观点鲜明，读者是企业决策者。""",
    tools=[],
    llm=llm_strong,
    verbose=True
)

# 定义 Task
research_task = Task(
    description="""
    围绕 {topic} 进行深度市场研究。
    需要收集：
    1. 最近 3 个月的重要动态（至少 5 条）
    2. 主要竞争者及其最新动向
    3. 核心市场数据（市场规模、增长率等）
    请确保每个信息点都有来源。
    """,
    expected_output="结构化的研究报告，包含数据来源，约500-800字",
    agent=researcher
)

analysis_task = Task(
    description="""
    基于研究员提供的数据，进行深度分析：
    1. 识别 3-5 个关键趋势
    2. 分析主要竞争者的策略差异
    3. 给出行业前景判断（6-12个月）
    分析要有观点，不要泛泛而谈。
    """,
    expected_output="深度分析报告，包含明确观点和数据支撑，约600-1000字",
    agent=analyst,
    context=[research_task]  # 依赖研究员的输出
)

writing_task = Task(
    description="""
    基于研究数据和分析结论，撰写一份面向企业决策者的行业分析报告。
    格式要求：
    - 执行摘要（200字内）
    - 市场现状（数据驱动）
    - 关键趋势（3-5个，每个配图表或数据）
    - 竞争格局
    - 前景与建议
    """,
    expected_output="完整的行业分析报告，1500-2500字，结构清晰，适合企业决策者阅读",
    agent=writer,
    context=[research_task, analysis_task]
)

# 组建 Crew
crew = Crew(
    agents=[researcher, analyst, writer],
    tasks=[research_task, analysis_task, writing_task],
    process=Process.sequential,
    verbose=True
)

# 运行
result = crew.kickoff(inputs={"topic": "中国AI大模型市场"})
print(result.raw)

预期和现实的差距在哪里

预期： 三个专业角色分工协作，研究员给高质量数据，分析师基于数据给出洞见，写手产出专业报告。每个角色的专业性体现在输出质量上。

现实一：角色扮演对质量提升有限

我做了一个对比实验：同样的任务，用 CrewAI 三角色协作，和用单个 GPT-4o 直接做完整任务。

在报告质量上，两者的差距比我想象的小得多。GPT-4o 本身就能扮演多个角色、多个视角思考问题，把任务拆成三个角色来做，带来的质量提升大概只有 10-15%，但成本和耗时增加了 3 倍。

现实二：上下文传递存在损耗

CrewAI 里，研究员的输出是文本，分析师的输入也是文本，这段文本在传递中可能丢失细节。我发现分析师有时候"选择性忽视"了研究员提供的某些数据，因为传递过来的文本太长，LLM 在中间部分出现了注意力漂移。

现实三：错误传播

如果研究员在某个数据上犯了错（LLM 幻觉了一个数字），这个错误会被后续的分析师和写手"接受并深化"——他们不会质疑上一个 Agent 的输出。最终报告里的错误数据显得很"权威"，因为被引用了好几次。

这是我没预料到的一个严重问题。单 Agent 的幻觉是孤立的，多 Agent 的幻觉会被放大。

调整之后，哪些地方确实有价值

发现问题之后，我调整了使用方式，有些场景下 CrewAI 确实好用。

价值点一：强制序列化复杂任务

原来我让一个 Agent 做全部事情，它会偷懒——直接跳到结论，跳过数据收集步骤。CrewAI 的任务序列强制了执行顺序，研究任务完成之前分析任务不开始，这个约束有价值。

价值点二：不同任务用不同模型

# 研究任务：用便宜快的模型做大量搜索
researcher = Agent(
    ...
    llm=ChatOpenAI(model="gpt-4o-mini"),  # 便宜
)

# 分析和写作：用更强的模型
analyst = Agent(
    ...
    llm=ChatOpenAI(model="gpt-4o"),  # 更强
)

这个模型分级用法让整体成本更优化。研究阶段调用次数多但对质量要求不那么高，用便宜模型；分析和写作阶段调用次数少但需要更深的推理，用强模型。

价值点三：并行处理独立子任务

当任务之间没有依赖关系时，CrewAI 的并行执行真的有价值：

# 并行收集不同方面的数据
tech_researcher = Agent(role="技术研究员", ...)
market_researcher = Agent(role="市场研究员", ...)

tech_task = Task(description="研究技术层面的最新进展...", agent=tech_researcher)
market_task = Task(description="研究市场层面的动向...", agent=market_researcher)

crew = Crew(
    agents=[tech_researcher, market_researcher, analyst, writer],
    tasks=[tech_task, market_task, analysis_task, writing_task],
    process=Process.hierarchical,  # 层级模式，支持并行
    manager_llm=ChatOpenAI(model="gpt-4o")
)

技术研究和市场研究同时进行，总时间减少 40%+。

我最后的实践方案

把上面的经验合并到一个优化后的配置里：

# 优化后的 CrewAI 方案
from crewai import Agent, Task, Crew, Process
from langchain_openai import ChatOpenAI

# 关键优化1：在 task 里加验证步骤，让 Agent 自我核查
research_task = Task(
    description="""
    研究 {topic} 的市场现状。
    
    重要：
    1. 每个数据点必须标注来源（网站名称 + 日期）
    2. 如果某个数据无法验证来源，明确标注"数据待核实"
    3. 完成后，用一段话总结你对数据可靠性的评估
    
    禁止：不能使用无来源的数据
    """,
    expected_output="带来源标注的研究报告，包含数据可靠性自评",
    agent=researcher
)

# 关键优化2：加一个"质量检查"角色，专门挑刺
fact_checker = Agent(
    role="事实核查员",
    goal="识别分析报告中的数据问题和逻辑漏洞",
    backstory="""你是一个吹毛求疵的事实核查员。你的工作是找问题，不是表扬。
    对于任何没有明确来源的数据，你会标注为"需要核实"。
    对于逻辑不自洽的地方，你会明确指出。""",
    llm=ChatOpenAI(model="gpt-4o-mini"),
)

fact_check_task = Task(
    description="""
    检查研究报告中的以下问题：
    1. 哪些数据没有来源？
    2. 哪些结论缺乏数据支撑？
    3. 有没有明显的逻辑问题？
    
    输出格式：问题列表，每个问题说明位置和具体问题。
    如果没有问题，输出"报告质量合格"。
    """,
    expected_output="问题列表或质量合格声明",
    agent=fact_checker,
    context=[research_task]
)

加了事实核查角色之后，幻觉传播的问题明显减少了。这是我在 CrewAI 里找到的真实价值：用一个"挑刺"角色来为前面的 Agent 把关。

我对 CrewAI 的总体判断

CrewAI 作为框架本身是好用的，代码清晰，上手快，工具集成方便。

但它宣传的"多角色协作带来更好的结果"这个核心命题，在我的实测里是有条件成立的：

如果任务可以真正并行，效果提升明显
如果任务本质上是串行的，多角色带来的质量提升有限，但成本增加明显
加入"验证/挑刺"角色，对减少幻觉有实际帮助
不同任务用不同档次的模型，可以优化成本

适合用 CrewAI 的场景：

内容生产流水线（研究 + 分析 + 写作），这是它最适合的场景
需要多个独立视角的分析任务
有明确质量把关需求的场景（加 QA 角色）

不适合的场景：

简单的单步任务
对延迟敏感的在线服务（多 Agent 串行太慢）
数据准确性要求极高的场景（多 Agent 会放大幻觉，需要外部验证）

CrewAI 值得学，但别被 Demo 里的效果迷惑，生产里用之前要想清楚你的任务结构是不是真的适合多角色协作。