第1851篇：AI一年后回头看——那些踩过的坑和获得的真实成长

老张2026/4/30大约 11 分钟

第1851篇：AI一年后回头看——那些踩过的坑和获得的真实成长

去年这个时候，我给自己定了个目标：一年内完成从Java后端到AI工程师的转型。

现在回头看，完成了吗？说完成有点太自信，说没完成又不太诚实。准确说法是：我已经能独立落地AI项目、拿到市场认可，但同时对这个领域也越来越敬畏。

这篇文章不是成功学分享，也不是技术教程。就是一个经历了真实项目踩坑的人，坐下来跟你说点掏心窝子的话。

一开始我以为转型只是"换个框架"

做了多年Java后端，我对技术学习这件事有一定自信。当时的想法很简单：AI不就是Python + 几个API调用嘛，顶多加上一些模型微调的知识，两三个月应该能上手。

然后现实给了我一巴掌。

第一个项目是给一家教育公司做智能客服。需求听起来很简单：接入LLM，让它能回答学员关于课程的问题，不会的转人工。

我按照教程花了不到一周时间搭出来第一版：RAG检索 + GPT-4 + 简单的对话历史管理。演示的时候效果看起来不错，客户也很满意。

然后上了生产环境。

问题开始一个接一个冒出来：

问题一：幻觉比我想象的严重得多。

在测试环境里，问题都是我们预设的，模型表现还好。真实用户的问法千奇百怪，模型开始瞎编课程细节。有学员问某门课有没有录播，模型信誓旦旦说有，其实没有。有学员问退款政策，模型给出的说法和实际政策差了一大截。

我当时以为RAG可以解决幻觉问题，后来才理解：RAG能给模型提供上下文，但无法阻止模型在上下文不够用的时候"发挥创意"。

问题二：延迟完全不可接受。

GPT-4的响应速度在demo里感觉还好，但真实对话场景用户等待超过3秒就开始不耐烦了。加上我们的RAG检索、prompt构建、历史记录处理，端到端延迟经常到5-8秒。

问题三：费用超出预期三倍。

我最初的成本估算完全没有考虑真实的token消耗模式。用户的上下文越来越长，加上我们塞进去的知识库内容，每次请求的token数量比预期高了很多。

这三个问题让我意识到：AI工程和普通后端工程的差距，远比我想象的大。

真正的坑在哪里

回顾这一年，我觉得踩的坑可以分成三类：技术认知错误、工程经验缺失、心态问题。

技术认知错误

误区一：相信Benchmark数据

早期选模型的时候，我会去看各种评测榜单，哪个模型在MMLU、HumanEval、GSM8K上得分高就用哪个。

后来发现，评测数据和你的实际业务场景之间的gap可能非常大。特别是中文业务场景，很多英文模型的实际表现比评测数字差很多。

现在我的做法是：先用5-10个真实业务case做快速POC，用自己的业务数据说话，不看benchmark。

误区二：认为Prompt Engineering是玄学

刚开始我觉得写prompt就是凑字，没什么技术含量。后来发现完全不是这回事，prompt的结构、示例的质量、指令的明确程度，对模型输出质量的影响是量化可观测的。

有一次我在prompt里加了"请严格按照以下格式输出"并配上JSON schema示例，输出格式一致性从60%提升到95%。这个差距决定了后续解析代码能不能跑起来。

误区三：RAG万能论

我一度认为RAG能解决所有知识相关的问题。实际上RAG的效果高度依赖：

知识库的质量和结构
检索策略的选择
chunk size和overlap的设置
如何把检索结果融入prompt

这几个变量随便哪个没调好，RAG的效果都会很差。

工程经验缺失

作为Java工程师，我原来很擅长设计稳定的系统。但AI系统有它自己的不稳定性来源，而这些不稳定性需要新的工程方法去应对。

可观测性是第一位的。

AI系统最难的不是写代码，是调试。当用户反馈"这个回答不对"的时候，你需要能追溯到：用了什么prompt、检索到了什么文档、模型返回了什么、经过了什么后处理。

我在第一个项目里完全没做这个，出了问题就像无头苍蝇。后来专门建了一套日志系统，记录每一次LLM调用的完整链路。

灰度和回滚机制必须提前设计。

AI模型更新（包括你主动升级版本和API提供商悄悄更新）可能导致输出行为变化。我吃过一次亏：某次OpenAI对模型做了更新，我们线上的JSON解析开始大量失败，因为模型输出格式微妙地变了。

从那以后，所有生产环境的AI调用都加了：输出格式校验、异常降级策略、关键指标监控。

心态问题

这一年里有几个月我处于持续焦虑的状态。

LangChain每周都有新版本，LlamaIndex也在飞速迭代，RAG有新论文，Agent有新框架，各种公司发布各种新模型……感觉学不过来。

后来我跟一个做了十几年架构的老工程师聊，他说了一句话让我想通了：

"技术永远在变，但工程本质不变。你不需要追每一个新框架，你需要把每个项目做出来、做稳。"

这句话现在还贴在我电脑旁边。

一年里真正学到的东西

说完踩坑，说点正面的。

1. 建立了完整的AI项目工程化思维

下面这张图是我现在做AI项目的基本框架思路：

这个流程看起来很普通，但每一步都有很多细节需要做对。

2. 掌握了RAG系统的调优方法

这是我踩坑最多、学到最多的地方。分享一个我用过的RAG优化对比测试框架：

@Service
public class RagEvaluationService {
    
    private final VectorStore vectorStore;
    private final LlmClient llmClient;
    
    /**
     * 对比不同RAG配置的效果
     */
    public EvaluationReport compareRagConfigs(
            List<TestCase> testCases,
            List<RagConfig> configs) {
        
        EvaluationReport report = new EvaluationReport();
        
        for (RagConfig config : configs) {
            ConfigResult result = new ConfigResult(config.getName());
            
            for (TestCase testCase : testCases) {
                // 用当前配置检索
                List<Document> retrieved = vectorStore.search(
                    testCase.getQuery(), 
                    config.getTopK(),
                    config.getSimilarityThreshold()
                );
                
                // 构建prompt并调用LLM
                String prompt = buildPrompt(testCase.getQuery(), retrieved, config);
                String answer = llmClient.call(prompt);
                
                // 评估答案质量
                double relevanceScore = evaluateRelevance(
                    testCase.getExpectedAnswer(), answer);
                double faithfulnessScore = evaluateFaithfulness(
                    retrieved, answer);
                double groundednessScore = evaluateGroundedness(
                    testCase.getQuery(), retrieved, answer);
                
                result.addCase(TestCaseResult.builder()
                    .query(testCase.getQuery())
                    .answer(answer)
                    .relevance(relevanceScore)
                    .faithfulness(faithfulnessScore)
                    .groundedness(groundednessScore)
                    .retrievedDocs(retrieved.size())
                    .build());
            }
            
            report.addConfigResult(result);
        }
        
        return report;
    }
    
    /**
     * 评估答案与期望答案的相关性（用LLM评估）
     */
    private double evaluateRelevance(String expected, String actual) {
        String evalPrompt = String.format("""
            请评估以下两个答案的语义相似程度，返回0到1之间的浮点数。
            期望答案：%s
            实际答案：%s
            只返回数字，不要其他内容。
            """, expected, actual);
        
        try {
            String score = llmClient.call(evalPrompt).trim();
            return Double.parseDouble(score);
        } catch (Exception e) {
            return 0.0;
        }
    }
    
    /**
     * 评估答案是否有编造内容（忠实度）
     */
    private double evaluateFaithfulness(List<Document> context, String answer) {
        String contextText = context.stream()
            .map(Document::getContent)
            .collect(Collectors.joining("\n"));
            
        String evalPrompt = String.format("""
            以下是参考资料和基于参考资料生成的答案。
            请判断答案中有多少比例的内容可以从参考资料中找到支撑，返回0到1之间的浮点数。
            参考资料：%s
            答案：%s
            只返回数字。
            """, contextText, answer);
        
        try {
            String score = llmClient.call(evalPrompt).trim();
            return Double.parseDouble(score);
        } catch (Exception e) {
            return 0.0;
        }
    }
    
    private double evaluateGroundedness(String query, 
                                        List<Document> docs, 
                                        String answer) {
        // 判断检索到的文档是否真正支撑了问题的回答
        boolean hasRelevantDocs = docs.stream()
            .anyMatch(d -> isDocumentRelevant(query, d));
        return hasRelevantDocs ? 1.0 : 0.0;
    }
    
    private boolean isDocumentRelevant(String query, Document doc) {
        // 简化实现：计算关键词重叠度
        Set<String> queryTokens = tokenize(query);
        Set<String> docTokens = tokenize(doc.getContent());
        long overlap = queryTokens.stream()
            .filter(docTokens::contains)
            .count();
        return (double) overlap / queryTokens.size() > 0.3;
    }
    
    private Set<String> tokenize(String text) {
        return Arrays.stream(text.split("[\\s，。！？、]+"))
            .filter(t -> t.length() > 1)
            .collect(Collectors.toSet());
    }
    
    private String buildPrompt(String query, List<Document> docs, RagConfig config) {
        String context = docs.stream()
            .map(Document::getContent)
            .collect(Collectors.joining("\n\n"));
        return config.getPromptTemplate()
            .replace("{context}", context)
            .replace("{query}", query);
    }
}

有了这套评估框架，调优RAG参数就不是凭感觉了，每次改动都能量化到底提升了多少。

3. 搞清楚了成本控制的套路

AI项目的成本控制是我踩坑最深的地方之一。分享几个真实有效的手段：

缓存语义相似请求

@Component
public class SemanticCacheService {
    
    private final VectorStore cacheStore;
    private final double SIMILARITY_THRESHOLD = 0.92;
    
    /**
     * 查找语义相似的缓存结果
     */
    public Optional<String> findSimilarCache(String query) {
        List<CacheEntry> similar = cacheStore.searchCache(
            query, 
            1, 
            SIMILARITY_THRESHOLD
        );
        
        if (!similar.isEmpty()) {
            CacheEntry entry = similar.get(0);
            // 检查缓存是否过期
            if (entry.getCreatedAt().plusHours(24).isAfter(LocalDateTime.now())) {
                log.info("Cache hit for query: {}", query);
                return Optional.of(entry.getResponse());
            }
        }
        return Optional.empty();
    }
    
    public void saveToCache(String query, String response) {
        CacheEntry entry = new CacheEntry(query, response, LocalDateTime.now());
        cacheStore.saveCache(entry);
    }
}

这个方案在客服场景里效果特别好，因为用户问的问题经常高度重复。我们有个项目上线语义缓存之后，LLM调用次数减少了40%。

分级路由策略

@Service
public class ModelRoutingService {
    
    private final LlmClient gpt4Client;    // 贵，但强
    private final LlmClient gpt35Client;   // 便宜，够用
    private final LlmClient localClient;   // 本地，不花钱
    
    public LlmClient selectModel(UserRequest request) {
        // 简单问题：用本地模型或便宜模型
        if (isSimpleQuery(request)) {
            return localClient;
        }
        
        // 中等复杂度：用GPT-3.5
        if (isMediumComplexity(request)) {
            return gpt35Client;
        }
        
        // 复杂推理、需要高质量输出：用GPT-4
        return gpt4Client;
    }
    
    private boolean isSimpleQuery(UserRequest request) {
        // 判断规则：问题长度、是否包含复杂推理关键词、历史对话深度等
        return request.getQuery().length() < 50 
            && !containsComplexKeywords(request.getQuery())
            && request.getConversationDepth() < 3;
    }
    
    private boolean containsComplexKeywords(String query) {
        List<String> complexKeywords = Arrays.asList(
            "分析", "对比", "为什么", "如何设计", "优化方案"
        );
        return complexKeywords.stream()
            .anyMatch(query::contains);
    }
    
    private boolean isMediumComplexity(UserRequest request) {
        return request.getQuery().length() < 200 
            && request.getConversationDepth() < 10;
    }
}

这个分级路由上线后，我们的月API费用从最初的估算基准降低了约55%，同时关键场景的回答质量没有下降。

4. 建立了持续学习的节奏

这一年最重要的收获之一是找到了适合自己的学习节奏。

不是每天刷论文，也不是追每一个新框架。而是：

每周固定看两三篇有实际价值的技术文章
每个月做一个小项目验证某个技术点
每季度做一次知识体系梳理

这个节奏让我不再焦虑，同时保持了真实的进步。

现在的状态

一年后，我现在的状态是：

能独立完成从需求分析到上线运维的全流程AI项目。接触了客服、内容生成、知识库问答、数据分析助手等多个方向，每个方向都踩过坑也学到了东西。

但更重要的是：对这个领域有了真实的敬畏感。

不是那种"AI太厉害了没人能学会"的恐惧，而是"这个东西比我想象的复杂，需要持续投入"的清醒认知。

很多人问我转型值不值。我觉得这个问题问错了方向。更准确的问题是：你愿意在这个方向上持续投入多久？

如果你只是想跟风换个简历上好看的技术标签，可能不值得。如果你真的对"让系统更智能"这件事有热情，那绝对值得——而且会越做越有意思。

给同样在转型路上的你

最后说几句实在话：

1. 把第一个项目做出来比学完所有知识更重要。

不要等到"学好了再做"，在做中学的效率高出一个数量级。

2. 选一个真实的业务场景，不要做toy project。

玩具项目给不了你真实的挑战，也给不了你真实的成就感。找一个真实的需求，哪怕是帮朋友解决一个小问题，都比永远在练习更有价值。

3. 建立你的输出渠道。

写文章、开源项目、技术分享，都行。输出逼你去整理思路，也帮你建立影响力。这是我这一年里做的最正确的决定之一。

4. 跟人交流，不要闭门造车。

我遇到的很多坑，其实和别人聊一聊就能少走好多弯路。找到同频的人，建立你的技术交流圈子。

转型这件事，没有捷径，但有正确的路。希望这篇文章对正在这条路上的你有一点帮助。