第1993篇：那些让我印象深刻的读者问题——1500条留言里的智慧

老张2026/4/30大约 10 分钟

第1993篇：那些让我印象深刻的读者问题——1500条留言里的智慧

写公众号这几年，我回复评论区的留言大概有1500条以上。

说实话，回留言这件事曾经是我最容易拖延的环节——每天写完一篇文章已经很累了，再看到评论区几十条问题，有时候会有一种说不清楚的心理障碍，不是懒，更像是……压力？怕回答不好，怕误导了别人。

但坚持回复之后，我慢慢发现一件事：读者的问题，往往比我自己写的文章更有价值。

他们的问题来自真实的一线困境，没有经过任何美化和包装，有时候一个很"初级"的问题背后，藏着一个非常本质的困惑，连我自己都没想清楚过。

今天这篇文章，我想把那些真正让我停下来认真思考的问题分享出来，带着我当时的回答，也带着现在回看时新的理解。

一、关于技术方向的困惑

问题1：老张，我是做了8年的Java后端，现在要不要学Python转AI？

这个问题出现的频率最高，各种变体加起来有上百条。

我当时的回答是：不需要抛弃Java，但需要搞清楚你想做什么。

如果你想做AI科研、做模型训练、做算法研究，Python是必须的，而且不只是会用，要深入。但如果你的方向是把AI能力工程化地嵌入业务系统——这恰恰是企业最缺人的方向——Java完全可以胜任，甚至更合适。

现在回看，我会补充一点：语言本身越来越不是核心壁垒，但生态熟悉程度很重要。Spring AI、LangChain4j已经覆盖了AI工程化的大部分场景，一个熟悉Spring生态的Java工程师，两三个月就能在这些框架上做出生产级的AI系统。而一个从Python转过来的人，还要同时学习Spring的思维方式，反而更慢。

坚守优势，不要为了跟风而全盘推翻自己。

问题2：Prompt工程有没有天花板？感觉会的人和不会的人差距越来越大

这个问题问得很尖锐。

我当时的回答是：Prompt工程的确有天花板，但这个天花板比大多数人以为的要高得多。

很多人以为Prompt工程就是"写好指令"，这只是表面层。更深的层次是：理解模型的推理模式、设计能让模型暴露中间思维过程的提示结构、通过few-shot例子隐性地传递复杂约束……这些能力需要大量实践才能积累。

但我更想说的是另一个维度的问题：Prompt工程是必要但不充分的。光会写Prompt，解决不了工程可靠性的问题。真正有价值的是：如何把Prompt跟验证、重试、降级、监控结合起来，让整个链路在生产环境里稳定运行。单纯的Prompt天才在工程实践里并不比扎实的工程师更有竞争力。

问题3：RAG和Fine-tuning，到底什么时候该选哪个？

这个问题我已经写过专门的文章，但评论区还是反复有人问，说明文章里的描述还不够清晰。

让我用一个更直白的判断框架：

最简单的原则：知识的时效性和可维护性，选RAG；行为模式和风格的固化，选Fine-tuning。这两者不是非此即彼，高要求的系统经常两者都用。

二、关于工程实践的真实困境

问题4：我们的RAG系统，语义相似度分数很高，但答案还是经常答非所问，什么原因？

这个问题让我折腾了好一阵子。当时我把自己遇到过的类似情况梳理了一遍，给出了几个排查方向：

第一，相似度指标和语义匹配不是同一回事。 余弦相似度高，不代表语义真的匹配。特别是当问题和文档的表述风格差异很大时（口语化问题vs书面体文档），向量空间里的距离并不能反映真实的语义关联。

解法：加入混合检索（BM25稀疏检索 + 向量稠密检索），两者的结果取并集后重排序：

@Service
public class HybridSearchService {
    
    private final VectorStore vectorStore;       // 稠密检索
    private final ElasticsearchClient esClient;  // 稀疏检索（BM25）
    private final RerankClient rerankClient;     // 重排序
    
    public List<SearchResult> search(String query, int topK) {
        // 并发执行两种检索
        CompletableFuture<List<SearchResult>> denseSearch = CompletableFuture.supplyAsync(
            () -> vectorStore.search(query, topK * 2)
        );
        CompletableFuture<List<SearchResult>> sparseSearch = CompletableFuture.supplyAsync(
            () -> bm25Search(query, topK * 2)
        );
        
        List<SearchResult> denseResults = denseSearch.join();
        List<SearchResult> sparseResults = sparseSearch.join();
        
        // 合并去重
        Set<String> seen = new HashSet<>();
        List<SearchResult> combined = new ArrayList<>();
        for (SearchResult r : denseResults) {
            if (seen.add(r.getId())) combined.add(r);
        }
        for (SearchResult r : sparseResults) {
            if (seen.add(r.getId())) combined.add(r);
        }
        
        // 重排序：用一个小模型重新评估query和每个候选文档的相关性
        return rerankClient.rerank(query, combined, topK);
    }
}

第二，文档分块粒度问题。 如果一个chunk包含多个子主题，被检索到之后，LLM可能被chunk里不相关的部分带偏。

第三，问题改写（Query Rewriting）的价值被低估。 用户的原始问题往往表述不够精确，先用LLM把问题改写成更利于检索的形式，可以显著提升召回率。

问题5：多轮对话的上下文管理，超出token限制怎么办？

这个问题很实际。多轮对话一长，历史消息很快就占满了上下文窗口。常见的做法有几种，我在评论区分享了一个我觉得比较实用的策略：

@Component
public class ConversationContextManager {

    private static final int MAX_CONTEXT_TOKENS = 8000;
    private static final int RECENT_TURNS_RESERVED = 3; // 最近N轮强制保留
    
    /**
     * 智能压缩会话历史，保持在token预算内
     */
    public List<Message> compress(List<Message> history, String systemPrompt) {
        int systemTokens = estimateTokens(systemPrompt);
        int budget = MAX_CONTEXT_TOKENS - systemTokens - 500; // 留buffer
        
        if (estimateTotalTokens(history) <= budget) {
            return history; // 不需要压缩
        }
        
        // 最近N轮必须保留
        int splitPoint = Math.max(0, history.size() - RECENT_TURNS_RESERVED * 2);
        List<Message> recentMessages = history.subList(splitPoint, history.size());
        List<Message> olderMessages = history.subList(0, splitPoint);
        
        // 对较早的消息做摘要
        String summary = summarizeMessages(olderMessages);
        Message summaryMessage = Message.system(
            "以下是之前对话的摘要：\n" + summary
        );
        
        List<Message> result = new ArrayList<>();
        result.add(summaryMessage);
        result.addAll(recentMessages);
        
        return result;
    }
    
    private String summarizeMessages(List<Message> messages) {
        if (messages.isEmpty()) return "";
        
        String conversationText = messages.stream()
            .map(m -> m.getRole() + ": " + m.getContent())
            .collect(Collectors.joining("\n"));
        
        String prompt = "请用100字以内概括以下对话的主要内容和关键结论：\n\n" + conversationText;
        return llmClient.complete(prompt, Map.of("temperature", 0.0, "max_tokens", 200));
    }
}

这个方案的关键是分层处理：最近的对话保持原文，较早的对话压缩成摘要。既保留了近期的对话连贯性，又控制了token消耗。

三、关于职业发展的迷茫

问题6：我已经是高级工程师了，转AI会不会从头开始？感觉很亏

这个问题背后的情绪我非常理解。多年积累的经验和口碑，面对一个全新领域，有一种"归零感"很正常。

但我想说的是：这种"从头开始"的感觉是真实的，但"很亏"的判断是错的。

你的Java经验不是包袱，是资产。AI工程化最难的不是AI那部分，而是如何把AI能力跟复杂的业务系统可靠地整合——而这恰恰是你的强项。

我见过很多纯AI背景的人做落地项目时犯的错误，跟工程经验不足高度相关：对并发和异常处理考虑不够、对数据一致性不敏感、不习惯写测试、不了解生产运维的需求……这些都是老Java工程师天然的优势。

真正的"从头开始"是那些需要重学数学、重建算法基础的场景。工程化落地不在这个范畴。

问题7：AI会让Java工程师失业吗？

这是问得最多、也最容易引战的话题。

我的观点一直没变：AI会改变Java工程师做什么，而不会消灭Java工程师。

被AI替代概率高的是：写样板代码、做简单的CRUD、写单元测试、解释现有代码。

被AI替代概率低的是：理解复杂业务需求并转化为系统设计、协调多方干系人的技术决策、定位生产事故的根本原因、评估技术方案的长期演进风险。

本质上，AI在替代的是执行层的脑力劳动，而不是判断层的工程智慧。要做的不是对抗这个趋势，而是主动把自己的工作重心向判断层迁移。

四、那些问倒我的问题

说实话，有些问题我当时没回答好，现在想来还有点遗憾。

有人问：老张，你有没有遇到过AI给出了错误的技术建议，而你信了，最后出了问题的经历？

我当时给了一个比较保守的回答。但实际上，答案是：有，而且不止一次。

最典型的一次：我在设计一个缓存失效策略时，用LLM帮我推演了几种方案的pros/cons，它非常确信地告诉我方案A的一致性更强。我采纳了，上线后在高并发场景下出现了数据不一致。

事后分析，LLM的推理逻辑看起来完全正确，但它忽略了一个极端边界情况——这个情况在文档里有记载，但在我给它的上下文里没有提到。

这件事之后，我有了一个习惯：让LLM帮我想方案可以，但关键决策必须自己独立验证，不能只凭LLM的"自信"就拍板。LLM在表达不确定性上有天然缺陷——它说话很有把握，但实际的把握程度并不总跟语气匹配。

还有人问：如果重来，你会走同样的路吗？

这个问题让我愣了很久。

最后我的答案是：走同样的路，但会少走一些弯路。

主要的弯路有两条：一是太早纠结技术选型（哪个向量库更好、哪个框架更先进），这些决策很快会被迭代掉；二是太晚关注可观测性，等到系统出问题了才发现根本不知道哪里错了。

如果重来，我会更早地建立监控体系，对每一个LLM调用的输入、输出、耗时、成本都做日志记录，这是后续一切优化的基础。

五、留言里让我意外的温度

技术问题之外，有一类留言让我一直记着。

有一个读者，连续三年在我的文章下面留言，从最开始问"什么是Transformer"，到后来分享他主导的AI项目上线了，到后来说他因为这些文章拿到了心仪的offer。

他从没留过名字，只有一个昵称。

我不知道他是谁，但我记得他每一条留言，因为那些留言让我觉得，写这些文章是值得的事情。

还有一位读者，在某篇文章下面留了一条很短的评论："老张，你写的东西帮我度过了一段很难熬的时期。谢谢。"

我盯着这条留言看了很久，没回，因为不知道回什么好。

最后回了两个字：加油。

希望他看到了。

1500条留言，每一条都是真实的人，真实的困惑，真实的成长。

我能做的，只是在有限的认知范围内，尽可能诚实地分享我的所见所想。写错了就认错，不知道就说不知道，踩坑了就复盘踩坑的过程。

这是我对这1500条留言最诚实的回应方式。