第1727篇：多语言提示词设计——让同一系统在中英文场景下表现一致

老张2026/4/30大约 11 分钟

第1727篇：多语言提示词设计——让同一系统在中英文场景下表现一致

我第一次遇到这个问题，是在给一个面向全球用户的SaaS产品做AI功能。产品的用户主要分两类：国内的中文用户，和北美的英文用户。

最初的方案很粗暴：写两套系统提示，中文一套，英文一套，分别维护。做完之后你就会发现这个方案有多痛苦——每次改一个逻辑，要在两套提示词里各改一遍，而且两套慢慢就会漂移，中文版和英文版的行为不再一致。

后来我们花了相当多的时间研究多语言提示词设计，这篇文章把这个过程里的思考和实践整理出来。

问题的本质

多语言提示词面临的核心挑战不是"翻译"，而是三个层面的一致性问题：

行为一致性：同样的用户意图，无论用中文还是英文表达，模型应该给出本质相同的处理逻辑。

质量一致性：中文输出的质量和英文输出的质量应该在同一水平。不能因为模型在某种语言上训练数据更多，就导致另一种语言表现明显差。

风格一致性：品牌的沟通风格在不同语言下应该保持一致。如果中文版是正式的，英文版也应该是正式的，反之亦然。

这三个层面的挑战，在不同语言和模型组合下严重程度差异很大。以目前主流的大模型来说，中英文的行为一致性问题比五年前要小很多，但仍然存在，尤其在专业术语处理和文化语境理解方面。

常见的失败模式

在研究这个问题之前，让我先列出几种常见的"表面上做了多语言，实际上有问题"的情形：

失败模式一：直接翻译系统提示

把中文系统提示翻译成英文，或者反过来。

问题：很多指令在翻译后语义会偏移。比如中文里"请简洁回答"翻译成英文是"Please answer concisely"，但这两句话对模型的约束力度可能不同。更重要的是，语言不只是信息载体，还携带着文化预设——英文语境下的"professional tone"和中文语境下的"专业语气"，在具体表现上是有差异的。

失败模式二：语言检测后硬切换

// 这种做法有问题
if (detectLanguage(userInput).equals("zh")) {
    useChinesePrompt();
} else {
    useEnglishPrompt();
}

问题：用户可能在对话中切换语言（这很常见）。而且语言检测本身有误判，对于混合语言的输入（中英混排）尤其不准确。

失败模式三：只测试英文版

大多数提示词工程师英文更流利，往往先把英文版调到满意，然后只是粗略验证一下中文版"看起来没问题"。这会导致中文版的质量系统性低于英文版。

设计原则

基于踩过的坑，我们总结出几个多语言提示词设计原则：

原则一：逻辑层和语言层分离

把"这个任务要做什么"（逻辑层）和"用什么语言表达"（语言层）分开设计。

// 不好的设计：逻辑和语言混在一起
String zhPrompt = "你是一个客服助手，只能回答关于产品的问题，不要回答其他话题，回答要简洁友好。";
String enPrompt = "You are a customer service assistant. Only answer product-related questions. Keep responses concise and friendly.";

// 好的设计：先定义逻辑，再按语言渲染
PromptSpec spec = PromptSpec.builder()
    .role("customer-service-assistant")
    .constraint("only-product-questions")
    .style("concise-friendly")
    .build();

String zhPrompt = promptRenderer.render(spec, Language.ZH_CN);
String enPrompt = promptRenderer.render(spec, Language.EN_US);

原则二：在目标语言中原生编写，不要翻译

每种语言版本的系统提示，要由该语言的母语者（或高度熟练的使用者）直接编写，不要从另一种语言翻译过来。

翻译最大的问题不是词汇，是表达习惯。中文的"请注意以下几点："接列表，这种结构对中文大模型效果很好，但同样的结构翻译到英文，不如直接用英文的"Please note the following:"加bullet points。

原则三：覆盖语言特有的陷阱

不同语言有不同的常见问题，要在系统提示里针对性处理。

中文常见问题：

数字和单位的写法（1000 vs 一千 vs 1,000）
标点的使用（全角/半角混乱）
简体/繁体混用
专有名词的中文翻译不统一

英文常见问题：

大小写规范
美式英语 vs 英式英语的选择
缩写的使用一致性（AI vs A.I.）

// 在中文版本中加入语言规范指令
String zhLanguageNorms = """
    语言规范要求：
    - 使用简体中文，除非用户明确使用繁体
    - 数字使用阿拉伯数字（如"5个"而不是"五个"），但"第一、第二"等序数词用汉字
    - 标点使用全角（，。！？），代码内的标点使用英文半角
    - 专有名词首次出现时提供英文原文（如"提示词工程（Prompt Engineering）"）
    """;

架构设计

把这些原则落地，需要一套完整的多语言Prompt管理架构：

// 核心数据结构：语言无关的Prompt规格
@Data
@Builder
public class PromptSpec {
    private String roleKey;                    // 对应语言包里的角色描述key
    private String taskKey;                    // 对应语言包里的任务描述key
    private List<String> constraintKeys;       // 约束条件key列表
    private Map<String, String> parameters;    // 动态参数
    private String styleKey;                   // 风格key
    private String formatKey;                  // 输出格式key
    private List<String> exampleKeys;          // 示例key列表
}

// 语言包：每种语言一个实现
public interface LanguagePack {
    String getLanguageCode();
    String resolveKey(String key);
    String resolveKeyWithParams(String key, Map<String, String> params);
}

@Component("zhCnLanguagePack")
public class ChineseMandarin LanguagePack implements LanguagePack {
    
    private final Map<String, String> strings = Map.of(
        "role.customer-service", "你是{{companyName}}的智能客服助手，代表公司为用户提供专业服务。",
        "role.code-reviewer", "你是一位资深Java工程师，负责进行代码审查，发现潜在问题并提出改进建议。",
        "task.answer-product-questions", "回答用户关于{{productName}}的问题，包括功能使用、故障排查、最佳实践等。",
        "constraint.no-off-topic", "如果用户的问题与{{scope}}无关，礼貌地说明你只能回答{{scope}}相关问题，并引导用户重新提问。",
        "style.professional-friendly", "语气要专业而不失亲切，像一位靠谱的同事在帮助你，而不是照本宣科的客服机器人。",
        "format.structured-answer", "对于复杂问题，使用序号列表组织答案；对于简单问题，直接回答无需列表。"
    );
    
    @Override
    public String getLanguageCode() { return "zh-CN"; }
    
    @Override
    public String resolveKey(String key) {
        return strings.getOrDefault(key, "[Key not found: " + key + "]");
    }
    
    @Override
    public String resolveKeyWithParams(String key, Map<String, String> params) {
        String template = resolveKey(key);
        for (Map.Entry<String, String> param : params.entrySet()) {
            template = template.replace("{{" + param.getKey() + "}}", param.getValue());
        }
        return template;
    }
}

@Component("enUsLanguagePack")
public class EnglishAmericanLanguagePack implements LanguagePack {
    
    private final Map<String, String> strings = Map.of(
        "role.customer-service", "You are an intelligent customer support assistant for {{companyName}}, providing professional assistance on behalf of the company.",
        "role.code-reviewer", "You are a senior Java engineer conducting code reviews, identifying potential issues and suggesting improvements.",
        "task.answer-product-questions", "Answer user questions about {{productName}}, covering feature usage, troubleshooting, and best practices.",
        "constraint.no-off-topic", "If a question falls outside {{scope}}, politely explain that you can only assist with {{scope}}-related topics and guide the user to rephrase.",
        "style.professional-friendly", "Maintain a professional yet approachable tone — like a knowledgeable colleague helping you out, not a scripted support bot.",
        "format.structured-answer", "Use numbered lists for complex answers; respond directly without lists for simple questions."
    );
    
    @Override
    public String getLanguageCode() { return "en-US"; }
    
    // ... implementations
}

语言检测与动态切换

一个真实系统需要处理用户语言动态变化的情况：

@Service
public class MultilingualPromptService {
    
    @Autowired
    private Map<String, LanguagePack> languagePacks;
    
    @Autowired
    private PromptRenderer promptRenderer;
    
    @Autowired
    private LanguageDetector languageDetector;
    
    /**
     * 根据对话历史和当前消息，决定使用哪种语言的Prompt
     */
    public String buildSystemPrompt(PromptSpec spec, ConversationContext context) {
        // 1. 检测用户当前使用的语言
        Language userLanguage = detectUserLanguage(context);
        
        // 2. 获取对应的语言包
        LanguagePack languagePack = getLanguagePack(userLanguage);
        
        // 3. 渲染Prompt
        return promptRenderer.render(spec, languagePack, context.getParameters());
    }
    
    private Language detectUserLanguage(ConversationContext context) {
        String latestMessage = context.getLatestUserMessage();
        
        // 优先使用用户显式设置的语言偏好
        if (context.getUserProfile().getPreferredLanguage() != null) {
            return Language.fromCode(context.getUserProfile().getPreferredLanguage());
        }
        
        // 其次检测最近几条消息的语言
        List<String> recentMessages = context.getRecentUserMessages(3);
        Language detected = languageDetector.detectDominantLanguage(recentMessages);
        
        // 对混合语言输入（如中英混排），使用中文处理通常更合适
        if (detected == Language.MIXED) {
            return hasChineseCharacters(latestMessage) ? Language.ZH_CN : Language.EN_US;
        }
        
        return detected;
    }
    
    private boolean hasChineseCharacters(String text) {
        return text.chars().anyMatch(c -> 
            Character.UnicodeBlock.of(c) == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS);
    }
    
    private LanguagePack getLanguagePack(Language language) {
        String packKey = language.getCode().toLowerCase().replace("-", "") + "LanguagePack";
        return languagePacks.getOrDefault(packKey, languagePacks.get("enUsLanguagePack"));
    }
}

专业术语的一致性处理

这是多语言场景里最容易被忽视的问题。专业术语在不同语言间的处理策略：

策略一：保留英文原词 对于技术术语，中文版直接使用英文原词，或"中文（英文）"格式：

✓ 使用 Token、Embedding、Fine-tuning
✓ 使用 令牌（Token）、嵌入向量（Embedding）
✗ 使用"记号"、"嵌入"（容易引起误解）

策略二：建立术语词典

@Component
public class TerminologyManager {
    
    // 术语词典：中文术语 -> 英文术语（双向）
    private final Map<String, String> zhToEn = Map.of(
        "提示词工程", "Prompt Engineering",
        "思维链", "Chain of Thought",
        "幻觉", "Hallucination",
        "上下文窗口", "Context Window",
        "微调", "Fine-tuning",
        "检索增强生成", "Retrieval-Augmented Generation",
        "向量数据库", "Vector Database"
    );
    
    /**
     * 在系统提示中加入术语一致性指令
     */
    public String buildTerminologyInstructions(Language language, Set<String> relevantTerms) {
        if (relevantTerms.isEmpty()) return "";
        
        if (language == Language.ZH_CN) {
            StringBuilder sb = new StringBuilder("术语使用规范（保持一致）：\n");
            for (String term : relevantTerms) {
                String enTerm = zhToEn.get(term);
                if (enTerm != null) {
                    sb.append(String.format("- 使用 \"%s\" 或 \"%s（%s）\"，不使用其他译法\n", term, term, enTerm));
                }
            }
            return sb.toString();
        } else {
            StringBuilder sb = new StringBuilder("Terminology consistency (use these exact terms):\n");
            for (String zhTerm : relevantTerms) {
                String enTerm = zhToEn.get(zhTerm);
                if (enTerm != null) {
                    sb.append(String.format("- Use \"%s\" (not \"%s\")\n", enTerm, zhTerm));
                }
            }
            return sb.toString();
        }
    }
}

多语言测试框架

最重要的：测试。多语言系统必须在每种目标语言上都有充分的测试用例：

@SpringBootTest
public class MultilingualPromptConsistencyTest {
    
    @Autowired
    private MultilingualPromptService promptService;
    
    @Autowired
    private LLMClient llmClient;
    
    /**
     * 核心一致性测试：同一个问题，中英文版本的处理结果应该在语义上等价
     */
    @ParameterizedTest
    @MethodSource("parallelTestCases")
    public void testSemanticConsistency(ParallelTestCase testCase) {
        // 用中文提问
        String zhResponse = getResponse(testCase.getZhQuestion(), Language.ZH_CN);
        
        // 用英文提问（含义相同）
        String enResponse = getResponse(testCase.getEnQuestion(), Language.EN_US);
        
        // 评估两个回答在语义上是否一致
        double semanticSimilarity = evaluateSemanticSimilarity(zhResponse, enResponse);
        
        assertThat(semanticSimilarity)
            .as("中英文回答语义相似度不足，可能存在处理不一致问题")
            .isGreaterThan(0.75);
    }
    
    private static Stream<ParallelTestCase> parallelTestCases() {
        return Stream.of(
            new ParallelTestCase(
                "如何重置密码？",
                "How do I reset my password?"
            ),
            new ParallelTestCase(
                "我的订单什么时候到？",
                "When will my order arrive?"
            ),
            new ParallelTestCase(
                "这个功能不支持导出Excel，这是bug吗？",
                "This feature doesn't support Excel export. Is this a bug?"
            )
        );
    }
    
    /**
     * 语言保持性测试：中文提问应该得到中文回答，英文提问应该得到英文回答
     */
    @Test
    public void testLanguagePreservation() {
        String zhResponse = getResponse("你好，我想了解你们的退款政策", Language.ZH_CN);
        assertThat(containsChineseCharacters(zhResponse))
            .as("中文提问应该得到中文回答")
            .isTrue();
        
        String enResponse = getResponse("Hi, I'd like to know about your refund policy", Language.EN_US);
        assertThat(isEnglishOnly(enResponse))
            .as("英文提问应该得到英文回答")
            .isTrue();
    }
    
    private String getResponse(String question, Language language) {
        ConversationContext ctx = ConversationContext.builder()
            .latestUserMessage(question)
            .userProfile(UserProfile.createDefault("test-user"))
            .build();
        
        ctx.getUserProfile().setPreferredLanguage(language.getCode());
        
        String systemPrompt = promptService.buildSystemPrompt(getTestSpec(), ctx);
        return llmClient.complete(systemPrompt, question);
    }
}

一个真实的踩坑经历

有一次我们的系统在中文场景下出现了一个奇怪的问题：用户问"帮我总结一下主要功能"，系统回答用了1、2、3编号列表，但其中有几个条目明显在说同一件事，内容重复了。同样的英文问题"Summarize the main features"，回答就没有这个问题。

排查了很久，最后发现原因在于：我们的格式模块里有一条中文指令"对于列表内容，每条要详细展开说明"，英文版对应的指令是"keep list items concise"。两个方向完全相反的格式要求！

这种问题在"翻译式多语言"里很容易出现，因为翻译的时候两边都觉得自己写的"差不多"，但仔细对比就会发现有实质性差异。

这也是我后来坚持"每种语言原生编写+双语审查"原则的原因。重要的模块要有一个中英双语都熟练的人对着两个版本逐条比较，确保逻辑等价。

小结

多语言提示词设计的核心不是翻译技巧，而是工程架构：用逻辑和语言分离的设计，配合语言包机制，让每种语言版本既能原生表达，又能保证逻辑的一致性。

最后再强调一次：在每种目标语言上充分测试。这是最容易被跳过、代价却最大的步骤。