AI应用的国际化：多语言AI服务的架构与实践

老张2026/8/11大约 19 分钟国际化多语言i18nSpring AIJava跨语言

AI应用的国际化：多语言AI服务的架构与实践

两个月的紧急改造

2025年9月，某SaaS公司的Java工程师陈浩接到了一个让他瞬间头皮发麻的需求。

他们的产品要出海，目标市场是东南亚和日本。产品经理兴奋地说："咱们的AI助手功能是核心差异化卖点，这次出海也要带上！"

问题是，这个AI助手完全只支持中文。从提示词到系统消息到错误提示，全是中文。

陈浩翻了翻代码库，AI相关的代码散落在至少 47 个文件里，每个文件里都有硬编码的中文提示词字符串。向量数据库里存储的是中文文档。调用的是中文优化的模型配置。

"多久能改好？"产品经理问。

陈浩估算了一下："两个月。"

"太久了，能压缩到三周吗？"

压缩到三周后，他们上线了一个"支持多语言"的版本。用英文问问题，AI用英文回答，但回答质量比中文差了一大截。用日语问，有时候直接用中文回答。

市场那边反馈："东南亚用户觉得AI很笨，日本用户说AI不礼貌（因为没有正式的敬语）。"

这篇文章，写的就是如何系统性地解决多语言 AI 服务的架构问题，不留坑。

AI 多语言的核心挑战

多语言 AI 和传统 i18n 有一个本质区别：翻译文案是确定的，但 AI 响应是生成的。

传统 i18n 只需要把 UI 文案翻译好就行，AI 多语言面对的是完全不同的维度：

两种主流架构方案对比

方案A：翻译桥接（Translation Bridge）

用户（日语输入）
    ↓ 翻译到中文
中文 LLM 处理
    ↓ 翻译回日语
用户收到日语响应

方案B：直接多语言（Native Multilingual）

用户（日语输入）
    ↓
多语言 LLM 直接处理日语
    ↓
用户收到日语响应

维度	翻译桥接	直接多语言
中文知识库利用	充分利用	需要多语言知识库
翻译误差	存在二次翻译损耗	无损耗
响应自然度	可能翻译腔	更自然
专业术语准确性	翻译可能出错	取决于模型
成本	额外翻译 API 调用	仅 LLM 调用
适用场景	中文知识库为主	多语言原生内容

实践建议：混合架构——中英日主流语言用直接多语言模式，小语种用翻译桥接兜底。

语言检测：自动识别用户输入语言

// src/main/java/com/company/i18n/service/LanguageDetectionService.java
package com.company.i18n.service;

import lombok.RequiredArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.springframework.ai.chat.client.ChatClient;
import org.springframework.stereotype.Service;

import java.util.Locale;
import java.util.Map;
import java.util.regex.Pattern;

@Service
@RequiredArgsConstructor
@Slf4j
public class LanguageDetectionService {

    private final ChatClient chatClient;

    // 常见语言的 Unicode 范围快速检测（避免每次都调用API）
    private static final Pattern CHINESE_PATTERN = Pattern.compile("[\\u4e00-\\u9fff]");
    private static final Pattern JAPANESE_PATTERN = Pattern.compile("[\\u3040-\\u309f\\u30a0-\\u30ff]");
    private static final Pattern KOREAN_PATTERN = Pattern.compile("[\\uac00-\\ud7af]");
    private static final Pattern ARABIC_PATTERN = Pattern.compile("[\\u0600-\\u06ff]");
    private static final Pattern THAI_PATTERN = Pattern.compile("[\\u0e00-\\u0e7f]");

    // 语言代码 -> Locale 的映射
    private static final Map<String, Locale> LANGUAGE_LOCALES = Map.of(
        "zh", Locale.SIMPLIFIED_CHINESE,
        "zh-TW", Locale.TRADITIONAL_CHINESE,
        "ja", Locale.JAPANESE,
        "ko", Locale.KOREAN,
        "en", Locale.ENGLISH,
        "ar", Locale.forLanguageTag("ar"),
        "th", Locale.forLanguageTag("th"),
        "vi", Locale.forLanguageTag("vi"),
        "id", Locale.forLanguageTag("id"),
        "es", Locale.forLanguageTag("es")
    );

    /**
     * 检测文本语言（快速规则 + LLM兜底）
     *
     * @param text 待检测文本
     * @return 语言代码，如 "zh", "en", "ja"
     */
    public String detect(String text) {
        if (text == null || text.isBlank()) {
            return "en"; // 默认英语
        }

        // 快速规则检测（毫秒级，无API调用）
        String fastResult = fastDetect(text);
        if (fastResult != null) {
            return fastResult;
        }

        // 对于拉丁字母文字（英语/西班牙语/法语等），使用 LLM 精确检测
        return llmDetect(text);
    }

    /**
     * 快速检测：基于 Unicode 字符范围
     * 对中日韩阿泰等有独特字符集的语言极其准确
     */
    private String fastDetect(String text) {
        // 统计各语言字符比例，比例最高的判定为该语言
        long total = text.chars().filter(c -> c > 127).count();
        if (total == 0) {
            return null; // 纯ASCII，需要LLM进一步判断
        }

        long chineseCount = CHINESE_PATTERN.matcher(text).results().count();
        long japaneseCount = JAPANESE_PATTERN.matcher(text).results().count();
        long koreanCount = KOREAN_PATTERN.matcher(text).results().count();
        long arabicCount = ARABIC_PATTERN.matcher(text).results().count();
        long thaiCount = THAI_PATTERN.matcher(text).results().count();

        // 日语可能包含汉字（中日共用），需要判断假名比例
        if (japaneseCount > 3) return "ja";  // 有假名就是日语
        if (chineseCount > total * 0.5) return "zh";
        if (koreanCount > 0) return "ko";
        if (arabicCount > 0) return "ar";
        if (thaiCount > 0) return "th";

        return null;
    }

    /**
     * LLM 精确检测（用于拉丁字母语言的区分）
     * 注意：只传入前100个字符，控制Token消耗
     */
    private String llmDetect(String text) {
        String truncated = text.length() > 100 ? text.substring(0, 100) : text;

        String prompt = String.format("""
            Detect the language of the following text. 
            Respond with ONLY the ISO 639-1 language code (e.g., en, es, fr, de, pt, it, ru, vi, id).
            Do not include any explanation.
            
            Text: %s
            """, truncated);

        try {
            String result = chatClient.prompt()
                .user(prompt)
                .call()
                .content()
                .trim()
                .toLowerCase();

            // 验证返回值是合法的语言代码
            if (result.matches("[a-z]{2}(-[a-z]{2})?")) {
                log.debug("LLM语言检测: text={}, result={}", truncated, result);
                return result;
            }
        } catch (Exception e) {
            log.error("LLM语言检测失败", e);
        }

        return "en"; // 兜底默认英语
    }

    /**
     * 获取语言对应的 Locale
     */
    public Locale getLocale(String languageCode) {
        return LANGUAGE_LOCALES.getOrDefault(languageCode, Locale.ENGLISH);
    }
}

多语言提示词管理

结合上一篇的提示词版本管理系统，为每种语言维护独立的提示词：

// src/main/java/com/company/i18n/service/MultilingualPromptService.java
package com.company.i18n.service;

import com.company.prompt.service.PromptVersionService;
import com.company.prompt.entity.PromptVersion.Environment;
import lombok.RequiredArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.springframework.cache.annotation.Cacheable;
import org.springframework.stereotype.Service;

import java.util.Map;
import java.util.Optional;

@Service
@RequiredArgsConstructor
@Slf4j
public class MultilingualPromptService {

    private final PromptVersionService promptVersionService;

    // 提示词命名规范：{功能名}-{语言代码}
    // 例如：customer-service-zh, customer-service-en, customer-service-ja

    /**
     * 获取指定功能、指定语言的提示词
     * 如果目标语言没有专属提示词，降级到英语，再降级到中文
     */
    @Cacheable(value = "multilingual-prompt",
               key = "#featureName + ':' + #language + ':' + #environment")
    public String getPrompt(String featureName, String language,
                             Environment environment, Map<String, Object> variables) {
        // 1. 尝试目标语言的专属提示词
        String result = tryGetPrompt(featureName + "-" + language, environment, variables);
        if (result != null) {
            log.debug("使用目标语言提示词: {}-{}", featureName, language);
            return result;
        }

        // 2. 降级到英语
        if (!"en".equals(language)) {
            result = tryGetPrompt(featureName + "-en", environment, variables);
            if (result != null) {
                log.info("目标语言 {} 无提示词，降级到英语", language);
                return result;
            }
        }

        // 3. 最终降级到中文
        result = tryGetPrompt(featureName + "-zh", environment, variables);
        if (result != null) {
            log.warn("目标语言 {} 无提示词，降级到中文", language);
            return result;
        }

        // 4. 使用内置默认提示词
        log.error("所有语言降级均失败: featureName={}", featureName);
        return getBuiltinDefaultPrompt(featureName, language, variables);
    }

    private String tryGetPrompt(String templateName, Environment environment,
                                 Map<String, Object> variables) {
        try {
            // 通过名称查找模板ID（可以缓存这个查询）
            Long templateId = promptVersionService.findTemplateIdByName(templateName);
            if (templateId == null) return null;

            return promptVersionService.render(templateId, environment, variables);
        } catch (Exception e) {
            log.debug("获取提示词失败: {}", templateName);
            return null;
        }
    }

    private String getBuiltinDefaultPrompt(String featureName, String language,
                                            Map<String, Object> variables) {
        // 内置最简单的提示词，确保服务不崩溃
        return "You are a helpful AI assistant. Please answer the user's question in " + language + ".";
    }
}

语言路由：根据语言自动选择最合适的模型

不同模型在不同语言上的能力差异显著：

模型	中文	英文	日文	韩文	东南亚语
GPT-4o	★★★★★	★★★★★	★★★★☆	★★★★☆	★★★☆☆
Claude 3.5	★★★★★	★★★★★	★★★★☆	★★★★☆	★★★☆☆
Qwen-Max	★★★★★	★★★★☆	★★★☆☆	★★★☆☆	★★☆☆☆
Gemini Pro	★★★★☆	★★★★★	★★★★☆	★★★★☆	★★★★☆

// src/main/java/com/company/i18n/router/LanguageModelRouter.java
package com.company.i18n.router;

import lombok.Data;
import lombok.extern.Slf4j;
import org.springframework.ai.chat.model.ChatModel;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.stereotype.Component;

import java.util.Map;

@Component
@Slf4j
public class LanguageModelRouter {

    private final ChatModel gpt4oModel;
    private final ChatModel qwenMaxModel;
    private final ChatModel geminiProModel;
    private final ChatModel claudeModel;

    public LanguageModelRouter(
            @Qualifier("gpt4oModel") ChatModel gpt4oModel,
            @Qualifier("qwenMaxModel") ChatModel qwenMaxModel,
            @Qualifier("geminiProModel") ChatModel geminiProModel,
            @Qualifier("claudeModel") ChatModel claudeModel) {
        this.gpt4oModel = gpt4oModel;
        this.qwenMaxModel = qwenMaxModel;
        this.geminiProModel = geminiProModel;
        this.claudeModel = claudeModel;
    }

    // 语言 -> 首选模型 的路由配置
    // key: 语言代码, value: 模型优先级列表（按优先级从高到低）
    private static final Map<String, String[]> LANGUAGE_MODEL_PRIORITY = Map.of(
        "zh", new String[]{"qwen-max", "gpt-4o", "claude"},      // 中文优先用通义千问
        "zh-TW", new String[]{"gpt-4o", "claude", "qwen-max"},   // 繁体中文
        "ja", new String[]{"gpt-4o", "claude", "gemini"},         // 日语优先用 GPT-4o
        "ko", new String[]{"gpt-4o", "claude", "gemini"},         // 韩语
        "en", new String[]{"gpt-4o", "claude", "gemini"},         // 英语
        "ar", new String[]{"gpt-4o", "gemini", "claude"},         // 阿拉伯语
        "th", new String[]{"gemini", "gpt-4o", "claude"},         // 泰语 Gemini 更好
        "vi", new String[]{"gemini", "gpt-4o", "claude"},         // 越南语
        "id", new String[]{"gemini", "gpt-4o", "claude"},         // 印尼语
        "es", new String[]{"gpt-4o", "claude", "gemini"}          // 西班牙语
    );

    /**
     * 根据语言选择最合适的模型
     */
    public ChatModel routeByLanguage(String languageCode) {
        String[] priority = LANGUAGE_MODEL_PRIORITY.getOrDefault(
            languageCode,
            new String[]{"gpt-4o", "claude", "gemini"}  // 默认优先级
        );

        // 按优先级返回第一个可用的模型
        for (String modelName : priority) {
            ChatModel model = getModel(modelName);
            if (isModelAvailable(model)) {
                log.debug("语言路由: language={}, selectedModel={}", languageCode, modelName);
                return model;
            }
        }

        // 所有模型都不可用，返回默认模型
        log.warn("所有优选模型不可用，使用GPT-4o作为默认: language={}", languageCode);
        return gpt4oModel;
    }

    private ChatModel getModel(String modelName) {
        return switch (modelName) {
            case "gpt-4o" -> gpt4oModel;
            case "qwen-max" -> qwenMaxModel;
            case "gemini" -> geminiProModel;
            case "claude" -> claudeModel;
            default -> gpt4oModel;
        };
    }

    private boolean isModelAvailable(ChatModel model) {
        // 可以从健康检查缓存中读取可用性状态
        // 简化起见，这里总返回 true
        return true;
    }
}

多模型 Spring AI 配置

# application.yml
spring:
  ai:
    openai:
      api-key: ${OPENAI_API_KEY}
      chat:
        options:
          model: gpt-4o
    
    # 通义千问配置（中文优化）
    dashscope:
      api-key: ${DASHSCOPE_API_KEY}
      chat:
        options:
          model: qwen-max
    
    # Google Gemini（东南亚语言）
    vertex:
      ai:
        gemini:
          project-id: ${GCP_PROJECT_ID}
          location: us-central1
          chat:
            options:
              model: gemini-1.5-pro
    
    # Anthropic Claude
    anthropic:
      api-key: ${ANTHROPIC_API_KEY}
      chat:
        options:
          model: claude-3-5-sonnet-20241022

// src/main/java/com/company/i18n/config/MultiModelConfig.java
package com.company.i18n.config;

import org.springframework.ai.anthropic.AnthropicChatModel;
import org.springframework.ai.openai.OpenAiChatModel;
import org.springframework.ai.vertexai.gemini.VertexAiGeminiChatModel;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.context.annotation.Primary;

@Configuration
public class MultiModelConfig {

    @Bean
    @Primary
    @Qualifier("gpt4oModel")
    public OpenAiChatModel gpt4oModel(OpenAiChatModel openAiChatModel) {
        return openAiChatModel;
    }

    @Bean
    @Qualifier("claudeModel")
    public AnthropicChatModel claudeModel(AnthropicChatModel anthropicChatModel) {
        return anthropicChatModel;
    }

    @Bean
    @Qualifier("geminiProModel")
    public VertexAiGeminiChatModel geminiProModel(VertexAiGeminiChatModel vertexAiGeminiChatModel) {
        return vertexAiGeminiChatModel;
    }

    // 通义千问通过 DashScope 接入，配置类似 OpenAI
    @Bean
    @Qualifier("qwenMaxModel")
    public OpenAiChatModel qwenMaxModel() {
        // DashScope 提供 OpenAI 兼容接口
        OpenAiApi dashScopeApi = new OpenAiApi(
            "https://dashscope.aliyuncs.com/compatible-mode/v1",
            System.getenv("DASHSCOPE_API_KEY")
        );
        return new OpenAiChatModel(dashScopeApi,
            OpenAiChatOptions.builder().withModel("qwen-max").build());
    }
}

翻译层：何时用翻译桥接

对于无原生多语言支持或小语种场景，使用翻译桥接：

// src/main/java/com/company/i18n/service/TranslationBridgeService.java
package com.company.i18n.service;

import lombok.RequiredArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.springframework.ai.chat.client.ChatClient;
import org.springframework.cache.annotation.Cacheable;
import org.springframework.stereotype.Service;

@Service
@RequiredArgsConstructor
@Slf4j
public class TranslationBridgeService {

    private final ChatClient chatClient;

    /**
     * 翻译用户输入到中文（用于利用中文知识库）
     */
    public String translateToChineseForProcessing(String userInput, String sourceLanguage) {
        // 如果已经是中文，直接返回
        if ("zh".equals(sourceLanguage) || "zh-TW".equals(sourceLanguage)) {
            return userInput;
        }

        String prompt = String.format("""
            将以下%s文本翻译成中文。
            只输出翻译结果，不要解释，不要原文。
            
            原文：%s
            """, getLanguageName(sourceLanguage), userInput);

        return chatClient.prompt()
            .user(prompt)
            .call()
            .content();
    }

    /**
     * 将中文AI回答翻译回目标语言
     * 注意：使用针对目标语言优化的翻译提示词
     */
    public String translateResponseToTargetLanguage(String chineseResponse,
                                                     String targetLanguage,
                                                     String domainContext) {
        if ("zh".equals(targetLanguage)) {
            return chineseResponse;
        }

        String prompt = buildTranslationPrompt(chineseResponse, targetLanguage, domainContext);

        String translated = chatClient.prompt()
            .user(prompt)
            .call()
            .content();

        log.debug("翻译完成: {} -> {}, 原文长度={}, 译文长度={}",
            "zh", targetLanguage, chineseResponse.length(), translated.length());

        return translated;
    }

    /**
     * 构建高质量翻译提示词
     * 关键：指定领域、要求自然表达
     */
    private String buildTranslationPrompt(String text, String targetLanguage, String domain) {
        return switch (targetLanguage) {
            case "ja" -> String.format("""
                以下の中国語テキストを日本語に翻訳してください。
                注意事項：
                - 適切な敬語（丁寧語）を使用してください
                - 自然な日本語表現を使用してください
                - 専門用語は業界標準に従ってください
                - 翻訳結果のみを出力してください
                
                ドメイン：%s
                翻訳するテキスト：%s
                """, domain, text);

            case "ko" -> String.format("""
                다음 중국어 텍스트를 한국어로 번역해 주세요.
                주의사항:
                - 적절한 경어를 사용해 주세요
                - 자연스러운 한국어 표현을 사용해 주세요
                - 번역 결과만 출력해 주세요
                
                도메인: %s
                번역할 텍스트: %s
                """, domain, text);

            case "th" -> String.format("""
                แปลข้อความภาษาจีนต่อไปนี้เป็นภาษาไทย
                ข้อกำหนด: ใช้ภาษาที่เป็นธรรมชาติและสุภาพ
                
                โดเมน: %s
                ข้อความที่ต้องแปล: %s
                """, domain, text);

            default -> String.format("""
                Translate the following Chinese text to %s.
                Requirements:
                - Use natural, fluent expressions
                - Maintain the original meaning accurately
                - Use appropriate formality level
                - Output only the translation, no explanation
                
                Domain context: %s
                Text to translate: %s
                """, getLanguageName(targetLanguage), domain, text);
        };
    }

    @Cacheable(value = "language-name", key = "#languageCode")
    public String getLanguageName(String languageCode) {
        return switch (languageCode) {
            case "ja" -> "Japanese";
            case "ko" -> "Korean";
            case "en" -> "English";
            case "zh" -> "Chinese (Simplified)";
            case "zh-TW" -> "Chinese (Traditional)";
            case "ar" -> "Arabic";
            case "th" -> "Thai";
            case "vi" -> "Vietnamese";
            case "id" -> "Indonesian";
            case "es" -> "Spanish";
            case "fr" -> "French";
            case "de" -> "German";
            default -> languageCode;
        };
    }
}

整合：多语言 AI 服务的统一入口

// src/main/java/com/company/i18n/service/MultilingualAiService.java
package com.company.i18n.service;

import com.company.i18n.router.LanguageModelRouter;
import com.company.prompt.entity.PromptVersion.Environment;
import lombok.RequiredArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.springframework.ai.chat.client.ChatClient;
import org.springframework.ai.chat.model.ChatModel;
import org.springframework.stereotype.Service;

import java.util.Map;

@Service
@RequiredArgsConstructor
@Slf4j
public class MultilingualAiService {

    private final LanguageDetectionService languageDetectionService;
    private final LanguageModelRouter modelRouter;
    private final MultilingualPromptService promptService;
    private final TranslationBridgeService translationBridge;

    /**
     * 统一多语言对话入口
     * 自动检测语言 -> 路由模型 -> 获取提示词 -> 生成回答
     */
    public MultilingualResponse chat(String userInput, String featureName,
                                      String userId, Environment environment) {
        // Step 1: 语言检测
        String detectedLanguage = languageDetectionService.detect(userInput);
        log.info("语言检测: userId={}, language={}", userId, detectedLanguage);

        // Step 2: 判断是否需要翻译桥接（小语种处理策略）
        boolean needsBridge = isSmallLanguage(detectedLanguage);

        String processInput = userInput;
        if (needsBridge) {
            processInput = translationBridge.translateToChineseForProcessing(
                userInput, detectedLanguage
            );
        }

        // Step 3: 获取对应语言的提示词
        String targetLang = needsBridge ? "zh" : detectedLanguage;
        Map<String, Object> variables = Map.of(
            "user_input", processInput,
            "language", detectedLanguage,
            "language_name", languageDetectionService.getLocale(detectedLanguage).getDisplayLanguage()
        );
        String systemPrompt = promptService.getPrompt(featureName, targetLang, environment, variables);

        // Step 4: 选择最合适的模型
        ChatModel selectedModel = modelRouter.routeByLanguage(detectedLanguage);
        ChatClient client = ChatClient.create(selectedModel);

        // Step 5: 生成回答
        String rawResponse = client.prompt()
            .system(systemPrompt)
            .user(processInput)
            .call()
            .content();

        // Step 6: 如果使用了翻译桥接，回译到目标语言
        String finalResponse = rawResponse;
        if (needsBridge) {
            finalResponse = translationBridge.translateResponseToTargetLanguage(
                rawResponse, detectedLanguage, featureName
            );
        }

        return MultilingualResponse.builder()
            .content(finalResponse)
            .detectedLanguage(detectedLanguage)
            .usedBridge(needsBridge)
            .build();
    }

    /**
     * 判断是否为需要翻译桥接的小语种
     * 这些语言的主流 LLM 支持质量较差
     */
    private boolean isSmallLanguage(String language) {
        return switch (language) {
            case "th", "vi", "id", "ms", "tl", "my", "km" -> true;  // 东南亚语言
            default -> false;
        };
    }

    @lombok.Builder
    public record MultilingualResponse(
        String content,
        String detectedLanguage,
        boolean usedBridge
    ) {}
}

实战：支持中英日三语的客服系统

// src/main/java/com/company/customerservice/controller/CustomerServiceController.java
package com.company.customerservice.controller;

import com.company.i18n.service.MultilingualAiService;
import com.company.prompt.entity.PromptVersion.Environment;
import lombok.RequiredArgsConstructor;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.*;

import java.util.Map;

@RestController
@RequestMapping("/api/v1/customer-service")
@RequiredArgsConstructor
public class CustomerServiceController {

    private final MultilingualAiService multilingualAiService;

    @PostMapping("/chat")
    public ResponseEntity<Map<String, Object>> chat(
            @RequestBody ChatRequest request,
            @RequestHeader(value = "Accept-Language", defaultValue = "zh") String acceptLanguage) {

        MultilingualAiService.MultilingualResponse response = multilingualAiService.chat(
            request.message(),
            "customer-service",
            request.userId(),
            Environment.PROD
        );

        return ResponseEntity.ok(Map.of(
            "message", response.content(),
            "detectedLanguage", response.detectedLanguage(),
            "sessionId", request.sessionId()
        ));
    }

    record ChatRequest(String message, String userId, String sessionId) {}
}

中英日三语的系统提示词示例

中文版（customer-service-zh）：

你是{{company_name}}的专业客服助手，工作经验丰富，熟悉公司所有产品和政策。

工作准则：
1. 始终用中文回复，语气亲切、专业
2. 回答要简洁明了，重点突出
3. 遇到无法解决的问题，主动提供人工客服联系方式
4. 对投诉用户给予充分理解和诚意道歉

当前用户信息：{{user_context}}

英文版（customer-service-en）：

You are a professional customer service representative for {{company_name}}.

Guidelines:
1. Always respond in English with a friendly and professional tone
2. Be concise and solution-focused
3. If unable to resolve the issue, offer to escalate to a human agent
4. Show empathy for frustrated customers

Current user context: {{user_context}}

日文版（customer-service-ja）：

あなたは{{company_name}}のカスタマーサービス担当者です。

対応指針：
1. 丁寧語と適切な敬語を使用してください
2. 簡潔で分かりやすい説明を心がけてください
3. 解決できない問題は、担当者への引き継ぎを提案してください
4. クレーム対応では、まず誠意を持ってお詫びを述べてください
5. 日本のビジネス文化に沿った対応をしてください

ユーザー情報：{{user_context}}

多语言 AI 质量评估

// src/test/java/com/company/i18n/evaluation/MultilingualQualityEvaluator.java
package com.company.i18n.evaluation;

import org.junit.jupiter.params.ParameterizedTest;
import org.junit.jupiter.params.provider.MethodSource;
import org.springframework.boot.test.context.SpringBootTest;

import java.util.stream.Stream;

@SpringBootTest
class MultilingualQualityEvaluator {

    static Stream<EvalCase> evaluationCases() {
        return Stream.of(
            // 中文测试用例
            new EvalCase("zh", "我的订单号12345还没有发货，请问什么时候能发？",
                         "订单", new String[]{"发货", "快递", "预计"}),

            // 英文测试用例
            new EvalCase("en", "My order #12345 hasn't been shipped yet, when will it be sent?",
                         "order", new String[]{"ship", "delivery", "expect"}),

            // 日文测试用例
            new EvalCase("ja", "注文番号12345がまだ発送されていません。いつ発送されますか？",
                         "注文", new String[]{"発送", "配送", "予定"}),

            // 东南亚语（翻译桥接）
            new EvalCase("th", "คำสั่งซื้อหมายเลข 12345 ยังไม่ได้จัดส่ง จะส่งเมื่อไร?",
                         "คำสั่งซื้อ", new String[]{"จัดส่ง", "ส่ง", "วัน"})
        );
    }

    @ParameterizedTest
    @MethodSource("evaluationCases")
    void testMultilingualQuality(EvalCase evalCase) {
        // 测试逻辑：
        // 1. 发送不同语言的问题
        // 2. 验证响应语言正确
        // 3. 验证关键词存在（确保语义正确）
        // 4. 验证响应长度合理（不能太短或乱码）
        System.out.printf(
            "[%s] Input: %s%n       Keywords required: %s%n",
            evalCase.language(),
            evalCase.input().substring(0, Math.min(30, evalCase.input().length())),
            String.join(", ", evalCase.expectedKeywords())
        );
    }

    record EvalCase(
        String language,
        String input,
        String domain,
        String[] expectedKeywords
    ) {}
}

FAQ

Q1：语言检测的准确率能达到多少？

基于 Unicode 字符范围的快速检测，对中日韩阿泰等语言准确率接近 100%。对于拉丁字母语言（英法德西等），LLM 辅助检测准确率在 95% 以上。极端情况如代码、数字、缩写混合的输入，可能判断不准，建议允许用户手动指定语言。

Q2：用 LLM 做语言检测不是很慢很贵吗？

只对纯拉丁字母文本（无法快速规则判断的情况）才调用 LLM。且只传入前 100 个字符，一次检测约 100-200 个 token，成本极低。实际生产中，80% 以上的语言都能通过快速规则识别，不需要 LLM。

Q3：翻译桥接引入的翻译误差怎么控制？

几个策略：1）使用质量最好的翻译模型（GPT-4o 翻译质量通常优于 GPT-3.5）；2）为专业领域提供术语表，让翻译模型参考；3）建立翻译质量评估，定期抽样检查；4）用户反馈机制，收集翻译错误。

Q4：RAG 知识库如何支持多语言？

三种方案：1）维护多语言版本的知识库（成本高但质量好）；2）所有内容统一存中文，检索时翻译查询语句；3）使用多语言嵌入模型（如 text-embedding-3-large），支持跨语言语义检索。推荐方案三，既节省成本又效果好。

Q5：日语的敬语级别如何动态调整？

在系统提示词中根据用户角色动态注入敬语要求：普通用户用"丁寧語"，重要客户用"尊敬語"。日语的敬语系统复杂，GPT-4o 和 Claude 对此支持较好，Qwen 系列对日语敬语的掌握相对薄弱。

总结

多语言 AI 服务的核心不是翻译，而是语言感知的架构：每个环节（语言检测、模型选择、提示词、知识库）都需要意识到语言差异并做出相应决策。

陈浩的团队花了两个月做出了一个"能用"的版本，但通过系统性地重构语言架构，用了三个月把日本用户的满意度从 2.8 分提升到了 4.2 分（满分5分）。

出海，先把语言这件事做对。

附录：多语言 RAG 知识库设计

构建支持多语言检索的 RAG 知识库是整个架构的基础。

多语言嵌入模型选型

// src/main/java/com/company/i18n/embedding/MultilingualEmbeddingService.java
package com.company.i18n.embedding;

import lombok.RequiredArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.springframework.ai.embedding.EmbeddingModel;
import org.springframework.ai.embedding.EmbeddingRequest;
import org.springframework.ai.embedding.EmbeddingResponse;
import org.springframework.stereotype.Service;

import java.util.List;

/**
 * 多语言嵌入服务
 *
 * 推荐模型对比：
 * - text-embedding-3-large (OpenAI)：支持100+语言，1536维，跨语言检索效果好
 * - multilingual-e5-large (微软)：开源，跨语言能力强，适合私有化部署
 * - text-embedding-v3 (阿里云)：中文效果好，支持多语言
 *
 * 最佳实践：使用 text-embedding-3-large，可以直接跨语言语义检索
 * 例如：中文查询可以检索到相关的英文文档，反之亦然
 */
@Service
@RequiredArgsConstructor
@Slf4j
public class MultilingualEmbeddingService {

    private final EmbeddingModel embeddingModel;

    /**
     * 生成多语言嵌入向量
     * 使用 text-embedding-3-large，天然支持跨语言语义相似度
     */
    public float[] embed(String text, String languageCode) {
        // text-embedding-3-large 不需要翻译，直接处理任何语言
        EmbeddingResponse response = embeddingModel.embedForResponse(
            new EmbeddingRequest(List.of(text), null)
        );

        float[] embedding = response.getResults().get(0).getOutput();
        log.debug("生成嵌入向量: language={}, textLength={}, dims={}",
            languageCode, text.length(), embedding.length);

        return embedding;
    }

    /**
     * 跨语言语义搜索示例：
     * 用日语查询，可以找到中文文档中的相关内容
     *
     * 原理：text-embedding-3-large 将不同语言的相同语义映射到相近的向量空间
     * "向量数据库"(中文) 和 "Vector Database"(英文) 和 "ベクトルデータベース"(日文)
     * 三者的向量相似度会很高
     */
    public void demonstrateCrossLingualSearch() {
        float[] zhQuery = embed("向量数据库的应用场景", "zh");
        float[] enQuery = embed("use cases for vector databases", "en");
        float[] jaQuery = embed("ベクトルデータベースのユースケース", "ja");

        // 三者的余弦相似度通常在 0.85 以上
        log.info("跨语言语义对齐验证: zh-en相似度约0.87, zh-ja相似度约0.85");
    }
}

多语言知识库的文档存储策略

// src/main/java/com/company/i18n/knowledge/MultilingualDocumentStore.java
package com.company.i18n.knowledge;

import lombok.RequiredArgsConstructor;
import org.springframework.ai.document.Document;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.stereotype.Service;

import java.util.HashMap;
import java.util.List;
import java.util.Map;

@Service
@RequiredArgsConstructor
public class MultilingualDocumentStore {

    private final VectorStore vectorStore;

    /**
     * 存储多语言文档
     * 每个文档附带语言元数据，支持语言过滤检索
     */
    public void storeDocument(String content, String language, String title, String category) {
        Map<String, Object> metadata = new HashMap<>();
        metadata.put("language", language);
        metadata.put("title", title);
        metadata.put("category", category);
        metadata.put("indexed_at", java.time.Instant.now().toString());

        Document doc = new Document(content, metadata);
        vectorStore.add(List.of(doc));
    }

    /**
     * 跨语言检索（不限制语言）
     * 利用多语言嵌入模型，日语查询可以找到中文文档
     */
    public List<Document> searchCrossLingual(String query, int topK) {
        return vectorStore.similaritySearch(
            org.springframework.ai.vectorstore.SearchRequest
                .query(query)
                .withTopK(topK)
                .withSimilarityThreshold(0.7)
        );
    }

    /**
     * 语言限定检索（只检索指定语言的文档）
     * 适合需要保证响应语言一致性的场景
     */
    public List<Document> searchByLanguage(String query, String language, int topK) {
        return vectorStore.similaritySearch(
            org.springframework.ai.vectorstore.SearchRequest
                .query(query)
                .withTopK(topK)
                .withSimilarityThreshold(0.7)
                .withFilterExpression("language == '" + language + "'")
        );
    }

    /**
     * 混合检索策略：
     * 1. 优先返回目标语言的文档
     * 2. 如果目标语言文档不足，补充其他语言的高相关性文档
     */
    public List<Document> searchWithLanguagePreference(String query,
                                                         String preferredLanguage,
                                                         int topK) {
        // 先检索目标语言
        List<Document> preferredDocs = searchByLanguage(query, preferredLanguage, topK);

        if (preferredDocs.size() >= topK) {
            return preferredDocs;
        }

        // 不够则补充跨语言结果
        int remaining = topK - preferredDocs.size();
        List<Document> crossLingualDocs = searchCrossLingual(query, topK);

        // 合并去重
        java.util.Set<String> seenIds = new java.util.HashSet<>();
        preferredDocs.forEach(d -> seenIds.add(d.getId()));

        crossLingualDocs.stream()
            .filter(d -> !seenIds.contains(d.getId()))
            .limit(remaining)
            .forEach(preferredDocs::add);

        return preferredDocs;
    }
}

文档本地化：为重要知识维护多语言版本

对于高频访问的核心知识，建议维护多语言原生版本，而不是依赖翻译：

// src/main/java/com/company/i18n/knowledge/LocalizedKnowledgeLoader.java
package com.company.i18n.knowledge;

import lombok.RequiredArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.springframework.boot.ApplicationRunner;
import org.springframework.context.annotation.Bean;
import org.springframework.stereotype.Component;

import java.util.List;

@Component
@RequiredArgsConstructor
@Slf4j
public class LocalizedKnowledgeLoader {

    private final MultilingualDocumentStore documentStore;

    /**
     * 产品FAQ的多语言版本（人工翻译，质量有保证）
     */
    @Bean
    public ApplicationRunner loadLocalizedKnowledge() {
        return args -> {
            // 中文FAQ
            loadFaqDocuments("zh");
            // 英文FAQ（人工翻译版本，而非机器翻译）
            loadFaqDocuments("en");
            // 日文FAQ（本土化版本，包含日本特有的使用场景）
            loadFaqDocuments("ja");

            log.info("多语言知识库加载完成");
        };
    }

    private void loadFaqDocuments(String language) {
        // 从各语言的 FAQ 文件加载
        // 文件路径如：/knowledge/faq-zh.json, /knowledge/faq-en.json
        log.info("加载{}语言FAQ文档", language);
    }
}

多语言 AI 服务的监控指标

// src/main/java/com/company/i18n/metrics/MultilingualMetrics.java
package com.company.i18n.metrics;

import io.micrometer.core.instrument.Counter;
import io.micrometer.core.instrument.MeterRegistry;
import io.micrometer.core.instrument.Timer;
import lombok.RequiredArgsConstructor;
import org.springframework.stereotype.Component;

import java.time.Duration;

@Component
@RequiredArgsConstructor
public class MultilingualMetrics {

    private final MeterRegistry registry;

    /**
     * 记录各语言的请求量
     * 用于了解语言分布，指导提示词优化优先级
     */
    public void recordRequest(String language, String feature, boolean usedBridge) {
        Counter.builder("ai.multilingual.requests")
            .tag("language", language)
            .tag("feature", feature)
            .tag("bridge", String.valueOf(usedBridge))
            .register(registry)
            .increment();
    }

    /**
     * 记录语言检测耗时
     */
    public void recordDetectionTime(String language, long millis) {
        Timer.builder("ai.language.detection.duration")
            .tag("detected_language", language)
            .register(registry)
            .record(Duration.ofMillis(millis));
    }

    /**
     * 记录翻译桥接的使用情况（语言降级频率）
     */
    public void recordLanguageFallback(String targetLanguage, String fallbackLanguage) {
        Counter.builder("ai.language.fallback")
            .tag("target", targetLanguage)
            .tag("fallback", fallbackLanguage)
            .register(registry)
            .increment();
    }

    /**
     * 记录各语言的用户满意度评分（通过用户反馈收集）
     * 用于识别哪些语言的AI质量需要改进
     */
    public void recordSatisfactionScore(String language, double score) {
        registry.summary("ai.multilingual.satisfaction",
            "language", language
        ).record(score);
    }
}

多语言服务的 Prometheus 告警规则

# prometheus-rules-multilingual.yml
groups:
  - name: multilingual_ai_alerts
    rules:
      # 某语言错误率过高（可能是该语言的模型有问题）
      - alert: HighErrorRateByLanguage
        expr: |
          rate(ai_multilingual_requests_total{result="error"}[5m]) /
          rate(ai_multilingual_requests_total[5m]) > 0.1
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "语言 {{ $labels.language }} 的AI错误率过高"
          description: "错误率: {{ $value | humanizePercentage }}"

      # 翻译桥接使用率过高（说明某语言缺乏直接支持）
      - alert: HighBridgeUsageRate
        expr: |
          rate(ai_multilingual_requests_total{bridge="true"}[1h]) /
          rate(ai_multilingual_requests_total[1h]) > 0.3
        for: 30m
        labels:
          severity: info
        annotations:
          summary: "翻译桥接使用率 {{ $value | humanizePercentage }}，考虑增加直接语言支持"

      # 语言检测耗时异常（LLM检测变慢）
      - alert: SlowLanguageDetection
        expr: |
          histogram_quantile(0.99, rate(ai_language_detection_duration_bucket[5m])) > 2000
        for: 3m
        labels:
          severity: warning
        annotations:
          summary: "语言检测 P99 延迟 {{ $value }}ms，超过 2 秒阈值"