第1688篇：AI模型的对抗样本攻击——在企业AI系统中的影响与缓解

老张2026/4/30大约 10 分钟

第1688篇：AI模型的对抗样本攻击——在企业AI系统中的影响与缓解

对抗样本（Adversarial Examples）这个概念在学术界已经研究很多年了。最早大家用来演示的是图像分类任务——给一张猫的图片加上人眼看不出的微小噪声，深度学习模型就会把它识别成烤面包机。

当时很多人觉得这是个学术玩具，离实际生产没什么关系。但随着 AI 系统深入业务，我们开始在真实的企业 AI 系统里看到对抗样本攻击的身影，有些造成了切实的损失。

一、对抗样本在企业 AI 系统里是什么样的

跟学术界的图像噪声攻击不同，企业 AI 系统里的对抗样本攻击通常更加"接地气"，攻击目标也更明确。

文本分类系统的对抗样本：用于欺诈检测、垃圾邮件过滤、舆情分析的文本分类模型，攻击者可以通过巧妙地修改文字（同义词替换、插入无意义字符、利用 Unicode 变体字符等）让模型产生错误分类。

向量检索系统的对抗样本：在 RAG 系统里，攻击者如果知道你使用的嵌入模型，可以构造一段文本，使其向量和目标文档高度相似，从而影响检索结果。

推荐系统的对抗样本：在内容推荐场景里，攻击者通过精心设计的用户行为序列，操纵推荐算法，让特定内容被推荐给不应该看到它的用户群体。

生物特征识别对抗样本：人脸识别、声纹验证等系统也存在对抗样本攻击的可能性，通过特制的口罩图案或声音扰动欺骗识别模型。

二、文本对抗样本的攻击手法

以文本分类模型为例，常见的攻击手法：

字符级攻击：

插入零宽度空格、零宽度非连接符等不可见字符
用 Unicode 同形字替换（比如西里尔字母 'а' 看起来和拉丁字母 'a' 一样）
故意拼错关键词（sp@m 代替 spam，d.r.u.g.s 代替 drugs）

词汇级攻击：

用同义词替换关键词（weapon → firearm）
插入无关词汇稀释关键词密度
用 base64 编码或其他编码隐藏内容

语义级攻击（更高级）：

利用指代和隐喻表达同样的含义，但模型不能理解语义等价
多步骤推理型绕过（把直接描述分散到多个问题中）
利用模型的语言偏见（某些专业术语、语言风格会影响分类结果）

// 检测字符级对抗样本
@Component
public class CharacterLevelAdversarialDetector {
    
    // 零宽度字符集合
    private static final String ZERO_WIDTH_CHARS = 
        "\\u200B\\u200C\\u200D\\u200E\\u200F\\uFEFF\\u2060\\u2061\\u2062\\u2063";
    
    // Unicode 同形字映射（攻击者常用的西里尔/希腊字母替换）
    private static final Map<Character, Character> HOMOGLYPH_MAP;
    static {
        HOMOGLYPH_MAP = new HashMap<>();
        // 西里尔字母 → 拉丁字母
        HOMOGLYPH_MAP.put('а', 'a');  // Cyrillic а → Latin a
        HOMOGLYPH_MAP.put('е', 'e');  // Cyrillic е → Latin e
        HOMOGLYPH_MAP.put('о', 'o');  // Cyrillic о → Latin o
        HOMOGLYPH_MAP.put('р', 'p');  // Cyrillic р → Latin p
        HOMOGLYPH_MAP.put('с', 'c');  // Cyrillic с → Latin c
        HOMOGLYPH_MAP.put('у', 'y');  // Cyrillic у → Latin y
        HOMOGLYPH_MAP.put('х', 'x');  // Cyrillic х → Latin x
        // 希腊字母 → 拉丁字母
        HOMOGLYPH_MAP.put('α', 'a');
        HOMOGLYPH_MAP.put('ε', 'e');
        HOMOGLYPH_MAP.put('ο', 'o');
        // 更多映射...
    }
    
    public AdversarialDetectionResult detect(String input) {
        List<String> findings = new ArrayList<>();
        
        // 检测零宽度字符
        Pattern zeroWidthPattern = Pattern.compile("[" + ZERO_WIDTH_CHARS + "]");
        Matcher zwMatcher = zeroWidthPattern.matcher(input);
        if (zwMatcher.find()) {
            long count = zwMatcher.results().count();
            findings.add(String.format("检测到 %d 个零宽度字符", count));
        }
        
        // 检测同形字替换
        int homoglyphCount = 0;
        for (char c : input.toCharArray()) {
            if (HOMOGLYPH_MAP.containsKey(c)) {
                homoglyphCount++;
            }
        }
        if (homoglyphCount > 2) {
            findings.add(String.format("检测到 %d 个可疑同形字符", homoglyphCount));
        }
        
        // 检测异常字符混用（中英文正常混用不算，但拉丁+西里尔混用很可疑）
        if (hasScriptMixing(input)) {
            findings.add("检测到异常脚本混用（可能的同形字攻击）");
        }
        
        // 检测编码逃逸模式
        if (input.contains("\\u") || input.contains("%u") || input.contains("&#")) {
            findings.add("检测到可能的编码逃逸");
        }
        
        return findings.isEmpty() 
            ? AdversarialDetectionResult.clean()
            : AdversarialDetectionResult.suspicious(findings);
    }
    
    // 对抗样本标准化：清除攻击性字符，还原为标准形式
    public String normalize(String input) {
        // 1. 移除零宽度字符
        String normalized = input.replaceAll("[" + ZERO_WIDTH_CHARS + "]", "");
        
        // 2. 同形字替换
        StringBuilder sb = new StringBuilder();
        for (char c : normalized.toCharArray()) {
            sb.append(HOMOGLYPH_MAP.getOrDefault(c, c));
        }
        normalized = sb.toString();
        
        // 3. Unicode 标准化（NFC/NFKC）
        normalized = java.text.Normalizer.normalize(normalized, 
            java.text.Normalizer.Form.NFKC);
        
        return normalized;
    }
    
    private boolean hasScriptMixing(String text) {
        boolean hasLatin = false;
        boolean hasCyrillic = false;
        
        for (char c : text.toCharArray()) {
            Character.UnicodeBlock block = Character.UnicodeBlock.of(c);
            if (Character.UnicodeBlock.BASIC_LATIN.equals(block) || 
                Character.UnicodeBlock.LATIN_1_SUPPLEMENT.equals(block)) {
                hasLatin = true;
            }
            if (Character.UnicodeBlock.CYRILLIC.equals(block)) {
                hasCyrillic = true;
            }
        }
        
        return hasLatin && hasCyrillic;
    }
}

三、对嵌入模型的对抗攻击与防御

RAG 系统里，如果攻击者能够影响向量检索结果，他就能间接控制 LLM 收到的上下文，进而影响输出。

@Service
public class AdversarialEmbeddingDefense {
    
    @Autowired
    private EmbeddingService embeddingService;
    
    // 检测可能被精心构造来影响检索的文本
    public EmbeddingAnomalyResult detectQueryAnomaly(
            String query, 
            List<String> retrievedDocs,
            float[] queryVector) {
        
        List<String> anomalies = new ArrayList<>();
        
        // 1. 检查检索结果的相关性分布
        // 正常情况下，相关性分数应该有自然的递减曲线
        // 如果前几个结果和查询的相似度都异常高（>0.99），可能是针对性构造
        List<Float> similarities = computeSimilaritiesWithQuery(retrievedDocs, queryVector);
        
        long extremelyHighSimilarity = similarities.stream()
            .filter(s -> s > 0.99)
            .count();
        if (extremelyHighSimilarity > 2) {
            anomalies.add(String.format("检测到 %d 个异常高相似度文档（>0.99），可能是对抗构造", 
                extremelyHighSimilarity));
        }
        
        // 2. 检查检索文档的语义一致性
        // 如果检索出来的文档内容和查询明显不相关，但向量相似度很高，说明可能被操控
        for (int i = 0; i < retrievedDocs.size(); i++) {
            if (!isSemanticallyCohesive(query, retrievedDocs.get(i))) {
                if (similarities.get(i) > 0.85) {
                    anomalies.add(String.format("文档 %d：向量高相似但语义不一致，疑似对抗样本", i));
                }
            }
        }
        
        // 3. 检测检索文档中的注入内容
        for (String doc : retrievedDocs) {
            if (containsInjectionContent(doc)) {
                anomalies.add("检索文档中包含可疑注入内容");
                break;
            }
        }
        
        return anomalies.isEmpty() 
            ? EmbeddingAnomalyResult.normal() 
            : EmbeddingAnomalyResult.anomalous(anomalies);
    }
    
    // 对检索结果做多模型交叉验证
    public List<String> crossValidateRetrieval(
            String query,
            List<String> primaryRetrievedDocs) {
        
        // 用第二个不同架构的嵌入模型做验证检索
        float[] secondaryVector = secondaryEmbeddingService.embed(query);
        List<String> secondaryResults = vectorStore.search(secondaryVector, 5);
        
        // 取两次检索结果的交集（至少一半重合才认为可靠）
        Set<String> primary = new HashSet<>(primaryRetrievedDocs);
        Set<String> secondary = new HashSet<>(secondaryResults);
        
        Set<String> intersection = new HashSet<>(primary);
        intersection.retainAll(secondary);
        
        double overlapRatio = (double) intersection.size() / 
            Math.max(primary.size(), secondary.size());
        
        if (overlapRatio < 0.5) {
            log.warn("两个嵌入模型检索结果差异过大（重合率 {}%），可能存在检索操纵", 
                String.format("%.0f", overlapRatio * 100));
            // 降级：只使用共同检索到的文档
            return new ArrayList<>(intersection);
        }
        
        return primaryRetrievedDocs;
    }
    
    private List<Float> computeSimilaritiesWithQuery(List<String> docs, float[] queryVector) {
        return docs.stream()
            .map(doc -> {
                float[] docVector = embeddingService.embed(doc);
                return cosineSimilarity(queryVector, docVector);
            })
            .collect(Collectors.toList());
    }
    
    private float cosineSimilarity(float[] a, float[] b) {
        float dot = 0, normA = 0, normB = 0;
        for (int i = 0; i < a.length; i++) {
            dot += a[i] * b[i];
            normA += a[i] * a[i];
            normB += b[i] * b[i];
        }
        return (float) (dot / (Math.sqrt(normA) * Math.sqrt(normB)));
    }
    
    private boolean isSemanticallyCohesive(String query, String document) {
        // 简单的启发式：共享关键词比例
        Set<String> queryWords = extractKeywords(query);
        Set<String> docWords = extractKeywords(document);
        
        Set<String> intersection = new HashSet<>(queryWords);
        intersection.retainAll(docWords);
        
        return !queryWords.isEmpty() && 
            (double) intersection.size() / queryWords.size() > 0.2;
    }
}

四、对抗训练：提升模型鲁棒性

防御对抗样本最根本的方法是在训练阶段提升模型鲁棒性，通过对抗训练让模型见过"被攻击的数据"，从而对此类攻击有一定免疫力。

对于企业来说，通常不是从头训练模型，而是对已有模型做微调。以下是一个文本分类模型对抗微调的示例：

@Service
public class AdversarialRobustnessEvaluator {
    
    // 评估分类模型的鲁棒性
    public RobustnessReport evaluate(TextClassificationModel model, List<TestCase> testCases) {
        RobustnessReport report = new RobustnessReport();
        
        int total = testCases.size();
        int cleanCorrect = 0;
        int adversarialCorrect = 0;
        
        for (TestCase tc : testCases) {
            // 在干净样本上的准确率
            String cleanPrediction = model.predict(tc.getOriginalText());
            if (cleanPrediction.equals(tc.getExpectedLabel())) {
                cleanCorrect++;
            }
            
            // 在对抗样本上的准确率
            List<String> adversarialVariants = generateAdversarialVariants(tc.getOriginalText());
            long adversarialCorrectCount = adversarialVariants.stream()
                .filter(variant -> model.predict(variant).equals(tc.getExpectedLabel()))
                .count();
            
            double adversarialAccuracy = (double) adversarialCorrectCount / adversarialVariants.size();
            if (adversarialAccuracy > 0.5) {
                adversarialCorrect++;
            }
            
            report.addCaseResult(tc, adversarialAccuracy, adversarialVariants);
        }
        
        report.setCleanAccuracy((double) cleanCorrect / total);
        report.setAdversarialAccuracy((double) adversarialCorrect / total);
        report.setRobustnessGap(report.getCleanAccuracy() - report.getAdversarialAccuracy());
        
        // 鲁棒性差距超过10%需要关注
        if (report.getRobustnessGap() > 0.1) {
            report.addRecommendation("模型鲁棒性不足，建议进行对抗训练或加强输入预处理");
        }
        
        return report;
    }
    
    // 生成对抗变体，用于评估鲁棒性
    private List<String> generateAdversarialVariants(String text) {
        List<String> variants = new ArrayList<>();
        
        // 变体1：同义词替换
        variants.add(synonymReplacer.replace(text, 0.2));  // 替换20%的词
        
        // 变体2：零宽度字符注入
        variants.add(injectZeroWidthChars(text));
        
        // 变体3：随机字符插入
        variants.add(insertRandomChars(text, 3));
        
        // 变体4：大小写变化
        variants.add(randomizeCase(text));
        
        // 变体5：字符删除（模拟错别字）
        variants.add(deleteRandomChars(text, 2));
        
        return variants;
    }
    
    private String injectZeroWidthChars(String text) {
        // 在随机位置插入零宽度空格
        char[] chars = text.toCharArray();
        StringBuilder sb = new StringBuilder();
        Random random = new Random(42);  // 固定种子，保证可复现
        
        for (char c : chars) {
            sb.append(c);
            if (random.nextDouble() < 0.1) {
                sb.append('\u200B');  // 零宽度空格
            }
        }
        return sb.toString();
    }
    
    private String insertRandomChars(String text, int count) {
        StringBuilder sb = new StringBuilder(text);
        Random random = new Random(42);
        String insertable = "!@#$%^&*()_+-=[]{}|;':\",./<>?";
        
        for (int i = 0; i < count; i++) {
            int pos = random.nextInt(sb.length());
            char c = insertable.charAt(random.nextInt(insertable.length()));
            sb.insert(pos, c);
        }
        return sb.toString();
    }
}

五、运行时对抗样本监控

除了预防，运行时的监控也很重要。当线上系统遇到对抗样本攻击时，需要能够及时发现。

@Service
public class RuntimeAdversarialMonitor {
    
    // 维护模型决策的历史分布
    private final RollingStatistics decisionConfidenceStats = new RollingStatistics(1000);
    
    public void recordAndMonitor(String input, ModelPrediction prediction) {
        // 记录决策置信度
        decisionConfidenceStats.add(prediction.getConfidence());
        
        // 检测异常低置信度（对抗样本通常让模型"不确定"）
        double avgConfidence = decisionConfidenceStats.getMean();
        double stdDev = decisionConfidenceStats.getStdDev();
        
        // 置信度比均值低2个标准差，标记为可疑
        if (prediction.getConfidence() < avgConfidence - 2 * stdDev) {
            log.warn("检测到低置信度预测：置信度 {:.3f}，均值 {:.3f}，输入: {}", 
                prediction.getConfidence(), avgConfidence, truncate(input, 100));
            
            adversarialEventRecorder.record(
                AdversarialEvent.lowConfidence(input, prediction));
        }
        
        // 检测决策边界附近的输入（置信度在 45%-55% 之间）
        if (prediction.getConfidence() > 0.45 && prediction.getConfidence() < 0.55) {
            log.debug("决策边界附近的输入，可能是边界攻击探测");
            adversarialEventRecorder.record(
                AdversarialEvent.decisionBoundary(input, prediction));
        }
        
        // 检测连续相似输入（可能是对抗样本生成过程中的梯度搜索）
        detectSequentialProbing(input);
    }
    
    private void detectSequentialProbing(String input) {
        String inputHash = hashContent(input);
        String recentInputsKey = "adversarial:recent_inputs:" + getCurrentClientId();
        
        // 获取最近10个输入
        List<String> recentInputs = recentInputCache.get(recentInputsKey);
        
        if (recentInputs != null && recentInputs.size() >= 5) {
            // 计算最近输入和当前输入的相似度
            long similarCount = recentInputs.stream()
                .filter(recent -> computeEditDistance(recent, input) < 5)
                .count();
            
            // 5个输入里有3个以上和当前输入高度相似，可能是系统性探测
            if (similarCount >= 3) {
                log.warn("检测到系统性探测攻击：最近{}个输入中有{}个高度相似",
                    recentInputs.size(), similarCount);
                
                alertService.sendAlert(AlertType.ADVERSARIAL_PROBING_DETECTED,
                    "检测到可能的对抗样本生成探测，来自客户端: " + getCurrentClientId());
                    
                rateLimiter.penalize(getCurrentClientId(), Duration.ofMinutes(10));
            }
        }
        
        // 更新最近输入缓存
        recentInputCache.addToList(recentInputsKey, input, 10);
    }
    
    private int computeEditDistance(String s1, String s2) {
        if (Math.abs(s1.length() - s2.length()) > 10) return Integer.MAX_VALUE;
        
        int n = s1.length(), m = s2.length();
        int[][] dp = new int[n + 1][m + 1];
        
        for (int i = 0; i <= n; i++) dp[i][0] = i;
        for (int j = 0; j <= m; j++) dp[0][j] = j;
        
        for (int i = 1; i <= n; i++) {
            for (int j = 1; j <= m; j++) {
                if (s1.charAt(i - 1) == s2.charAt(j - 1)) {
                    dp[i][j] = dp[i - 1][j - 1];
                } else {
                    dp[i][j] = 1 + Math.min(dp[i - 1][j - 1], Math.min(dp[i - 1][j], dp[i][j - 1]));
                }
            }
        }
        return dp[n][m];
    }
}

六、企业 AI 系统的对抗样本防御体系

把前面的内容整合，形成一套分层防御体系：

我想强调的一点：在企业 AI 系统里，对抗样本防御的优先级取决于你的模型决策的影响力。如果你的 AI 只是做个聊天助手，对抗样本的危害有限。但如果你的 AI 在做欺诈检测、信用评分、安全审查等高影响力决策，对抗样本防御就是必须认真对待的工程课题。

投入防御资源之前，先做一次威胁建模，搞清楚攻击者是谁、动机是什么、攻击成功的业务影响有多大，然后针对性地布防。不要对所有场景一刀切地用最重的防御，那会严重影响用户体验，也浪费工程资源。