企业 AI 合规——数据安全和监管，工程师要知道的最少知识

老张2026/4/30大约 8 分钟

企业 AI 合规——数据安全和监管，工程师要知道的最少知识

适读人群：负责企业 AI 项目的工程师和技术负责人 | 阅读时长：约 13 分钟 | 核心价值：了解合规底线，在系统设计阶段避开法律雷区

有次和一个做 SaaS 的朋友吃饭，他们公司在做一个 AI 分析产品，用 LLM 帮企业客户分析内部数据。

聊到一半他问我：我们需要关注合规吗？

我反问他：你们的客户是哪些行业？

他说：金融、医疗、政府都有。

我说：那你们现在的架构有没有数据脱敏？有没有数据留境方案？用户数据有没有隔离？

他沉默了三秒，然后说：我们之前没认真想过这些。

这篇文章不是法律科普，我不是律师，也没资格给法律意见。我想讲的是：作为工程师，在设计 AI 系统的时候，哪些是我们必须主动考虑的合规问题，而不是等法务部门来提。

为什么工程师要懂合规底线

传统软件时代，合规主要是产品和法务的事，工程师按需求实现就行。

AI 时代这个分工失效了，原因很简单：AI 系统的合规问题往往藏在架构决策里。

等到法务介入，系统已经上线，要改的成本极高。

举几个例子：

你选择用云端 API 还是本地模型，决定了数据是否出境，直接影响合规性
你的日志记录了哪些内容，决定了后续审计是否可行
你的模型输出有没有过滤机制，决定了是否满足"可解释性"要求
你用什么存储方案，决定了用户"删除权"是否可以技术上实现

这些都是工程师在写第一行代码前就要考虑的问题。

你必须知道的三部法律

不需要通读，但要知道这三部法律的核心逻辑，以及哪些条款和你的工作直接相关。

《个人信息保护法》（PIPL）

核心逻辑：收集和使用个人信息需要有明确的合法依据，用户有权知道、有权拒绝、有权删除。

和工程师最相关的条款：

数据最小化原则：只收集完成功能所必需的最少数据。你的 AI 功能要分析用户的工作习惯？那就只收习惯数据，不要顺手把通讯录也拉上。
用户权利要可执行：用户要求删除数据，系统必须真的能删。这不只是数据库里 DELETE 一条记录，还包括训练数据里的影响（这个确实很难，但至少要有方案）。
跨境传输要报备：把用户个人信息传到境外服务器（包括境外 LLM API），大量情况下需要通过安全评估或签订标准合同。"大量"的标准是 100 万人以上数据，或者每年累计 10 万人以上。你的产品体量到没到？算一下。

《数据安全法》

核心逻辑：把数据按重要程度分级，不同级别的数据有不同的保护要求。

和工程师最相关的：

"重要数据"和"核心数据"的概念。各行业监管机构会发布本行业的重要数据目录，一旦你处理的数据被认定为"重要数据"，导出、跨境、委托处理都需要安全评估。

金融行业：非公开的市场信息、客户账户数据基本都在里面。医疗行业：人口健康数据、临床诊疗数据。政府项目：更严格，很多直接要求政务云。

《生成式人工智能服务管理暂行办法》

这是专门针对 AI 的，2023 年 8 月生效。

最关键的几点：

训练数据合规：用来训练模型的数据，来源要合法。如果你在训练自己的模型或者做微调，数据来源的合法性要说清楚。
内容安全：生成内容不能涉及法律禁止的内容，平台要有过滤机制。
标注人工生成：AI 生成的内容要让用户知道这是 AI 生成的（在特定场景下）。
用户投诉机制：要有用户举报和处理机制。

不同行业的雷区

金融行业

金融机构受银保监（现金融监管总局）监管，有一套自己的信息安全标准（JR/T 0071），基本要求是金融数据不出金融机构的网络边界。

实际意思：你给银行、保险、证券公司做 AI 项目，用云端 LLM API 的方案基本通不过他们的合规审查。要么用他们认可的金融云，要么本地部署。

另外，《证券法》里有内幕信息的规定。如果你的 AI 系统处理了上市公司的非公开信息，这个边界要非常清晰。

医疗行业

《网络安全法》和《数据安全法》之外，还有卫生健康委的专项要求：健康医疗数据原则上在境内存储和使用。

医院的内网数据更不用说，不可能出院内网。给医疗机构做 AI 项目，本地化方案是基本前提。

政务行业

政务数据使用政务云，不允许用商业公有云，这是硬性要求。

政务 AI 项目基本是：本地模型 + 政务云部署。用 OpenAI 的 API？方案评审阶段就会被否掉。

什么情况下必须用本地模型

我把这个问题整理成一个判断流程：

你的系统需要处理哪类数据？
|
├── 个人信息（PII）
│   ├── 数据量超过 10 万用户/年 → 跨境传输需要安全评估，建议本地
│   ├── 敏感个人信息（健康、生物特征、金融等）→ 强烈建议本地
│   └── 普通个人信息，小量 → 签署数据处理协议，云端可用
│
├── 企业数据
│   ├── 上市公司非公开信息 → 绝对不能出境，本地
│   ├── 涉及保密协议的商业数据 → 取决于协议条款，通常本地
│   └── 内部运营数据，无外部保密义务 → 评估风险后决定
│
├── 行业监管数据
│   ├── 金融客户数据 → 本地或金融云
│   ├── 医疗健康数据 → 本地
│   └── 政务数据 → 政务云，本地模型
│
└── 公开或低敏感数据
    → 云端 API 风险可控，注意签署合适的服务协议

本地模型部署的实用参考

不同规模需求的硬件参考（2024 年底的市场价格，仅供参考）：

小型企业（并发 5-10 人）:
  - 单台服务器，A10 24G 显卡
  - 运行 Qwen2.5-7B 或 Yi-1.5-9B
  - 成本约 4-6 万

中型企业（并发 20-50 人）:
  - 2-4 卡服务器，A100 80G 或 H800
  - 运行 Qwen2.5-72B 量化版
  - 成本约 30-60 万

大型企业:
  - 私有化集群，跑全精度大模型
  - 和厂商直接谈私有化部署方案

对于大多数企业来说，7B-14B 规模的国产模型（Qwen、Yi、ChatGLM）用于文档理解、问答等场景，效果已经足够用了。

系统设计阶段的合规检查清单

这是我在做企业 AI 项目时会过一遍的清单，工程师在开始设计前可以对照：

数据流

列出系统处理的所有数据类型
标注每类数据的敏感级别
确认每类数据的流向：在哪里处理、存储在哪里、是否出境
识别哪些数据不能流经云端 LLM API

用户权利

用户可以查看系统存储了他们的哪些数据
用户可以请求删除，系统能技术上实现
有用户同意记录（日志可查）

访问控制

不同角色的用户只能看自己权限范围内的数据
管理员操作有审计日志
API 密钥有轮换机制，不硬编码在代码里

内容安全

AI 输出有基础的内容过滤
有用户举报渠道
有人工审核机制（至少抽检）

第三方服务

使用云端 LLM API 的，有签署数据处理协议
确认第三方服务商的数据处理符合合规要求
记录了哪些数据发给了哪些第三方服务

应急响应

有数据泄露的应急方案
知道发生数据泄露后应该在多少时间内向监管报告（PIPL 要求 72 小时内）

两个典型的错误

错误一：把合规当成产品上线后的事

见过不止一个团队，产品做完准备推广的时候才发现不合规，然后要么改架构（代价极高），要么硬推（承担法律风险）。合规检查从立项开始做，成本最低。

错误二：只看国内监管，忘了数据流经的境外法律

如果你的 AI 系统处理的是欧洲用户的数据，GDPR 也要遵守。如果用的是美国的 LLM 服务，数据进了美国服务器，要考虑美国的法律适用问题。全球化业务的合规是多层的。

最后说一点：合规不是"防守性"的事情，它是企业 AI 产品能走远的基础。

那些没有合规方案就在金融、医疗行业推 AI 产品的公司，可能短期跑得很快，但风险是实实在在的。等监管发力，没有合规积累的产品会死得很难看。

做扎实一点，慢一点，但稳。