企业 AI 合规——数据安全和监管,工程师要知道的最少知识
企业 AI 合规——数据安全和监管,工程师要知道的最少知识
适读人群:负责企业 AI 项目的工程师和技术负责人 | 阅读时长:约 13 分钟 | 核心价值:了解合规底线,在系统设计阶段避开法律雷区
有次和一个做 SaaS 的朋友吃饭,他们公司在做一个 AI 分析产品,用 LLM 帮企业客户分析内部数据。
聊到一半他问我:我们需要关注合规吗?
我反问他:你们的客户是哪些行业?
他说:金融、医疗、政府都有。
我说:那你们现在的架构有没有数据脱敏?有没有数据留境方案?用户数据有没有隔离?
他沉默了三秒,然后说:我们之前没认真想过这些。
这篇文章不是法律科普,我不是律师,也没资格给法律意见。我想讲的是:作为工程师,在设计 AI 系统的时候,哪些是我们必须主动考虑的合规问题,而不是等法务部门来提。
为什么工程师要懂合规底线
传统软件时代,合规主要是产品和法务的事,工程师按需求实现就行。
AI 时代这个分工失效了,原因很简单:AI 系统的合规问题往往藏在架构决策里。
等到法务介入,系统已经上线,要改的成本极高。
举几个例子:
- 你选择用云端 API 还是本地模型,决定了数据是否出境,直接影响合规性
- 你的日志记录了哪些内容,决定了后续审计是否可行
- 你的模型输出有没有过滤机制,决定了是否满足"可解释性"要求
- 你用什么存储方案,决定了用户"删除权"是否可以技术上实现
这些都是工程师在写第一行代码前就要考虑的问题。
你必须知道的三部法律
不需要通读,但要知道这三部法律的核心逻辑,以及哪些条款和你的工作直接相关。
《个人信息保护法》(PIPL)
核心逻辑:收集和使用个人信息需要有明确的合法依据,用户有权知道、有权拒绝、有权删除。
和工程师最相关的条款:
数据最小化原则:只收集完成功能所必需的最少数据。你的 AI 功能要分析用户的工作习惯?那就只收习惯数据,不要顺手把通讯录也拉上。
用户权利要可执行:用户要求删除数据,系统必须真的能删。这不只是数据库里 DELETE 一条记录,还包括训练数据里的影响(这个确实很难,但至少要有方案)。
跨境传输要报备:把用户个人信息传到境外服务器(包括境外 LLM API),大量情况下需要通过安全评估或签订标准合同。"大量"的标准是 100 万人以上数据,或者每年累计 10 万人以上。你的产品体量到没到?算一下。
《数据安全法》
核心逻辑:把数据按重要程度分级,不同级别的数据有不同的保护要求。
和工程师最相关的:
"重要数据"和"核心数据"的概念。各行业监管机构会发布本行业的重要数据目录,一旦你处理的数据被认定为"重要数据",导出、跨境、委托处理都需要安全评估。
金融行业:非公开的市场信息、客户账户数据基本都在里面。 医疗行业:人口健康数据、临床诊疗数据。 政府项目:更严格,很多直接要求政务云。
《生成式人工智能服务管理暂行办法》
这是专门针对 AI 的,2023 年 8 月生效。
最关键的几点:
- 训练数据合规:用来训练模型的数据,来源要合法。如果你在训练自己的模型或者做微调,数据来源的合法性要说清楚。
- 内容安全:生成内容不能涉及法律禁止的内容,平台要有过滤机制。
- 标注人工生成:AI 生成的内容要让用户知道这是 AI 生成的(在特定场景下)。
- 用户投诉机制:要有用户举报和处理机制。
不同行业的雷区
金融行业
金融机构受银保监(现金融监管总局)监管,有一套自己的信息安全标准(JR/T 0071),基本要求是金融数据不出金融机构的网络边界。
实际意思:你给银行、保险、证券公司做 AI 项目,用云端 LLM API 的方案基本通不过他们的合规审查。要么用他们认可的金融云,要么本地部署。
另外,《证券法》里有内幕信息的规定。如果你的 AI 系统处理了上市公司的非公开信息,这个边界要非常清晰。
医疗行业
《网络安全法》和《数据安全法》之外,还有卫生健康委的专项要求:健康医疗数据原则上在境内存储和使用。
医院的内网数据更不用说,不可能出院内网。给医疗机构做 AI 项目,本地化方案是基本前提。
政务行业
政务数据使用政务云,不允许用商业公有云,这是硬性要求。
政务 AI 项目基本是:本地模型 + 政务云部署。用 OpenAI 的 API?方案评审阶段就会被否掉。
什么情况下必须用本地模型
我把这个问题整理成一个判断流程:
你的系统需要处理哪类数据?
|
├── 个人信息(PII)
│ ├── 数据量超过 10 万用户/年 → 跨境传输需要安全评估,建议本地
│ ├── 敏感个人信息(健康、生物特征、金融等)→ 强烈建议本地
│ └── 普通个人信息,小量 → 签署数据处理协议,云端可用
│
├── 企业数据
│ ├── 上市公司非公开信息 → 绝对不能出境,本地
│ ├── 涉及保密协议的商业数据 → 取决于协议条款,通常本地
│ └── 内部运营数据,无外部保密义务 → 评估风险后决定
│
├── 行业监管数据
│ ├── 金融客户数据 → 本地或金融云
│ ├── 医疗健康数据 → 本地
│ └── 政务数据 → 政务云,本地模型
│
└── 公开或低敏感数据
→ 云端 API 风险可控,注意签署合适的服务协议本地模型部署的实用参考
不同规模需求的硬件参考(2024 年底的市场价格,仅供参考):
小型企业(并发 5-10 人):
- 单台服务器,A10 24G 显卡
- 运行 Qwen2.5-7B 或 Yi-1.5-9B
- 成本约 4-6 万
中型企业(并发 20-50 人):
- 2-4 卡服务器,A100 80G 或 H800
- 运行 Qwen2.5-72B 量化版
- 成本约 30-60 万
大型企业:
- 私有化集群,跑全精度大模型
- 和厂商直接谈私有化部署方案对于大多数企业来说,7B-14B 规模的国产模型(Qwen、Yi、ChatGLM)用于文档理解、问答等场景,效果已经足够用了。
系统设计阶段的合规检查清单
这是我在做企业 AI 项目时会过一遍的清单,工程师在开始设计前可以对照:
数据流
用户权利
访问控制
内容安全
第三方服务
应急响应
两个典型的错误
错误一:把合规当成产品上线后的事
见过不止一个团队,产品做完准备推广的时候才发现不合规,然后要么改架构(代价极高),要么硬推(承担法律风险)。合规检查从立项开始做,成本最低。
错误二:只看国内监管,忘了数据流经的境外法律
如果你的 AI 系统处理的是欧洲用户的数据,GDPR 也要遵守。如果用的是美国的 LLM 服务,数据进了美国服务器,要考虑美国的法律适用问题。全球化业务的合规是多层的。
最后说一点:合规不是"防守性"的事情,它是企业 AI 产品能走远的基础。
那些没有合规方案就在金融、医疗行业推 AI 产品的公司,可能短期跑得很快,但风险是实实在在的。等监管发力,没有合规积累的产品会死得很难看。
做扎实一点,慢一点,但稳。
