Claude背后的Dario Amodei:AI越强,越要先问错了怎么办
目录 ▾
Claude 背后的 Dario Amodei:AI 越强,越要先问错了怎么办

前段时间,我看到一个金融团队在评审 AI 风险初筛流程。
他们准备用某个大模型做客户风险初筛。演示时,一切都很顺:数据进去,报告出来,格式漂亮,逻辑清晰,看起来已经可以接进业务流程。
我当时想到一个问题:
如果模型把一个高风险客户筛成低风险,他们怎么发现?
这个问题一抛出来,会议室里那种兴奋感,很可能会立刻冷下来。
这就是 Dario Amodei 这类人长期盯着的问题。
不是 AI 能不能做。
而是它错了怎么办。
AI 错得越像真的,越危险
这几年,AI 产品的兴奋点几乎都在能力上。
能写邮件,能改文案,能读 PDF,能整理会议纪要,能写代码,能分析复杂材料。能力越来越强,任务越来越多,进入工作流的速度也越来越快。
但只要 AI 真正进入真实业务,另一个问题就会立刻出现:
快了以后,错了怎么办?
普通工具出错,很多时候你能看出来。按钮没点上,表格没算完,接口返回失败,这些错误比较显眼。
AI 不一样。
它最麻烦的地方,是错得很顺。
它会给你一段完整的理由,一个清晰的结构,一份看起来专业的报告。它不是简单地报错,而是把错误包装成一个可以直接交付的结果。
这才是风险。
在低容错场景里,最危险的不是工具不能用,而是工具看起来已经能用了。
Dario 不是反 AI,他反对的是只看能力
Dario Amodei 是 Anthropic 的联合创始人兼 CEO。很多人认识 Anthropic,是因为 Claude。
但如果只把 Claude 理解成“另一个大模型产品”,就会错过 Dario 身上最重要的部分。
他不是站在 AI 产业外面唱反调的人。Anthropic 一直在训练前沿模型,也一直在把 Claude 推向更强的代码、写作、推理和企业场景。
难的地方在这里:
他一边做更强的模型,一边反复提醒强模型进入真实世界后的后果。
这条路天然有张力。
只做安全评论,不碰前沿模型,很容易离真实问题太远。只追能力增长,不把安全当核心约束,又会在模型进入真实业务后,把风险成倍放大。
Dario 代表的是另一种路线:
AI 会越来越强,所以边界必须提前设计。
这不是保守。
这是工程。
安全不是补丁,是路线
很多团队做 AI,路径是反过来的。
先把能力做出来。
先把 Demo 跑通。
先让老板看到效果。
先证明“AI 能干这件事”。
等上线之后,发现模型会胡说、会越权、会漏掉关键风险,再回头补审核、补权限、补人工复核。
这时候成本已经很高了。
我见过很多类似情况。Demo 阶段一切顺利,一到真实环境,异常数据、模糊指令、边界场景、权限问题全都冒出来。
这不是 AI 特有的问题。
任何系统进入生产环境,最要命的都不是主路径,而是异常路径。
只是 AI 把这个问题放大了。
因为它输出的东西太像真的,也太容易让人放松警惕。
所以安全不能只是上线前补一个审核环节,也不能只是文档里写一句“请谨慎使用”。
真正有效的安全,要在流程开始前就被设计进去:
什么数据不能进模型?
什么输出不能直接相信?
什么场景必须人工复核?
模型什么时候应该拒绝?
出了错能不能追溯?
影响已经发生了,能不能回滚?
这些问题不刺激,也不适合做发布会亮点。
但它们决定一个 AI 系统能不能长期被信任。
把原则写进训练流程
Anthropic 最有代表性的方向之一,是 Constitutional AI。
这个词听起来有点技术,但人话并不复杂。
它不是让模型“凭感觉做好人”,而是先写出一组原则,再让模型在训练和修正过程中反复学习:
哪些回答应该给。
哪些回答应该拒绝。
哪些回答要提醒风险。
哪些回答看起来满足用户要求,但可能带来伤害。
这件事重要的地方,不是概念多高级。
而是它把“安全”从一句价值观,往工程流程里推进了一步。
很多团队谈 AI 风险,容易停留在态度层面:
我们重视安全。
我们重视合规。
我们重视隐私。
这些话都对,但如果风险没有进入流程,就会在排期、预算、上线压力面前被挤掉。
真正有用的原则,不是贴在墙上。
而是进入训练、评估、红队测试、产品边界和用户流程。
否则它只是一句好听的话。
低容错场景里,模糊就是风险
我做金融科技出身,对“低容错”这三个字特别敏感。
在金融系统里,很多事情不是差不多就行。
金额不能差不多。
权限不能差不多。
风险等级不能差不多。
客户承诺不能差不多。
上线操作也不能差不多。
演示环境里,按钮能点,接口能通,报表能生成。
但真实系统里,最要命的永远是异常路径。
AI 也是一样。
很多团队一开始问的是:
这个模型能不能帮我做?
能不能写邮件?
能不能总结材料?
能不能生成报告?
能不能分析客户?
这些问题当然重要。
但等 AI 真正进入企业流程之后,更重要的问题会变成:
它不能做什么?
哪些结果不能直接用?
哪些地方必须停下来等人确认?
如果它错了,谁能发现?
如果已经造成影响,怎么回滚?
这听起来保守,但不是保守。
这是工程。
一个系统如果没有边界,没有复核,没有追溯,只是跑得更快,那它带来的不一定是效率,也可能是更快地放大风险。
普通人的 AI 工作流,也需要安全检查
你可能觉得 Dario、Anthropic、AI safety 这些词离自己很远。
但只要你开始把 AI 放进真实工作流,这些问题就和你有关。
让 AI 写一封普通邮件,风险很低。
让 AI 总结一份会议纪要,风险中等。
让 AI 帮你改合同、算数据、写代码、分析客户、处理内部资料,风险就完全不一样了。
同一个模型,放在不同场景里,责任完全不同。
所以普通人真正需要补的,未必是第十一个新工具,而是先给自己的 AI 工作流做一次安全检查。
可以从三个问题开始:
| 检查项 | 你要问什么 | 典型例子 |
|---|---|---|
| 哪些东西不能随便喂给 AI | 这些内容能不能上传?需不需要脱敏? | 客户隐私、资金数据、合同原文、医疗法律信息、公司敏感资料 |
| 哪些输出不能直接信 | 哪些结果必须人工复核? | 最终金额、合同条款、客户承诺、上线操作、对外发布内容 |
| 错了以后能不能查回来 | 出问题时能不能追溯输入、提示词、模型输出和人工修改? | 保留版本记录,知道错在哪一步,方便回滚和修正流程 |
这张表不复杂,但很多人会跳过。
跳过的代价,不只是出错。
更严重的是信任被消耗。
一旦用户发现 AI 帮他生成过错误结论,而且团队没有发现机制,他就很难再放心把重要任务交给 AI。
能力越强,边界越要提前设计
Dario Amodei 的路径,普通人无法完整复制。
不是每个人都要训练前沿模型,也不是每个团队都要做 AI 安全研究。
但他给我们的提醒很直接:
能力越强,边界越要提前设计。
很多人使用 AI 时,默认把安全理解成平台的责任。
模型不要乱答。
平台不要泄露。
工具不要出错。
这些当然是平台该做的。
但一旦你把 AI 接进自己的工作流,你也在设计一个小系统。
你选择输入什么,交给它什么,信任它到什么程度,什么时候人工介入,出了错怎么补救。
这些都是系统设计。
一个只能在演示里跑通的 AI 工具,还只是工具。
一个进入真实流程、但没有复核机制的 AI 工具,可能就是风险。
AI 时代会调用模型的人越来越多。
会写提示词的人也会越来越多。
但真正稀缺的,可能不是“更会用 AI”的人。
而是能在能力、风险和责任之间,把边界写清楚的人。
Dario 这类人的价值,不是让我们害怕 AI。
而是提醒我们:
AI 越强,越不能只问它能做什么。
还要提前问一句:
它错了,我们怎么发现?
事实核查来源
- Anthropic Company: https://www.anthropic.com/company
- Anthropic 2021 Series A announcement: https://www.anthropic.com/news/anthropic-raises-124-million-to-build-more-reliable-general-ai-systems
- Constitutional AI: Harmlessness from AI Feedback: https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback
- Claude’s Constitution: https://www.anthropic.com/news/claudes-constitution
- Core Views on AI Safety: https://www.anthropic.com/news/core-views-on-ai-safety