Claude 背后的 Dario Amodei：AI 越强，越要先问错了怎么办

前段时间，我看到一个金融团队在评审 AI 风险初筛流程。

他们准备用某个大模型做客户风险初筛。演示时，一切都很顺：数据进去，报告出来，格式漂亮，逻辑清晰，看起来已经可以接进业务流程。

我当时想到一个问题：

如果模型把一个高风险客户筛成低风险，他们怎么发现？

这个问题一抛出来，会议室里那种兴奋感，很可能会立刻冷下来。

这就是 Dario Amodei 这类人长期盯着的问题。

不是 AI 能不能做。

而是它错了怎么办。

AI 错得越像真的，越危险

这几年，AI 产品的兴奋点几乎都在能力上。

能写邮件，能改文案，能读 PDF，能整理会议纪要，能写代码，能分析复杂材料。能力越来越强，任务越来越多，进入工作流的速度也越来越快。

但只要 AI 真正进入真实业务，另一个问题就会立刻出现：

快了以后，错了怎么办？

普通工具出错，很多时候你能看出来。按钮没点上，表格没算完，接口返回失败，这些错误比较显眼。

AI 不一样。

它最麻烦的地方，是错得很顺。

它会给你一段完整的理由，一个清晰的结构，一份看起来专业的报告。它不是简单地报错，而是把错误包装成一个可以直接交付的结果。

这才是风险。

在低容错场景里，最危险的不是工具不能用，而是工具看起来已经能用了。

Dario 不是反 AI，他反对的是只看能力

Dario Amodei 是 Anthropic 的联合创始人兼 CEO。很多人认识 Anthropic，是因为 Claude。

但如果只把 Claude 理解成“另一个大模型产品”，就会错过 Dario 身上最重要的部分。

他不是站在 AI 产业外面唱反调的人。Anthropic 一直在训练前沿模型，也一直在把 Claude 推向更强的代码、写作、推理和企业场景。

难的地方在这里：

他一边做更强的模型，一边反复提醒强模型进入真实世界后的后果。

这条路天然有张力。

只做安全评论，不碰前沿模型，很容易离真实问题太远。只追能力增长，不把安全当核心约束，又会在模型进入真实业务后，把风险成倍放大。

Dario 代表的是另一种路线：

AI 会越来越强，所以边界必须提前设计。

这不是保守。

这是工程。

安全不是补丁，是路线

很多团队做 AI，路径是反过来的。

先把能力做出来。

先把 Demo 跑通。

先让老板看到效果。

先证明“AI 能干这件事”。

等上线之后，发现模型会胡说、会越权、会漏掉关键风险，再回头补审核、补权限、补人工复核。

这时候成本已经很高了。

我见过很多类似情况。Demo 阶段一切顺利，一到真实环境，异常数据、模糊指令、边界场景、权限问题全都冒出来。

这不是 AI 特有的问题。

任何系统进入生产环境，最要命的都不是主路径，而是异常路径。

只是 AI 把这个问题放大了。

因为它输出的东西太像真的，也太容易让人放松警惕。

所以安全不能只是上线前补一个审核环节，也不能只是文档里写一句“请谨慎使用”。

真正有效的安全，要在流程开始前就被设计进去：

什么数据不能进模型？

什么输出不能直接相信？

什么场景必须人工复核？

模型什么时候应该拒绝？

出了错能不能追溯？

影响已经发生了，能不能回滚？

这些问题不刺激，也不适合做发布会亮点。

但它们决定一个 AI 系统能不能长期被信任。

把原则写进训练流程

Anthropic 最有代表性的方向之一，是 Constitutional AI。

这个词听起来有点技术，但人话并不复杂。

它不是让模型“凭感觉做好人”，而是先写出一组原则，再让模型在训练和修正过程中反复学习：

哪些回答应该给。

哪些回答应该拒绝。

哪些回答要提醒风险。

哪些回答看起来满足用户要求，但可能带来伤害。

这件事重要的地方，不是概念多高级。

而是它把“安全”从一句价值观，往工程流程里推进了一步。

很多团队谈 AI 风险，容易停留在态度层面：

我们重视安全。

我们重视合规。

我们重视隐私。

这些话都对，但如果风险没有进入流程，就会在排期、预算、上线压力面前被挤掉。

真正有用的原则，不是贴在墙上。

而是进入训练、评估、红队测试、产品边界和用户流程。

否则它只是一句好听的话。

低容错场景里，模糊就是风险

我做金融科技出身，对“低容错”这三个字特别敏感。

在金融系统里，很多事情不是差不多就行。

金额不能差不多。

权限不能差不多。

风险等级不能差不多。

客户承诺不能差不多。

上线操作也不能差不多。

演示环境里，按钮能点，接口能通，报表能生成。

但真实系统里，最要命的永远是异常路径。

AI 也是一样。

很多团队一开始问的是：

这个模型能不能帮我做？

能不能写邮件？

能不能总结材料？

能不能生成报告？

能不能分析客户？

这些问题当然重要。

但等 AI 真正进入企业流程之后，更重要的问题会变成：

它不能做什么？

哪些结果不能直接用？

哪些地方必须停下来等人确认？

如果它错了，谁能发现？

如果已经造成影响，怎么回滚？

这听起来保守，但不是保守。

这是工程。

一个系统如果没有边界，没有复核，没有追溯，只是跑得更快，那它带来的不一定是效率，也可能是更快地放大风险。

普通人的 AI 工作流，也需要安全检查

你可能觉得 Dario、Anthropic、AI safety 这些词离自己很远。

但只要你开始把 AI 放进真实工作流，这些问题就和你有关。

让 AI 写一封普通邮件，风险很低。

让 AI 总结一份会议纪要，风险中等。

让 AI 帮你改合同、算数据、写代码、分析客户、处理内部资料，风险就完全不一样了。

同一个模型，放在不同场景里，责任完全不同。

所以普通人真正需要补的，未必是第十一个新工具，而是先给自己的 AI 工作流做一次安全检查。

可以从三个问题开始：

检查项	你要问什么	典型例子
哪些东西不能随便喂给 AI	这些内容能不能上传？需不需要脱敏？	客户隐私、资金数据、合同原文、医疗法律信息、公司敏感资料
哪些输出不能直接信	哪些结果必须人工复核？	最终金额、合同条款、客户承诺、上线操作、对外发布内容
错了以后能不能查回来	出问题时能不能追溯输入、提示词、模型输出和人工修改？	保留版本记录，知道错在哪一步，方便回滚和修正流程

这张表不复杂，但很多人会跳过。

跳过的代价，不只是出错。

更严重的是信任被消耗。

一旦用户发现 AI 帮他生成过错误结论，而且团队没有发现机制，他就很难再放心把重要任务交给 AI。

能力越强，边界越要提前设计

Dario Amodei 的路径，普通人无法完整复制。

不是每个人都要训练前沿模型，也不是每个团队都要做 AI 安全研究。

但他给我们的提醒很直接：

能力越强，边界越要提前设计。

很多人使用 AI 时，默认把安全理解成平台的责任。

模型不要乱答。

平台不要泄露。

工具不要出错。

这些当然是平台该做的。

但一旦你把 AI 接进自己的工作流，你也在设计一个小系统。

你选择输入什么，交给它什么，信任它到什么程度，什么时候人工介入，出了错怎么补救。

这些都是系统设计。

一个只能在演示里跑通的 AI 工具，还只是工具。

一个进入真实流程、但没有复核机制的 AI 工具，可能就是风险。

AI 时代会调用模型的人越来越多。

会写提示词的人也会越来越多。

但真正稀缺的，可能不是“更会用 AI”的人。

而是能在能力、风险和责任之间，把边界写清楚的人。

Dario 这类人的价值，不是让我们害怕 AI。

而是提醒我们：

AI 越强，越不能只问它能做什么。

还要提前问一句：

它错了，我们怎么发现？

事实核查来源

Anthropic Company: https://www.anthropic.com/company
Anthropic 2021 Series A announcement: https://www.anthropic.com/news/anthropic-raises-124-million-to-build-more-reliable-general-ai-systems
Constitutional AI: Harmlessness from AI Feedback: https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback
Claude’s Constitution: https://www.anthropic.com/news/claudes-constitution
Core Views on AI Safety: https://www.anthropic.com/news/core-views-on-ai-safety

Claude背后的Dario Amodei：AI越强，越要先问错了怎么办

Claude 背后的 Dario Amodei：AI 越强，越要先问错了怎么办

AI 错得越像真的，越危险

Dario 不是反 AI，他反对的是只看能力

安全不是补丁，是路线

把原则写进训练流程

低容错场景里，模糊就是风险

普通人的 AI 工作流，也需要安全检查

能力越强，边界越要提前设计

事实核查来源

相关文章

Karpathy加入Anthropic后，技术人该看什么

在AI时代，刻意学习不是为了更快，而是为了不被悄悄淘汰

28岁，姚班天才回国，腾讯把 AI 的未来交到他手里