Claude背后的Dario Amodei:AI越强,越要先问错了怎么办
AI时代周刊

Claude背后的Dario Amodei:AI越强,越要先问错了怎么办

约 3,625 字 阅读约 19 分钟
目录

Claude 背后的 Dario Amodei:AI 越强,越要先问错了怎么办

4828b2d3d4a58353ed18b7ced1314482.jpg

前段时间,我看到一个金融团队在评审 AI 风险初筛流程。

他们准备用某个大模型做客户风险初筛。演示时,一切都很顺:数据进去,报告出来,格式漂亮,逻辑清晰,看起来已经可以接进业务流程。

我当时想到一个问题:

如果模型把一个高风险客户筛成低风险,他们怎么发现?

这个问题一抛出来,会议室里那种兴奋感,很可能会立刻冷下来。

这就是 Dario Amodei 这类人长期盯着的问题。

不是 AI 能不能做。

而是它错了怎么办。

AI 错得越像真的,越危险

这几年,AI 产品的兴奋点几乎都在能力上。

能写邮件,能改文案,能读 PDF,能整理会议纪要,能写代码,能分析复杂材料。能力越来越强,任务越来越多,进入工作流的速度也越来越快。

但只要 AI 真正进入真实业务,另一个问题就会立刻出现:

快了以后,错了怎么办?

普通工具出错,很多时候你能看出来。按钮没点上,表格没算完,接口返回失败,这些错误比较显眼。

AI 不一样。

它最麻烦的地方,是错得很顺。

它会给你一段完整的理由,一个清晰的结构,一份看起来专业的报告。它不是简单地报错,而是把错误包装成一个可以直接交付的结果。

这才是风险。

在低容错场景里,最危险的不是工具不能用,而是工具看起来已经能用了。

Dario 不是反 AI,他反对的是只看能力

Dario Amodei 是 Anthropic 的联合创始人兼 CEO。很多人认识 Anthropic,是因为 Claude。

但如果只把 Claude 理解成“另一个大模型产品”,就会错过 Dario 身上最重要的部分。

他不是站在 AI 产业外面唱反调的人。Anthropic 一直在训练前沿模型,也一直在把 Claude 推向更强的代码、写作、推理和企业场景。

难的地方在这里:

他一边做更强的模型,一边反复提醒强模型进入真实世界后的后果。

这条路天然有张力。

只做安全评论,不碰前沿模型,很容易离真实问题太远。只追能力增长,不把安全当核心约束,又会在模型进入真实业务后,把风险成倍放大。

Dario 代表的是另一种路线:

AI 会越来越强,所以边界必须提前设计。

这不是保守。

这是工程。

安全不是补丁,是路线

很多团队做 AI,路径是反过来的。

先把能力做出来。

先把 Demo 跑通。

先让老板看到效果。

先证明“AI 能干这件事”。

等上线之后,发现模型会胡说、会越权、会漏掉关键风险,再回头补审核、补权限、补人工复核。

这时候成本已经很高了。

我见过很多类似情况。Demo 阶段一切顺利,一到真实环境,异常数据、模糊指令、边界场景、权限问题全都冒出来。

这不是 AI 特有的问题。

任何系统进入生产环境,最要命的都不是主路径,而是异常路径。

只是 AI 把这个问题放大了。

因为它输出的东西太像真的,也太容易让人放松警惕。

所以安全不能只是上线前补一个审核环节,也不能只是文档里写一句“请谨慎使用”。

真正有效的安全,要在流程开始前就被设计进去:

什么数据不能进模型?

什么输出不能直接相信?

什么场景必须人工复核?

模型什么时候应该拒绝?

出了错能不能追溯?

影响已经发生了,能不能回滚?

这些问题不刺激,也不适合做发布会亮点。

但它们决定一个 AI 系统能不能长期被信任。

把原则写进训练流程

Anthropic 最有代表性的方向之一,是 Constitutional AI。

这个词听起来有点技术,但人话并不复杂。

它不是让模型“凭感觉做好人”,而是先写出一组原则,再让模型在训练和修正过程中反复学习:

哪些回答应该给。

哪些回答应该拒绝。

哪些回答要提醒风险。

哪些回答看起来满足用户要求,但可能带来伤害。

这件事重要的地方,不是概念多高级。

而是它把“安全”从一句价值观,往工程流程里推进了一步。

很多团队谈 AI 风险,容易停留在态度层面:

我们重视安全。

我们重视合规。

我们重视隐私。

这些话都对,但如果风险没有进入流程,就会在排期、预算、上线压力面前被挤掉。

真正有用的原则,不是贴在墙上。

而是进入训练、评估、红队测试、产品边界和用户流程。

否则它只是一句好听的话。

低容错场景里,模糊就是风险

我做金融科技出身,对“低容错”这三个字特别敏感。

在金融系统里,很多事情不是差不多就行。

金额不能差不多。

权限不能差不多。

风险等级不能差不多。

客户承诺不能差不多。

上线操作也不能差不多。

演示环境里,按钮能点,接口能通,报表能生成。

但真实系统里,最要命的永远是异常路径。

AI 也是一样。

很多团队一开始问的是:

这个模型能不能帮我做?

能不能写邮件?

能不能总结材料?

能不能生成报告?

能不能分析客户?

这些问题当然重要。

但等 AI 真正进入企业流程之后,更重要的问题会变成:

它不能做什么?

哪些结果不能直接用?

哪些地方必须停下来等人确认?

如果它错了,谁能发现?

如果已经造成影响,怎么回滚?

这听起来保守,但不是保守。

这是工程。

一个系统如果没有边界,没有复核,没有追溯,只是跑得更快,那它带来的不一定是效率,也可能是更快地放大风险。

普通人的 AI 工作流,也需要安全检查

你可能觉得 Dario、Anthropic、AI safety 这些词离自己很远。

但只要你开始把 AI 放进真实工作流,这些问题就和你有关。

让 AI 写一封普通邮件,风险很低。

让 AI 总结一份会议纪要,风险中等。

让 AI 帮你改合同、算数据、写代码、分析客户、处理内部资料,风险就完全不一样了。

同一个模型,放在不同场景里,责任完全不同。

所以普通人真正需要补的,未必是第十一个新工具,而是先给自己的 AI 工作流做一次安全检查。

可以从三个问题开始:

检查项你要问什么典型例子
哪些东西不能随便喂给 AI这些内容能不能上传?需不需要脱敏?客户隐私、资金数据、合同原文、医疗法律信息、公司敏感资料
哪些输出不能直接信哪些结果必须人工复核?最终金额、合同条款、客户承诺、上线操作、对外发布内容
错了以后能不能查回来出问题时能不能追溯输入、提示词、模型输出和人工修改?保留版本记录,知道错在哪一步,方便回滚和修正流程

这张表不复杂,但很多人会跳过。

跳过的代价,不只是出错。

更严重的是信任被消耗。

一旦用户发现 AI 帮他生成过错误结论,而且团队没有发现机制,他就很难再放心把重要任务交给 AI。

能力越强,边界越要提前设计

Dario Amodei 的路径,普通人无法完整复制。

不是每个人都要训练前沿模型,也不是每个团队都要做 AI 安全研究。

但他给我们的提醒很直接:

能力越强,边界越要提前设计。

很多人使用 AI 时,默认把安全理解成平台的责任。

模型不要乱答。

平台不要泄露。

工具不要出错。

这些当然是平台该做的。

但一旦你把 AI 接进自己的工作流,你也在设计一个小系统。

你选择输入什么,交给它什么,信任它到什么程度,什么时候人工介入,出了错怎么补救。

这些都是系统设计。

一个只能在演示里跑通的 AI 工具,还只是工具。

一个进入真实流程、但没有复核机制的 AI 工具,可能就是风险。

AI 时代会调用模型的人越来越多。

会写提示词的人也会越来越多。

但真正稀缺的,可能不是“更会用 AI”的人。

而是能在能力、风险和责任之间,把边界写清楚的人。

Dario 这类人的价值,不是让我们害怕 AI。

而是提醒我们:

AI 越强,越不能只问它能做什么。

还要提前问一句:

它错了,我们怎么发现?

事实核查来源

相关文章