Karpathy 加入 Anthropic 后，我更想聊聊 AI 时代最值钱的技术人能力

1. 热点只是入口

5 月 19 日，看到 Andrej Karpathy 加入 Anthropic 的消息，我第一反应不是“谁又从谁家挖走了一个大牛”。

这条消息确实够热。

OpenAI 早期成员、Tesla 前 AI 负责人、这几年把大模型讲得最清楚的人之一，去了 Claude 背后的公司，接手 pretraining 相关工作。单看履历，就已经足够让人写一篇“Anthropic 又抢到谁”的快讯。

可我看到这条消息时，脑子里跳出来的不是公司名。

我想到的是他这些年换过的几个场景：在 Stanford 做视觉和语言，在 OpenAI 做前沿研究，在 Tesla 把神经网络往真实道路里推，离开大公司以后又坐到镜头前，把自动微分、GPT、训练代码一点点拆给工程师看。

这几件事放在同一个人身上，很少见。

研究能做深，系统能落地，复杂东西还能讲到别人愿意自己动手。很多人只会其中一段。Karpathy 让人反复提起，靠的也不只是那些漂亮的公司名。

对技术人来说，这比一次跳槽更值得看。

工具会换，模型会换，组织里的位置也会换。风向一变，你还能不能把过去学到的东西接到下一个问题上，这件事越来越重要。

2. 先把问题做深，再把入口打开

很多人现在认识 Karpathy，是从视频开始。

跟着他手搓一个小模型，看他把 attention、反向传播、token 这些词拆开，确实很容易记住“他太会讲了”。但他的讲解能力不是凭空长出来的。

本科在多伦多时，他原本想往量子计算走。后来吸引他的，变成了一个更大的问题：与其只去理解某一类知识，能不能造出一个会学习的系统。也是在那段时间，他接触到 Geoff Hinton 的课程和读书会，真正进入深度学习语境。

我很喜欢这个转向。

它不像“我押中了一个风口”，更像一个人被一个问题抓住了：机器到底怎么学会东西，人又怎么靠近这种能力。

在 Stanford 读博时，他跟随李飞飞做计算机视觉、自然语言处理以及两者交叉的问题。今天大家已经习惯了多模态，习惯了模型同时理解图片和文字。但往前推十多年，图像和语言怎么对齐，本来就是一个很前沿、也很难的问题。

所以后来他讲神经网络时，听起来才不像在复述一套流行说法。

他先在那些抽象概念和工程细节里泡过，知道初学者会在哪一步卡住，也知道哪些地方不能为了“好懂”就轻轻带过。

CS231n 也是这样。

Stanford 的 CS231n 就很能看出这一点。后来很多人把它当成深度学习入门路径，原因也很直接：课程真的给了入口。你能看可视化，能跟着理解卷积网络和反向传播，也得自己动手训练模型。

它做的事情很朴素：

把门槛降下来，但不把问题讲浅。

这句话看起来简单，实际很难。

很多人会把“通俗”做成“省略复杂度”。听的时候很爽，做的时候还是不会。

另一类人会把“专业”做成“不给入口”。每一句都对，但新人根本不知道第一步该从哪里踩进去。

Karpathy 比较少见的地方，是他经常能把两头都照顾到。

他会告诉你，这东西并不神秘，你可以从最小版本开始自己写；同时他也不会假装复杂度不存在。你真的跟着写下去，就会慢慢看见梯度、训练、数据、推理、显存、部署这些东西是怎么缠在一起的。

我一直觉得，这也是技术能力。

会做当然重要。可当一个领域变化很快时，你能不能把自己理解过的东西讲到别人能接上，会直接影响这份能力能走多远。

代码在仓库里，项目在组织里，经验如果只留在你脑子里，它的复利很弱。

3. 真正的工程能力，要经过真实世界

Karpathy 去 Tesla 之后，问题一下就变重了。

在研究和前沿实验里，你面对的是论文、实验、模型、算力和同侪判断。到了 Tesla，神经网络要进车，要跑在真实道路上，要和摄像头、数据标注、训练链路、芯片部署、车队反馈以及安全边界一起工作。

这时“会做 AI”几个字，分量就不一样了。

一个真实系统要考虑：

数据从哪里来，错例怎么回流；

训练出来的能力，怎么在部署环境里稳定运行；

指标变好之后，现实风险有没有真的下降；

系统出了问题，到底是感知、交互、边界定义，还是使用者预期出了偏差。

他后来写 Software 2.0，其实就是在说这种变化。过去写软件，工程师习惯把规则一条条写出来；到了神经网络系统里，数据、训练和模型结构一起在塑造行为。你盯着的也不再只是一段逻辑对不对，还得看整个系统在海量样本和真实环境里会长成什么样。

这很迷人，也很沉。

Tesla 自动驾驶后来一直有争议。感知方案、驾驶员监督、系统边界、安全结果，每一项都能吵很久。这里我不想把后来的问题全扣到 Karpathy 一个人身上，很多评估和监管材料出现时，他已经离开 Tesla 了。

但自动驾驶这段经历还是会逼人承认一件事：

AI 一旦进入低容错场景，复杂度不会因为模型足够漂亮就消失。

在金融科技里，我对这点很敏感。

一个流程在 demo 里跑通，不等于它能承受真实交易、真实用户和真实异常。越是低容错节点，越不能只看“它大多数时候很聪明”，还要看它错的时候会怎样，谁能发现，谁来兜底。

放到 AI 上也是一样。

新的技术范式很让人兴奋。工程师还得盯着另一面：它真的进了现实世界，风险会从哪里冒出来。

4. 职位会变，公共接口会留下

如果故事停在 Tesla，这篇文章会很像一篇“大厂履历观察”。

后面那几年，才是我更想看的部分。

他离开 Tesla，回到 OpenAI，又在 2024 年再次离开。这样的转身很容易引来猜测。但外面能看清的东西有限，与其替他补一段公司内幕，不如看他离开这些位置以后还在做什么。

他没有安静退场。

micrograd 把自动微分缩到很小，让你能真正看见反向传播在干什么；

nanoGPT 把 GPT 的训练骨架压到可以阅读、可以改写；

llm.c 又把一部分训练过程拉回更底层的实现里，让工程师重新摸到那些平时被框架藏起来的东西；

公开课程、博客、公开视频，再到 Eureka Labs，他反复在做同一件事：

把前沿系统拆成学习入口。

这和“做内容”不是一回事。

内容可以只追传播。

接口要能被别人接上。

别人看完以后，能不能跑起来？能不能改？能不能从你的解释里长出自己的理解？这才是区别。

我越来越在意这件事：一个技术人离开某个项目以后，留下些什么。

有时候是一份开源仓库，别人 clone 下来就能跑。

有时候是一门课，新人跟完以后，终于知道第一步该怎么走。

有时候只是一套说清楚了边界的方法，别人下次遇到类似问题，能少绕一圈。

职位当然重要。它决定你能拿到什么资源，能站到什么问题前面。

可 Karpathy 这几年让我更在意另一件事。他离开大组织以后，没有把那段时间活成职业空档。那些课程、仓库和讲解，反而让更多人知道他怎么理解 AI。

所以他在 2026 年回到 Anthropic 做 pretraining，我不会只把它理解成“顶级研究者重回前沿”。他前几年留下的东西也在说明：这份能力没有绑死在某一个 logo 上。

做对但带不走，也不是你的资产。

这句话放在技术人职业发展里，越来越现实。

5. 我为什么持续关注 Karpathy

我关注 Karpathy，并不是想把自己的路径和他硬对齐。

这两者差得很远。

我更在意的是，他反复给我一个提醒：技术能力如果只存在于“我知道”“我做过”“我在某个团队里推进过”，它的边界其实很窄。

最近我在做 AI 工作流、整理知识库，也在把写作和经验往资产里收。做着做着，经常会碰到同一个问题。

很多东西你当下确实懂。

你跟 AI 讨论过，项目里踩过坑，脑子里也有一套判断。但过一段时间再回头，如果它没有被写成结构，没有被放进流程，没有被变成别人和未来的自己都能调用的入口，它就很容易散掉。

聊天窗口里闪过的洞察，不等于资产。

项目里赢过一次，不等于能力已经可迁移。

这也是我看 Karpathy 时最有共鸣的地方。

他不断把“我会”外化成课程、代码、文章和公开路径。对普通技术人来说，我们未必能做出同样量级的研究和工程，但可以学习这种动作：

把一次解决问题，变成下一次不用从零开始；

把一个项目经验，变成一个可以复盘的判断；

把一个专业能力，变成离开当前组织后仍然能继续生长的资产。

我不觉得每个工程师都要变成创作者。

对我来说，更现实的提醒是：职业安全感不能只来自“现在有人需要我”，还要看我的能力留下了多少能带走的证据。

6. 技术人更该带走的三件事

Karpathy 的轨迹当然不可复制。

不是每个人都能在 Stanford、OpenAI、Tesla、Anthropic 之间往返，也不是每个人都需要去做前沿研究。

把天花板先放一边，普通技术人至少可以带走三件事。

第一，别只追工具，要保留理解复杂系统的能力

AI 工具迭代很快。

今天是一个模型，明天是另一个 Agent，后天又是一套新的编码工作流。追新东西没有错，我自己也会追。但如果你的学习只剩下“哪个工具更好用”“哪个提示词更省事”，很容易在下一次升级里重新归零。

能留下来的，是你对问题的理解。

什么是输入，什么是约束，什么是反馈，什么是失败模式，什么地方必须由人判断，什么地方可以交给系统。

这些问题不花哨，却能跨工具迁移。

第二，别只把活做完，要把经验变成接口

很多工程师很能扛事。

线上问题解决了，项目交付了，复杂链路也理顺了。但一问“这件事以后能不能让别人复用”，答案往往很弱。

文档没写。

判断没沉淀。

流程靠口口相传。

最后你成了系统里的关键人，也成了系统里的单点。

这听起来像价值，长期看却是风险。

经验变成接口，不一定非要写成课程。可以是一份排障清单，一个复盘模板，一篇能讲清边界的技术文章，一套别人照着能跑的 SOP。

下次不用重新想，才叫系统化。

换个平台还能继续用，才叫资产化。

第三，别把职业安全感押在单一岗位上

大模型这几年给技术人最强的刺激之一，是变化速度太快。

某些技能忽然被放大，某些工作忽然被压缩，某些团队一夜之间从核心变成边缘。这个时候，把安全感只押在一个岗位名称、一家公司平台、一个当前最热的技术栈上，都不够稳。

我更愿意把精力放在另一件事上：让自己的能力有能迁移的部分。

你能不能从后端工程迁移到 AI 工作流；

能不能从项目交付迁移到问题拆解；

能不能从内部经验迁移到公开表达；

能不能在新工具出现时，先压住焦虑，快速判断它该接进哪一段流程。

这不要求每个人都做“全能型人才”。

但你总要留几样东西，换个团队、换个工具，还是能拿出来继续用。

7. 结语

Karpathy 加入 Anthropic，顶级 AI 人才继续被前沿团队争夺，这层意思很多人都看到了。

我更想追问的是，为什么有些人换了场景，价值还在继续增长。

前两年还要专门学的东西，今天可能已经成了默认能力。

你现在熟悉的工具链，明年也可能被重新洗一遍。

如果一个人的能力只贴在当下岗位上，变化一来，就很被动。

Karpathy 这一路给我的提醒更朴素：

多把问题往里问一层；

多问一句它真的跑到线上以后，错了怎么办；

多把这次踩过的坑写下来；

也把下一次重学的速度练快一点。

这些动作看起来没有“风口”那么刺激，却更像技术人的长期复利。

所以比起羡慕他又回到了哪个顶级团队，我更愿意把这次新闻当成一次自检：

我今天学到的东西，半年后还能不能用？

我今天做成的事情，离开这个项目还能不能说清？

我今天借助 AI 提高的效率，最后有没有沉淀成自己的判断和流程？

技术人真正的护城河，在于风向变了以后，你还能把旧能力重新编译。

Karpathy加入Anthropic后，技术人该看什么