Karpathy加入Anthropic后,技术人该看什么
AI时代周刊

Karpathy加入Anthropic后,技术人该看什么

约 4,783 字 阅读约 24 分钟
目录

Karpathy 加入 Anthropic 后,我更想聊聊 AI 时代最值钱的技术人能力

image.png

1. 热点只是入口

5 月 19 日,看到 Andrej Karpathy 加入 Anthropic 的消息,我第一反应不是“谁又从谁家挖走了一个大牛”。

这条消息确实够热。

OpenAI 早期成员、Tesla 前 AI 负责人、这几年把大模型讲得最清楚的人之一,去了 Claude 背后的公司,接手 pretraining 相关工作。单看履历,就已经足够让人写一篇“Anthropic 又抢到谁”的快讯。

可我看到这条消息时,脑子里跳出来的不是公司名。

我想到的是他这些年换过的几个场景:在 Stanford 做视觉和语言,在 OpenAI 做前沿研究,在 Tesla 把神经网络往真实道路里推,离开大公司以后又坐到镜头前,把自动微分、GPT、训练代码一点点拆给工程师看。

这几件事放在同一个人身上,很少见。

研究能做深,系统能落地,复杂东西还能讲到别人愿意自己动手。很多人只会其中一段。Karpathy 让人反复提起,靠的也不只是那些漂亮的公司名。

对技术人来说,这比一次跳槽更值得看。

工具会换,模型会换,组织里的位置也会换。风向一变,你还能不能把过去学到的东西接到下一个问题上,这件事越来越重要。

2. 先把问题做深,再把入口打开

很多人现在认识 Karpathy,是从视频开始。

跟着他手搓一个小模型,看他把 attention、反向传播、token 这些词拆开,确实很容易记住“他太会讲了”。但他的讲解能力不是凭空长出来的。

本科在多伦多时,他原本想往量子计算走。后来吸引他的,变成了一个更大的问题:与其只去理解某一类知识,能不能造出一个会学习的系统。也是在那段时间,他接触到 Geoff Hinton 的课程和读书会,真正进入深度学习语境。

我很喜欢这个转向。

它不像“我押中了一个风口”,更像一个人被一个问题抓住了:机器到底怎么学会东西,人又怎么靠近这种能力。

在 Stanford 读博时,他跟随李飞飞做计算机视觉、自然语言处理以及两者交叉的问题。今天大家已经习惯了多模态,习惯了模型同时理解图片和文字。但往前推十多年,图像和语言怎么对齐,本来就是一个很前沿、也很难的问题。

所以后来他讲神经网络时,听起来才不像在复述一套流行说法。

他先在那些抽象概念和工程细节里泡过,知道初学者会在哪一步卡住,也知道哪些地方不能为了“好懂”就轻轻带过。

CS231n 也是这样。

Stanford 的 CS231n 就很能看出这一点。后来很多人把它当成深度学习入门路径,原因也很直接:课程真的给了入口。你能看可视化,能跟着理解卷积网络和反向传播,也得自己动手训练模型。

它做的事情很朴素:

把门槛降下来,但不把问题讲浅。

这句话看起来简单,实际很难。

很多人会把“通俗”做成“省略复杂度”。听的时候很爽,做的时候还是不会。

另一类人会把“专业”做成“不给入口”。每一句都对,但新人根本不知道第一步该从哪里踩进去。

Karpathy 比较少见的地方,是他经常能把两头都照顾到。

他会告诉你,这东西并不神秘,你可以从最小版本开始自己写;同时他也不会假装复杂度不存在。你真的跟着写下去,就会慢慢看见梯度、训练、数据、推理、显存、部署这些东西是怎么缠在一起的。

我一直觉得,这也是技术能力。

会做当然重要。可当一个领域变化很快时,你能不能把自己理解过的东西讲到别人能接上,会直接影响这份能力能走多远。

代码在仓库里,项目在组织里,经验如果只留在你脑子里,它的复利很弱。

3. 真正的工程能力,要经过真实世界

Karpathy 去 Tesla 之后,问题一下就变重了。

在研究和前沿实验里,你面对的是论文、实验、模型、算力和同侪判断。到了 Tesla,神经网络要进车,要跑在真实道路上,要和摄像头、数据标注、训练链路、芯片部署、车队反馈以及安全边界一起工作。

这时“会做 AI”几个字,分量就不一样了。

一个真实系统要考虑:

数据从哪里来,错例怎么回流;

训练出来的能力,怎么在部署环境里稳定运行;

指标变好之后,现实风险有没有真的下降;

系统出了问题,到底是感知、交互、边界定义,还是使用者预期出了偏差。

他后来写 Software 2.0,其实就是在说这种变化。过去写软件,工程师习惯把规则一条条写出来;到了神经网络系统里,数据、训练和模型结构一起在塑造行为。你盯着的也不再只是一段逻辑对不对,还得看整个系统在海量样本和真实环境里会长成什么样。

这很迷人,也很沉。

Tesla 自动驾驶后来一直有争议。感知方案、驾驶员监督、系统边界、安全结果,每一项都能吵很久。这里我不想把后来的问题全扣到 Karpathy 一个人身上,很多评估和监管材料出现时,他已经离开 Tesla 了。

但自动驾驶这段经历还是会逼人承认一件事:

AI 一旦进入低容错场景,复杂度不会因为模型足够漂亮就消失。

在金融科技里,我对这点很敏感。

一个流程在 demo 里跑通,不等于它能承受真实交易、真实用户和真实异常。越是低容错节点,越不能只看“它大多数时候很聪明”,还要看它错的时候会怎样,谁能发现,谁来兜底。

放到 AI 上也是一样。

新的技术范式很让人兴奋。工程师还得盯着另一面:它真的进了现实世界,风险会从哪里冒出来。

4. 职位会变,公共接口会留下

如果故事停在 Tesla,这篇文章会很像一篇“大厂履历观察”。

后面那几年,才是我更想看的部分。

他离开 Tesla,回到 OpenAI,又在 2024 年再次离开。这样的转身很容易引来猜测。但外面能看清的东西有限,与其替他补一段公司内幕,不如看他离开这些位置以后还在做什么。

他没有安静退场。

micrograd 把自动微分缩到很小,让你能真正看见反向传播在干什么;

nanoGPT 把 GPT 的训练骨架压到可以阅读、可以改写;

llm.c 又把一部分训练过程拉回更底层的实现里,让工程师重新摸到那些平时被框架藏起来的东西;

公开课程、博客、公开视频,再到 Eureka Labs,他反复在做同一件事:

把前沿系统拆成学习入口。

这和“做内容”不是一回事。

内容可以只追传播。

接口要能被别人接上。

别人看完以后,能不能跑起来?能不能改?能不能从你的解释里长出自己的理解?这才是区别。

我越来越在意这件事:一个技术人离开某个项目以后,留下些什么。

有时候是一份开源仓库,别人 clone 下来就能跑。

有时候是一门课,新人跟完以后,终于知道第一步该怎么走。

有时候只是一套说清楚了边界的方法,别人下次遇到类似问题,能少绕一圈。

职位当然重要。它决定你能拿到什么资源,能站到什么问题前面。

可 Karpathy 这几年让我更在意另一件事。他离开大组织以后,没有把那段时间活成职业空档。那些课程、仓库和讲解,反而让更多人知道他怎么理解 AI。

所以他在 2026 年回到 Anthropic 做 pretraining,我不会只把它理解成“顶级研究者重回前沿”。他前几年留下的东西也在说明:这份能力没有绑死在某一个 logo 上。

做对但带不走,也不是你的资产。

这句话放在技术人职业发展里,越来越现实。

5. 我为什么持续关注 Karpathy

我关注 Karpathy,并不是想把自己的路径和他硬对齐。

这两者差得很远。

我更在意的是,他反复给我一个提醒:技术能力如果只存在于“我知道”“我做过”“我在某个团队里推进过”,它的边界其实很窄。

最近我在做 AI 工作流、整理知识库,也在把写作和经验往资产里收。做着做着,经常会碰到同一个问题。

很多东西你当下确实懂。

你跟 AI 讨论过,项目里踩过坑,脑子里也有一套判断。但过一段时间再回头,如果它没有被写成结构,没有被放进流程,没有被变成别人和未来的自己都能调用的入口,它就很容易散掉。

聊天窗口里闪过的洞察,不等于资产。

项目里赢过一次,不等于能力已经可迁移。

这也是我看 Karpathy 时最有共鸣的地方。

他不断把“我会”外化成课程、代码、文章和公开路径。对普通技术人来说,我们未必能做出同样量级的研究和工程,但可以学习这种动作:

把一次解决问题,变成下一次不用从零开始;

把一个项目经验,变成一个可以复盘的判断;

把一个专业能力,变成离开当前组织后仍然能继续生长的资产。

我不觉得每个工程师都要变成创作者。

对我来说,更现实的提醒是:职业安全感不能只来自“现在有人需要我”,还要看我的能力留下了多少能带走的证据。

6. 技术人更该带走的三件事

Karpathy 的轨迹当然不可复制。

不是每个人都能在 Stanford、OpenAI、Tesla、Anthropic 之间往返,也不是每个人都需要去做前沿研究。

把天花板先放一边,普通技术人至少可以带走三件事。

第一,别只追工具,要保留理解复杂系统的能力

AI 工具迭代很快。

今天是一个模型,明天是另一个 Agent,后天又是一套新的编码工作流。追新东西没有错,我自己也会追。但如果你的学习只剩下“哪个工具更好用”“哪个提示词更省事”,很容易在下一次升级里重新归零。

能留下来的,是你对问题的理解。

什么是输入,什么是约束,什么是反馈,什么是失败模式,什么地方必须由人判断,什么地方可以交给系统。

这些问题不花哨,却能跨工具迁移。

第二,别只把活做完,要把经验变成接口

很多工程师很能扛事。

线上问题解决了,项目交付了,复杂链路也理顺了。但一问“这件事以后能不能让别人复用”,答案往往很弱。

文档没写。

判断没沉淀。

流程靠口口相传。

最后你成了系统里的关键人,也成了系统里的单点。

这听起来像价值,长期看却是风险。

经验变成接口,不一定非要写成课程。可以是一份排障清单,一个复盘模板,一篇能讲清边界的技术文章,一套别人照着能跑的 SOP。

下次不用重新想,才叫系统化。

换个平台还能继续用,才叫资产化。

第三,别把职业安全感押在单一岗位上

大模型这几年给技术人最强的刺激之一,是变化速度太快。

某些技能忽然被放大,某些工作忽然被压缩,某些团队一夜之间从核心变成边缘。这个时候,把安全感只押在一个岗位名称、一家公司平台、一个当前最热的技术栈上,都不够稳。

我更愿意把精力放在另一件事上:让自己的能力有能迁移的部分。

你能不能从后端工程迁移到 AI 工作流;

能不能从项目交付迁移到问题拆解;

能不能从内部经验迁移到公开表达;

能不能在新工具出现时,先压住焦虑,快速判断它该接进哪一段流程。

这不要求每个人都做“全能型人才”。

但你总要留几样东西,换个团队、换个工具,还是能拿出来继续用。

7. 结语

Karpathy 加入 Anthropic,顶级 AI 人才继续被前沿团队争夺,这层意思很多人都看到了。

我更想追问的是,为什么有些人换了场景,价值还在继续增长。

前两年还要专门学的东西,今天可能已经成了默认能力。

你现在熟悉的工具链,明年也可能被重新洗一遍。

如果一个人的能力只贴在当下岗位上,变化一来,就很被动。

Karpathy 这一路给我的提醒更朴素:

多把问题往里问一层;

多问一句它真的跑到线上以后,错了怎么办;

多把这次踩过的坑写下来;

也把下一次重学的速度练快一点。

这些动作看起来没有“风口”那么刺激,却更像技术人的长期复利。

所以比起羡慕他又回到了哪个顶级团队,我更愿意把这次新闻当成一次自检:

我今天学到的东西,半年后还能不能用?

我今天做成的事情,离开这个项目还能不能说清?

我今天借助 AI 提高的效率,最后有没有沉淀成自己的判断和流程?

技术人真正的护城河,在于风向变了以后,你还能把旧能力重新编译。

相关文章