【文/石燕红 编辑/周远方 张旻】
美国Anthropic这家公司,一直以来喜欢立一个人设——AI界“最安全最负责的公司”。
在他们的官网、融资故事、每一篇公开信中,几乎都会表示:我们是最谨慎的那一个,请相信我们比任何人都更懂AI的风险。
然而,就是这么一家公司,在3月31日,也就是愚人节的前一天,“被迫”把自己旗舰产品的源代码——总共约1900个TypeScript文件、超过50万行代码——打包上传到了公网上。
这不是因为被黑了,也不是遭到了什么供应链攻击,而是因为工程师“不小心”,忘了在配置文件中删除一行。
这么一个小小的失误,后果却很可怕:代码在几个小时内被疯狂镜像到GitHub;基于泄露代码重写的claw-code仓库,一天之内就突破十万star。
Anthropic发出版权删除请求,但是覆水难收。 我们今天就来讲讲Anthropic这次被迫“开源”的前因后果,以及开源之后,谁会获益。
先交代一下背景。 Anthropic,就是做Claude的那家公司。如果你用过Claude,你应该知道它有多火——尤其是他们的编程工具Claude Code,9个月就做到了年化营收25亿美元,让全球的工程师趋之若鹜。凭借着Claude Code等一系列产品,Anthropic已经可以和openAI掰手腕。
但就是这么一家公司,却接二连三地犯低级错误。
这次泄露的事就非常典型。简单来说就是产品更新时,没检查仔细,直接给Claude Code开源了。
再增加点技术细节就是:软件发布时,代码通常要经过压缩混淆,让外人看不懂。但开发调试阶段需要一种叫source map的文件,它是混淆后的代码和源代码之间的对照表,告诉你每一行压缩后的代码,对应的是原始的哪个文件,第几行。只要写个脚本,解析一下这个文件,就能把源代码还原出来。
正常情况下,map文件只会存在公司内部。
但这一次,它被打包到了Anthropic公开发布的npm包里。
总之,整整1900个TypeScript文件、51万行代码,就无偿大放送了。
代码泄露的事,最开始是被一个中国00后小伙@Chaofan Shou发在了X平台上,他还把使用方式直接贴在了帖子里。
数小时内,有人把代码镜像上传到了GitHub。仓库的Star数量,更是在上传后,以每分钟数百的速度暴涨。
目前Chaofan Shou的帖子,传播量在3380万以上。
开发者Sigrid Jin,是Claude Code最狂热的用户之一,他得知了泄漏的消息后,用OpenAI的Codex连夜把整套架构从头用Python重写,天亮之前就推上了GitHub。这个项目叫claw-code,一天之内突破10万Star。
虽然Anthropic当天就把问题版本从npm下架了,也给GitHub发送了删除请求,但删除范围严重失控——GitHub依据规则,一下子删了8000多个仓库,这些仓库很多都和泄露源码毫无关系。随后Anthropic被迫撤回了绝大部分删除请求。这么折腾了一圈,代码早就在互联网上铺开了。
要知道,Anthropic不靠谱的可不止这一件事。就在这次泄露的前5天,Anthropic还把一份新模型的草稿,连同近3000份未公开文件,一起放在了公网上。失误的原因也很搞笑,默认设置忘记改了。
相比事情的走向,想必大家都更好奇,Claude Code的源代码到底藏了什么,让程序员们这么兴奋。我们也是找了一些资料,结合技术大佬们的分析,来给大家概括一下啊。先叠个甲,有什么说的不对的地方,欢迎在评论区指正。 首先,业内一直想搞明白:ClaudeCode为什么那么好用?相比市面上其他AI编程工具,它的设计好在什么地方?
这次他们如愿以偿了。
Claude Code最大亮点之一,是一套三层记忆架构。AI模型在处理超长会话时,随着信息越来越多,模型会越来越困惑、越来越容易出错。
Anthropic的解法是一种被称为“自愈式记忆”(Self-Healing Memory)的方案。它的核心是一个轻量级的索引文件MEMORY.md。这个文件最多只存200行、25KB,始终加载在上下文中。它相当于是一个目录,每行只记录“在哪里能找到什么”。而实际的项目知识,比如说用户的编码偏好、项目架构约定等等,则分布在第二层的“话题文件”(Topic Files)中,按需加载。第三层是历史对话,它们会被存储为特定格式的文件,在需要的时候,通过文本搜索工具grep检索关键词就能找到。
这样一来,Claude Code实际上是按照“常驻”“按需”“检索”三种不同的方式来分层管理数据,而且原始对话记录永远不会整体回读到上下文中。agent不默认相信自己的上下文,而是不断回到代码库验证事实,所以叫作“自愈式记忆”。非常关键的是,只有文件真正写入成功后,索引文件MEMORY.md才会更新,避免失败的操作污染后续推理。
很多开发者看完这一套流程之后,只留两个字:优雅。
当然,这只是源码众多亮点中的一个。对相关技术有兴趣的小伙伴,可以去深入了解下。
除此之外,泄露的源码中还包含一些“已完成却未公开”的功能,例如其中被提及超过150次的“ KAIROS ”。
目前的AI工具大多是被动的,但 KAIROS允许Claude Code作为始终在线的后台代理运行。再配合一种叫autoDream的后台机制,系统可在低活跃期自动整理记忆,将短期对话内容,转化为长期的结构化知识。这个过程和我们人类在睡眠时巩固记忆非常像,所以才叫“autoDream”——自动做梦。
接着,就是那个被讨论数百楼的发现:卧底模式。
有人翻到了一段系统提示,里面写着:“你正在公开的开源仓库中以卧底模式运行。你提交消息、提取标题和正文,绝对不能包含任何Anthropic内部信息。不要暴露身份。”
换句话说,Anthropic的内部员工在用Claude Code往开源项目提交代码时,会自动启用卧底模式,隐藏所有AI相关痕迹,防止泄露内部模型代号或工具名称,而且这个模式还不能强制关闭。
还有人发现Anthropic试图秘密对抗“蒸馏攻击”。该系统设有控制措施,如果竞争对手试图抓取Claude Code的输出结果,就会在API请求中注入虚假的工具定义来污染训练数据。
还有一个有意思的彩蛋。
有人在代码里发现了一个叫BUDDY的功能——一个拓麻歌子式的虚拟宠物系统。十八个物种,稀有度从60%概率的普通级到1%概率的传说级,还有一套属性系统,包括:调试力、耐心值、混乱度、智慧以及毒舌指数等。
有网友说,这个功能可能是Anthropic开发给程序员们解乏用的,本来计划在愚人节当天作为彩蛋上线。
从现有的消息判断,Anthropic这次的“被迫开源”,管理原因要大于技术原因。
在事情发生之后,Anthropic第一时间就对媒体澄清,这只是一个打包问题,而非安全漏洞,也没有客户数据或凭证泄露。对于后续改进,他们的方案是,提高自动化程度,让 Claude系统在部署任何内容之前就自动检查部署结果。
但安全市场的反应,就不那么乐观了,因为从长远来看,还有很多风险隐藏在水面之下。
美国一家安全公司表示:有了完整的内部实现图,攻击者可以精准研究数据在Claude Code的流转路径,设计出能够跨会话持久存在的恶意载荷。以前越狱是盲猜,现在是拿着地图精准打击。
凑热闹的网友也遭了殃。事情发生后,npm上出现了多个名字故意蹭Anthropic的恶意包,专门等那些想自己编译源码的开发者踩进去。
那么总的来看,Claude Code代码泄露到底影响几何呢?我们专门去询问了这方面的专家,答案是利好Anthropic的竞争对手和AI编程工具的普通使用者。
他认为:Claude Code本来就是行业内AI编程做得最好的。以前大家不清楚,它到底是因为工程做得好,还是模型本身强,现在开源了都可以验证了。
还有就是大家最关心的技术提升的问题。他认为Claude Code的系统架构和Harness Engineering(驾驭工程)方法论非常重要,这次公开会让整个行业提速。它们会被现有产品吸收,至少是现有的一些产品,像OpenCode、Antigravity,都会跟着提升。中国AI市场肯定也会出现很多套壳Claude Code的工具。
如果这些提升到了某个阈值,整个AI代码市场的价格都会降低。之前Claude Code之所以那么贵,就是因为它的不可替代。
所以他的结论是:这次“被迫开源”事件,有助于打破Claude Code的垄断,给AI编程行业提速,总体上是件好事。虽然Anthropic自己比较受伤就是了。
好了,今天的话题就聊到这里,你认为Anthropic此次源代码泄露,利好谁呢?我是冬晓,欢迎一键三连,评论转发,我们下期再见。