这项由Hexo Labs(美国帕洛阿尔托、比利时布鲁塞尔、加拿大多伦多三地团队联合)及英国牛津大学共同完成的研究,以预印本形式发布于arXiv平台,论文编号为arXiv:2605.27276,最新版本于2026年5月28日更新。
一、AI进化的"瓶颈"——为什么人类成了最大的障碍?
每当我们谈到人工智能越来越强大,背后其实有一个很少被提及的前提:这些AI系统的每一次进步,几乎都离不开人类工程师和研究人员的亲自介入。从最初训练模型,到调整参数,再到搭建各种外围工具,人类一直是整个流程里无法省略的环节。可以打个比方,现在的AI就像一个天赋极高的学生,但这个学生每次想要提升自己,都需要老师手把手地帮他修改学习计划、更换教材、调整作息——学生自己无法独立完成"自我升级"。
这种对人类干预的依赖,正是当前AI领域最核心的"瓶颈"之一。Hexo Labs的研究团队意识到,如果能让AI系统在给定一个任务描述和一个评判标准之后,自行决定如何改善自己——既可以调整外部的"操作手册",又可以修改内部的"思维方式"——那将是一次真正意义上的突破。SIA(Self Improving AI with Harness & Weight Updates,即"带有工具链和权重更新的自我改进AI")正是这一设想的具体实现。
二、两条互不相交的研究路线——各自的局限在哪里?
在SIA出现之前,研究界其实已经有两条探索AI自我改进的路线,但这两条路线长期以来各自为战,从未真正融合。
第一条路线可以理解为"改装外壳"。研究者让一个"元AI"(即一个专门负责改进其他AI的AI)不断修改任务AI的操作手册——包括它使用的工具、提示语、出错重试逻辑、输出解析方式等等。这就好像给一个厨师不断更换厨具、改写食谱、优化备菜流程,但厨师本人的厨艺和知识储备始终不变。这类工作的代表包括Darwin Godel Machine、Meta-Harness、Hyperagents等系统。这条路线的共同发现是:反复修改操作手册,改进的往往是"流程效率",而不是AI真正的领域理解能力——有些知识,无论怎么改提示语,AI就是无法从内部"学会"。
第二条路线则可以理解为"强化内功"。研究者设计好一套固定的训练流程,然后让AI在面对新任务时,通过自身表现的反馈来调整内部参数(也就是"权重")。这就像让厨师通过反复烹饪、品尝、总结,真正把新菜式的技巧内化为自己的本能。这类工作的代表包括TTRL、Discover-TTT等。但这条路线的问题在于,训练流程是人工设计的、固定的,AI只能在既定的框架内学习,无法根据任务特点灵活调整学习策略。
这两条路线的共同缺陷,就是"只用一只手"——要么只改外壳,要么只练内功,从未同时做到两者。SIA的核心贡献,正是首次将这两个动作融入一个统一的自动化循环之中。
三、SIA的核心设计——一个三角协作的自我进化循环
SIA的整体架构可以用一个三角协作来理解。这个三角形的三个角,分别是"初始化专家"(Meta-Agent,元智能体)、"执行者"(Task-Specific Agent,任务智能体)和"反馈教练"(Feedback-Agent,反馈智能体)。
元智能体的职责是"开局":给定一个任务描述和一些参考实现,它负责为任务智能体生成一套初始的操作手册。这套操作手册包含系统提示语、工具调用逻辑、答案提取代码等,是任务智能体开始工作的基础配置。
任务智能体是真正"干活"的角色:它拿着操作手册,在一个受控的沙盒环境中对任务数据集进行处理,产生输出结果,同时记录下完整的执行过程日志——每一次模型调用、每一次工具使用、每一次输出提取,全都被记录下来,这份完整的日志被称为"轨迹"。
反馈智能体则是这个循环的核心驱动力。它不仅仅看汇总的成绩数字,而是拿到任务智能体的完整轨迹,像一位有经验的教练一样逐条分析哪里出了问题、为什么出问题。分析完之后,反馈智能体要做一个关键决策:下一步,是修改操作手册(改外壳),还是触发一轮强化学习训练(练内功)?这个决策本身也是动态的,依赖于观察到的任务类型和当前的改进瓶颈。
这个三角形不断循环运转,直到用完预算的步骤数为止。每一轮循环,要么操作手册变得更好,要么模型的内部参数变得更好,要么两者兼而有之。整个过程无需人类干预,只需要在最开始提供任务描述和一个评判标准(即"验证器")。
四、两个"旋钮"的具体运作——操作手册如何更新,权重如何训练?
操作手册的更新过程,遵循一个固定的三步节拍:先让当前版本的任务智能体跑一遍数据集,收集完整轨迹;然后反馈智能体分析这些轨迹,找出具体的失败模式;最后反馈智能体生成一份改进报告和一个全新的操作手册版本。在这个过程中,模型的权重保持不变,变化的只是"外部基础设施"——工具、提示语、解析逻辑、重试策略等。
为了防止操作手册因为过度适配某几个特殊任务样本而失去通用性,元智能体在生成初始操作手册时会接触到多样化的任务描述,这被称为"样本任务正则化"——类似于厨师在制定标准食谱时参考了来自不同地区、不同口味偏好的顾客反馈,而不是只针对一桌客人。
权重更新的过程则更像是一种定制化的强化训练。反馈智能体并不会机械地套用同一种训练算法,而是根据当前任务的特点和观察到的奖励信号分布,动态选择最合适的训练策略。在实验报告的三个任务中,分别出现了三种不同的训练方式,这体现了SIA在训练策略选择上的灵活性。
具体来说,当奖励信号比较密集、训练稳定性是主要顾虑时,反馈智能体会选择一种叫做"PPO with GAE"的方法,这是一种带有专门"价值评估辅助网络"的策略优化算法,能够让模型在不偏离已有能力太远的前提下稳步改进。当任务的答案验证发生在整个解答完成之后、且可以快速并行生成大量尝试时,反馈智能体会选择"GRPO",这种方法不需要额外的价值评估网络,直接对一批尝试的结果进行相对排名,计算成本更低,并行能力更强。当奖励信号极度稀疏——也就是大多数尝试都失败、只有极少数尝试能产生有用信号时,反馈智能体会选择"熵优势加权"方法,通过对少数成功案例给予更大的学习权重,让模型从稀少的成功经验中最大限度地汲取养分,防止有用的信号被大量失败的噪音淹没。
此外,研究团队还提到,在更广泛的实验中(不限于论文正式报告的三个任务),反馈智能体还观察到两种额外的策略:当奖励密集但主要风险是模型能力退化时,会选择附加了"与原始模型差异惩罚项"的最简单强化学习形式;当奖励如此稀少以至于策略梯度信号几乎为零时,会先进行"精英模仿学习"——挑出少数表现最好的尝试,让模型直接学习这些成功案例,将基准成功率提升到一个合理水平,再切换到正式的强化学习阶段。
五、三个真实战场——SIA在法律、计算机系统和生物学上的实际表现
为了验证SIA不是只对特定类型任务有效,研究团队选择了三个截然不同的领域来做测试,并与此前最好的已知结果进行了直接比较。
**法律领域:中文刑事罪名分类**
第一个测试来自法律领域,具体任务是LawBench——一个191类中文刑事罪名分类基准。给定一段真实案件的事实描述,模型需要从191种罪名中找出正确的那一个。这191种罪名涵盖了极为细腻的法律区分:比如普通盗窃、公共财产盗窃和挪用公款都属于"盗窃"类的不同分支,轻伤、重伤和故意伤害也各有不同的法律定性。对于这个任务,随机猜测的正确率不到1%,即便是受过专业训练的法律从业者也会感到棘手。整个数据集包含5332个训练样本和913个测试样本,评测在测试集上进行。
SIA的进化过程是这样展开的。操作手册的更新阶段,前几代版本建立了基本的分类工作流,后续几代逐渐将核心策略收敛到一种基于文本特征匹配和线性分类器的流程,通过不断调整字符级别的特征提取范围和正则化参数,准确率从最初的13.5%稳步爬升到了50.0%,超越了此前最好成绩(45.0%)。此时,反馈智能体检测到改进已经停滞,随即切换到权重训练阶段,采用PPO with GAE方法对模型的分类能力施加精确的梯度压力,最终将准确率推进到了70.1%。这意味着,仅靠更新操作手册,已经超过了之前所有方法;再加上权重训练,又额外提升了20.1个百分点,达到了此前最优结果的156%。
**计算机系统领域:GPU核心运算优化**
第二个测试来自底层计算机系统领域,任务是为AlphaFold2(一款预测蛋白质三维结构的著名AI系统)中的一个核心运算模块编写高效的CUDA程序,并在H100 GPU上运行。这个运算模块叫做"三角乘法更新",它的特点是内存访问模式不连续,导致GPU的并行运算能力无法被充分利用,想要写出真正高效的实现,需要掌握很多H100特有的底层技巧——比如共享内存分块、寄存器压力管理等。评分标准是1500除以运行时间,数字越大代表程序越快。此前最好成绩对应的运行时间约为1161微秒。
SIA在操作手册更新阶段,逐步构建并改进了能够正常运行的CUDA程序,最终将运行时间压缩到了12483微秒,取得了约1.14倍的加速比。注意这里的运行时间比起点的14254微秒确实有所改善,但仍然远未超过此前最优。切换到权重训练阶段后,反馈智能体采用了熵优势加权方法来处理这种奖励极度稀疏的场景(大多数生成的CUDA程序要么编译失败,要么性能极差),让模型真正掌握了H100特有的优化技巧,最终将运行时间一举压缩到了1017微秒,速度提升到基准的14.02倍,比此前最优结果快了12.4%。这个改进幅度让人印象深刻,因为从12483微秒到1017微秒的跃升,几乎完全来自于权重训练阶段——操作手册再怎么修改,都无法让模型"凭空学会"那些需要深度内化的GPU编程知识。
**生物学领域:单细胞RNA数据去噪**
第三个测试来自生物学,任务是优化一种叫做MAGIC的单细胞RNA数据处理算法的参数。单细胞RNA测序是一种测量每个细胞基因活性的技术,但由于技术本身的局限性,测量结果中会有大量本来应该是非零的数值被错误地记录为零(这种现象叫做"技术脱落")。MAGIC算法通过在细胞之间共享和扩散信息来弥补这些缺失值,但它的效果非常依赖于几个相互耦合的参数:近邻数量k太小会过度敏感于个别细胞的噪声,太大则会把真实的生物差异给"平均掉";扩散步数t和核带宽α也存在类似的权衡。评估指标mse_norm越高越好,此前最好成绩为0.240。
操作手册更新阶段,任务智能体对这些参数的组合空间进行了系统性的探索,最终将mse_norm稳定在了0.241,刚好超过了此前最优。继续修改操作手册已经无法带来进一步改善,反馈智能体于是切换到GRPO权重训练。在第一个权重训练检查点,模型产生了一个在整个操作手册迭代过程中从未出现过的结构性改进:在MAGIC处理结果后面增加了两行代码,将输出数值裁剪为非负整数。这听起来是个极其简单的后处理步骤,但它背后有着明确的生物学逻辑——真实的基因表达计数不可能是负数,也不可能是小数,将结果取整并裁剪到非负范围,实际上是把一个生物学常识直接编码进了模型的输出策略。这一改动将mse_norm提升到了0.289,比操作手册最好结果又高出了20%。
六、两个旋钮分别改变了什么?——深入理解"外壳"和"内功"的本质区别
操作手册的更新,本质上是对"外部基础设施"的改造。在LawBench任务上,它搭建了一个结构化的答案提取层和候选罪名再排序工具;在CUDA优化任务上,它建立了一个能够解析编译错误日志并将诊断信息结构化地反馈给模型的工具,以及一个能够精确测量中位运行时间的计时框架;在去噪任务上,它构建了一个批量配置驱动器和一个能够将"参数组合—得分"配对结果整齐呈现给模型的解析工具。这些改变都是"外围的"——模型本身没有任何变化,变化的是模型与任务环境之间的接口和中介层。
权重训练的更新,则是对"内部知识"的真正改写。在LawBench上,梯度压力让模型学会了区分191个罪名中那些极度相似的子类别,这种细微辨别力无法通过任何提示语来获得。在CUDA优化上,模型真正掌握了H100 GPU的特定编程技巧,这些技巧无法被写进操作手册——你可以在操作手册里告诉模型"要注意共享内存分块",但模型真正学会如何做,只能通过自身生成代码、观察结果、接受梯度反馈来实现。在去噪任务上,那个"裁剪到非负整数"的后处理步骤,代表了模型将一个生物学约束内化为自己的输出策略——这个约束在操作手册的无数次迭代中从未被提出,却在权重训练后自然涌现。
七、这个系统还有哪些值得正视的问题?
研究团队在论文中坦诚地指出了SIA当前面临的一个核心挑战,这个挑战被称为"耦合协进化的古德哈特问题"。简单来说,古德哈特定律是一条著名的社会科学经验法则:当一个衡量指标成为优化目标时,它就不再是一个好的衡量指标了——因为系统会开始"针对指标"进行优化,而不是针对指标背后真正想要衡量的东西。
SIA面对的是这个问题的一个更复杂的版本:操作手册的更新和权重的训练,都在针对同一个固定的验证器进行优化。操作手册会找到那些对当前模型来说最容易利用的框架,权重则在由当前操作手册塑造的数据分布上进行训练,而这个操作手册接下来又会改变。两个优化过程相互依赖、相互影响,它们最终收敛到的"稳定点",从理论上说是两个优化者之间的纳什均衡,而不一定是真正意义上的最优解——这个稳定点在训练验证器上看起来很好,但在验证器没有覆盖到的分布或任务变体上可能显得脆弱。这是一个开放的研究问题,SIA目前还没有提供解决方案。
八、下一步想做什么?——研究团队的展望
研究团队提出了两个主要的后续研究方向。
第一个方向是让"反馈智能体的决策本身"也变成可以学习的对象。目前,反馈智能体选择"是修改操作手册还是训练权重",依赖的是一个预先固化的大语言模型判断,本质上还是人工设计的启发式规则。更理想的做法,是把SIA在一系列任务上运行的经验积累起来,把每一次"(观察到的状况,采取的行动,得到的结果)"三元组视为一个外层强化学习问题的训练数据,让决策策略本身也通过强化学习来改进。这样就形成了一个真正递归的自我改进结构——不仅系统在进步,驱动系统进步的机制本身也在进步。
第二个方向是让两种更新模式的切换更加细粒度。当前的SIA是以"轮次"为单位在操作手册更新和权重训练之间粗粒度地切换。一个更精细的调度方式,应该允许反馈智能体在操作手册搜索过程中途就触发一次权重更新,或者在权重训练刚完成后立刻重启操作手册探索,减少从"发现瓶颈"到"采取行动"之间的延迟,可能会解锁一些粗粒度交替模式下错过的改进路径。
说到底,SIA这项工作的意义,与其说是"AI变得更强了",不如说是"AI学会了以更系统化的方式让自己变得更强"。这两者之间的区别,就像一个通过反复练习题目变得更厉害的学生,和一个能够主动分析自己哪里不足、决定是要换教材还是去找真实项目练手的学生之间的区别。后者的潜力,显然要开放得多。
目前,SIA在三个截然不同的领域都取得了超越此前最好结果的表现,这至少证明了"同时调整外壳和内功"这条路是走得通的。至于它能走多远,以及如何在保证系统不"钻空子"的前提下让它走得更远,可能会是接下来几年AI自我改进研究领域最值得持续关注的问题之一。有兴趣深入了解技术细节的读者,可以通过arXiv编号arXiv:2605.27276查阅完整论文。
Q&A
Q1:SIA系统和普通AI大模型有什么本质区别?
A:普通大模型的能力在训练完成后基本固定,使用时只能依靠外部提示来引导它。SIA是一个自动化循环系统,它能在给定任务后,既自动修改自身的操作手册(外部工具和流程),又能通过强化学习更新模型内部参数,两者协同进行,整个过程不需要人类工程师介入。
Q2:SIA在中文法律罪名分类任务上的70.1%准确率是怎么实现的?
A:SIA首先通过反复修改操作手册,将分类流程优化到基于文本特征匹配和线性分类器的策略,准确率从13.5%提升到50%。随后检测到瓶颈后,切换到PPO强化学习训练,对模型区分191个罪名细微差别的能力进行针对性强化,最终达到70.1%,比此前最优结果高出25.1个百分点。
Q3:SIA训练权重时用的强化学习算法为什么每个任务都不一样?
A:因为不同任务的奖励信号特征差异很大。法律分类任务奖励信号密集且稳定,适合用PPO保证训练稳定性;CUDA优化任务大多数生成代码都无效,奖励极度稀疏,适合用熵优势加权放大稀少成功样本的学习信号;去噪任务可以快速并行评估大量方案,适合用GRPO降低计算成本。SIA的反馈智能体会根据观察到的轨迹动态选择最合适的算法。