切换语言
切换主题

自进化 AI:2026 年让模型持续学习的 4 种方法

2026 年 3 月,Anthropic CEO Dario Amodei 在一次访谈里说了一句话,让我反复琢磨了好几天:“持续学习将在 2026 年搞定。”

这话听起来有点狂。但紧接着,Google DeepMind 也预测 2026 年会是”持续学习之年”,马斯克更是直接喊”奇点已至”。

说实话,我一开始觉得这些预测多少有点营销成分。但当我看到 MiniMax 的 M2.7 模型在内部跑了超过 100 轮自主优化循环,性能涨了 30%,我才意识到——这事儿可能真的要成。

这篇文章,我想聊聊”自进化 AI”到底是什么,为什么现在的 LLM 还做不到”边用边学”,以及 2026 年真正值得关注的技术方案。我会拆解三种主流的持续学习方法,重点讲讲 MIT 和 ETH Zurich 年初提出的自蒸馏技术(SDFT),再通过 MiniMax M2.7 的真实案例,看看模型究竟是怎么”自己升级自己”的。

为什么 LLM 需要”边用边学”?

有个问题困扰我很久:为什么 ChatGPT 用了两年,还是那个 ChatGPT?

它不会因为你问的问题多了、互动多了而变得更聪明。每次对话结束后,一切都清零。下一次见面,它还是那个”出厂设置”的模型。

这跟人完全不一样。我们写代码、做项目、踩坑复盘,经验会累积。三年前的我写的代码跟现在比,差距肉眼可见。但 LLM 没有这个能力——它们的内部参数是冻结的,训练完就定型了。

Dwarkesh Patel 在访谈里说过一句挺扎心的话:“LLM 不会像人类那样随时间变好。” 它们的知识截止点永远停在训练结束那天。想学新东西?只能重新训练,或者微调。

但微调有个大坑:灾难性遗忘

IBM 在介绍持续学习时用了个很好的类比——学滑板的时候,你不会忘了怎么骑自行车。人类大脑有种神奇的能力:学新技能的同时,保留旧技能。

神经网络做不到。

当你用新数据微调一个模型,它会拼命拟合新数据的分布,代价是把旧知识”挤出去”。举个极端例子:考拉这种动物,只会认”树上的叶子”是食物。你把树叶放在地上,它可能饿死也不吃——因为它”学会”的模式太死板,没法适应新环境。

模型更惨。你让它学了 Python 3.12 的新特性,它可能把 Python 3.8 的基础语法忘了。这在实际应用里是灾难:公司产品迭代,代码库更新,你不能让模型每学一次新框架就把旧框架的知识丢一次。

说到底,LLM 现在的状态是”静态”的——像个百科全书,内容丰富但不能更新。而我们需要的是”动态”的——像个老同事,越合作越默契,越了解你的项目、你的习惯、你的技术栈。

这就是持续学习要解决的问题。

持续学习的三大技术流派

持续学习这领域研究了好多年,方法大致分三类。我用一个不太严谨但好理解的比喻:

Replay 方法:边学边复习。

这思路最朴素——学新东西的时候,把旧数据也拿出来”回锅”一下。就像考试前刷题,既要看新章节的知识点,也要翻翻之前的错题本。

具体做法是存储一部分旧任务的样本,跟新任务的数据混合训练。缺点很明显:你得存大量旧数据,内存和存储开销巨大。对于动辄几百 GB 的训练数据,这方案成本太高。

Regularization 方法:给重要参数加”保护罩”。

这招挺聪明。核心思想是:神经网络里不是所有参数都一样重要,学新任务时,把那些对旧任务关键的参数”锁住”。

最出名的是 EWC(Elastic Weight Consolidation),2017 年发在 PNAS 上的论文。原理是计算每个参数对旧任务的重要性,给重要的参数加约束,让它们在更新时变化幅度受限。

打个比方:你学英语时,语法规则已经固化在脑子里了,不太容易被学法语干扰。但如果你的词汇量还在积累阶段,学法语可能会让你把某些英语单词忘掉。EWC 就是找出那些”已经固化”的参数,保护它们。

Architecture 方法:给每个任务配个专属模块。

这思路是:既然学新东西会干扰旧东西,干脆不要让它们共享参数。学新任务时,给模型加一个新的模块,专门处理这个任务,旧模块不动。

LoRA(Low-Rank Adaptation)就是这个思路的典型代表。冻结骨干网络的参数,只训练一个小型的低秩适配器。每个任务配一个 Adapter,切换任务就切换 Adapter。

Nature 上的研究也证实了,动态扩展架构能大幅减少遗忘。但这方法也有问题:任务越多,模块越多,模型越来越大,推理时的开销也跟着涨。

说实话,这三类方法各有优劣,没有完美解。Replay 太重,Regularization 算不出完美的重要性权重,Architecture 会让模型膨胀。学术界折腾了这么多年,工业界真正落地的不多。

直到今年,MIT 和 ETH Zurich 提出了一个新思路——让模型”自己教自己”。

SDFT — 自蒸馏让模型”自己教自己”

2026 年 1 月,MIT 和 ETH Zurich 发了一篇论文,标题直接亮明观点:《Self-Distillation Enables Continual Learning》(自蒸馏使持续学习成为可能)。

这方法的核心思路让我拍案叫绝——不需要外部数据,不需要额外模型,就靠模型自己。

具体怎么做的?

第一步:利用 ICL 生成”自我教师”信号。

LLM 都有 In-Context Learning(上下文学习)能力——给几个示例,它就能模仿这些示例的模式。SDFT 利用这个能力,让模型自己生成”答案”,然后把这些答案当作训练数据。

打个比方:你想学写代码注释,但没有现成的”注释风格”数据集。怎么办?让模型自己先写几段注释(基于它的现有能力),然后把这些注释当作”标准答案”,再训练自己。

听起来有点循环论证的意味?但关键点来了——

第二步:On-policy 学习,避免分布不匹配。

传统 SFT(Supervised Fine-Tuning)有个问题:训练数据的分布跟模型实际输出的分布不一致。模型可能生成的是”我风格”的答案,但训练数据是”专家风格”的答案,强行让模型学专家风格,反而会破坏它的原有能力。

SDFT 用 On-policy 的方式——让模型生成答案,用这些答案训练自己,分布天然匹配。相当于”自己教自己”,不会因为强行学别人的风格而忘掉自己的能力。

论文里的数据很扎实:14B 参数的模型,用 SDFT 方法,比传统 SFT 提升了 7 个百分点。更重要的是,他们做了顺序学习实验——让模型依次学习多个技能(数学推理、代码生成、创意写作),结果显示模型能累积这些技能而不退步。

"Self-Distillation Enables Continual Learning"

这跟之前的方案比,有本质区别:不是靠外部资源(Replay),不是靠人工设计约束(Regularization),不是靠模块隔离(Architecture),而是让模型在自身的输出分布上迭代优化。

我觉得这思路有意思的地方在于,它找到了一种”不伤害自己”的学习方式。就像一个人读书——不是为了把脑子里已有的知识挤出去,而是在现有知识的基础上,通过反思和内化,慢慢提升。

当然,SDFT 还不是完美解。论文里也承认,这种方法在非常复杂的任务序列上效果会下降,而且 On-policy 训练的计算成本不小。但至少,它给出了一个新方向:持续学习不一定非要依赖外部资源,模型本身就可以成为自己的”老师”。

LangChain 三层进化框架

2026 年 4 月,LangChain 发了一篇博客《Continual Learning for AI Agents》,提出了一个我觉得很有实操价值的框架:三层进化。

这框架把 Agent 的”持续学习”拆成了三个层次,不是只盯着模型权重,而是从系统角度思考进化。

第一层:Model Layer — 更新模型权重。

这是最直接的一层:通过 SFT、RLHF、DPO 等方法,直接更新模型的参数。相当于给大脑”换芯片”。

但这层有个尴尬的问题:更新频率低,成本高。你不能让模型每解决一个问题就重新训练一遍。实际操作里,这层更新通常以”版本迭代”的方式发生——几个月甚至更久一次。

第二层:Harness Layer — 更新框架代码。

这层我觉得最有意思。Harness 指的是包裹在模型外层的代码——工具调用逻辑、错误处理、任务规划、Prompt 模板等等。

LangChain 提出的”Meta-Harness”概念是:让 Agent 自己修改自己的 Harness 代码。比如 Agent 发现某个工具调用流程总是失败,它可以分析失败原因,修改代码逻辑,下次就不会犯同样的错。

这比更新模型参数更实际:代码改起来快,成本低,而且不会影响模型的核心能力。你改的是”使用方式”,不是”大脑本身”。

OpenClaw 项目的”dreaming”机制就是个例子:Agent 在后台运行时,会自动整合记忆,优化自己的行为模式,相当于”做梦”时复盘白天的问题。

第三层:Context Layer — 更新记忆。

这层最容易理解:更新 Agent 的记忆存储。包括对话历史、项目文档、用户偏好、任务记录等等。

Deep Agents 的设计里,记忆还分层级:用户级记忆(知道某个人喜欢什么)、组织级记忆(知道某个团队的习惯)、全局记忆(通用知识)。

这三层的关系可以用一句话概括:Traces 是所有更新的核心。

什么叫 Traces?就是 Agent 运行过程中留下的完整记录——输入、输出、工具调用、错误信息、用户反馈等等。这些 Traces 既是记忆更新的素材(Context Layer),也是代码优化的依据(Harness Layer),更是模型训练的数据源(Model Layer)。

三层框架的价值在于,它把”持续学习”从单纯的技术问题,变成了系统工程问题。你不需要等到模型版本更新才能让 Agent 进化——通过更新 Harness 和 Context,Agent 可以每天都在进步。

这也是为什么我说,对于开发者而言,理解三层框架比单纯关注权重更新更重要。真正的自进化,发生在 Agent 的整个生命周期,不只是训练阶段。

实战案例:MiniMax M2.7 如何”深度参与自身进化”

前面讲了不少理论,现在来看个真实的案例。

MiniMax 在 2026 年 3 月发布了 M2.7 模型,官方介绍里有个词让我印象深刻:“深度参与自身进化”。这不是营销口号——他们真的让模型自己跑了超过 100 轮优化循环。

具体怎么跑的?四步循环:

1. 分析失败。

模型先跑一遍任务,把失败的任务挑出来,分析为什么失败。是 Prompt 写得不对?工具调用有问题?还是代码逻辑错了?

2. 规划变更。

基于失败分析,模型自己提出改进方案。比如”这个工具调用的参数验证不够严格,应该加一层检查”,或者”处理这类错误时应该先尝试 X 方案再尝试 Y”。

3. 修改代码。

模型动手改自己的代码——不是改模型参数,而是改 Agent 的 Harness 层代码(工具调用逻辑、错误处理流程等等)。

4. 运行评估。

改完之后,跑一遍评估集,看看改动有没有效果。有效果就保留,没效果就回退。

这四步循环,M2.7 跑了超过 100 轮。结果很惊人:内部评估集性能提升 30%。

外部基准测试的数据也相当亮眼:

  • SWE-Pro:56.22%。这个基准测试是让模型解决真实的 GitHub issue,难度接近 Claude Opus(Opus-4.6 是 55% 左右)。
  • MLE Bench Lite:66.6% 平均奖牌率。这是个机器学习工程基准,测试模型完成 Kaggle 项目的能力,仅次于 Opus-4.6。

最让我感兴趣的是这个流程里”人”的角色。MiniMax 的研究员说,他们只需要干预关键决策——比如确认某个改动是否应该保留,或者在大方向上给建议。剩下的分析、规划、修改、评估,都是模型自己完成。

这跟传统的”人写代码 → 模型测试 → 人修代码”流程完全不同。模型不再只是个被动的”执行者”,它变成了一个能主动发现问题、提出方案、验证效果的”参与者”。

用 MiniMax 自己的说法,这是”模型首次深度参与自身的进化”。

老实说,我看到这个案例时,既有兴奋也有担忧。兴奋的是,持续学习终于有了落地的真实案例,而且效果确实不错。担忧的是,这套流程的可靠性如何保证?模型会不会”越改越歪”?100 轮循环里有多少是正向的,有多少是试错成本?

官方没有公开这些细节,但至少,M2.7 证明了一件事:自进化不是纸上谈兵,它真的能跑,而且能跑出成果。

结论

2026 年开年到现在,持续学习这话题热度越来越高。DeepMind 说今年是”持续学习之年”,Anthropic 说”2026 年搞定”,MiniMax 直接拿出了 M2.7 的实战数据。

我不敢说持续学习马上就能普及——毕竟 SDFT 还在论文阶段,M2.7 的自进化流程细节也没完全公开。但至少,方向已经清晰:模型不能永远是静态的”出厂设置”,它需要边用边学。

对于开发者,我的建议是:别只盯着”模型权重更新”这一件事。LangChain 的三层框架给了更实际的视角——你可以先从 Harness 层和 Context 层入手,让 Agent 的工具调用逻辑、记忆管理先实现”持续优化”。这两层改动成本低、见效快,而且不需要重新训练模型。

真正有意思的未来,是三层联动:模型自己在 Harness 层优化行为,在 Context 层积累经验,等到时机成熟,用这些经验数据做一次权重更新。然后新一轮循环开始。

这才是”自进化”该有的样子——不是几个月一次的大版本更新,而是每天都在进步。

如果你对这方面感兴趣,建议深入读读 SDFT 的论文(arxiv 2601.19897),看看 LangChain 的三层框架博客,再关注 MiniMax 后续会不会公开更多 M2.7 的技术细节。持续学习还在快速发展,2026 年肯定会是关键的一年。

常见问题

什么是 LLM 的灾难性遗忘?
灾难性遗忘是指模型在学习新知识时,会覆盖或丢失之前学到的能力。比如让模型学习 Python 3.12 新特性后,可能把 Python 3.8 基础语法忘了。这是因为神经网络会拼命拟合新数据分布,把旧知识'挤出去'。
SDFT 自蒸馏方法的核心优势是什么?
SDFT 的核心优势是让模型'自己教自己'——利用 ICL(上下文学习)生成自我教师信号,通过 On-policy 学习避免分布不匹配。不需要外部数据、不需要额外模型,14B 参数模型比传统 SFT 提升 7 个百分点,且能累积多种技能而不退步。
LangChain 三层进化框架分别是什么?
三层框架包括:Model Layer(更新模型权重,如 SFT、RLHF,频率低、成本高)、Harness Layer(更新框架代码,如工具调用逻辑、错误处理,改动快、成本低)、Context Layer(更新记忆存储,如对话历史、用户偏好)。Traces(运行记录)是所有更新的核心。
MiniMax M2.7 的自进化流程是如何工作的?
M2.7 采用四步循环:分析失败(找出失败任务并分析原因)→ 规划变更(模型提出改进方案)→ 修改代码(改 Agent 的 Harness 层代码)→ 运行评估(验证效果,有效保留、无效回退)。跑了超过 100 轮循环,内部评估性能提升 30%。
持续学习的三种主要方法各有什么优缺点?
Replay 方法:存储旧数据与新数据混合训练,优点是简单有效,缺点是存储开销大。Regularization 方法:保护重要参数(如 EWC),优点是不存数据,缺点是难以计算完美权重。Architecture 方法:每个任务配专属模块(如 LoRA),优点是隔离性好,缺点是模型会膨胀。
开发者应该如何入手实践持续学习?
建议先从 Harness 层和 Context 层入手:让 Agent 的工具调用逻辑、记忆管理实现持续优化。这两层改动成本低、见效快,且不需要重新训练模型。LangChain 三层框架提供了很好的实践指南,可以结合 OpenClaw 的 dreaming 机制参考实现。

16 分钟阅读 · 发布于: 2026年4月14日 · 修改于: 2026年4月14日

相关文章

BetterLink

想持续收到这个主题的更新?

你可以直接关注作者更新、订阅 RSS,或者继续沿着系列入口往下读,避免下次又回到搜索结果重新找。

关注公众号

评论

使用 GitHub 账号登录后即可评论