如何教 AI 学会反思？

日期：2025-07-13 20:25:12 / 人气：92

今天想跟大家分享一篇有意思的 AI 论文，标题有点长，叫《反思，重试，奖励：通过强化学习实现自我改进的大语言模型》。
论文的发现与背景
熟悉 AI 的同学大多知道一个网站叫 Hugging Face，这个平台不仅有各种大模型的训练场和技术讨论区，还开设了一个 “每日论文” 栏目。由于 AI 领域如今太过火热，每天都有大量新论文发布，这个栏目就像是一个论文版的 “知乎热榜”—— 作者提交论文，读者点赞排名。
今天要介绍的这篇论文，是这个栏目 6 月排行榜的第三位。论文作者并不是一个典型的高校研究学者，而是一家名叫 Writer 的人工智能创业公司的研究团队，联合作者一共有八个人。
也许正因为是创业企业的研究团队，所以没有那么在乎学术层面的论文惯例，整个论文加上引用也只有 16 页，读起来也没有故作高深，非常简单明了。
3 个步骤，教会 AI 从错误中学习
这篇论文 ——《反思、重试、奖励：通过强化学习实现自我改进的大语言模型》—— 光是题目，你就能知道这项研究的核心结论是什么。
对我们人类来说，“从错误中学习” 是非常重要并且有效的学习方式之一。不信你去网上搜搜看，文具有一个专门的品类就叫 “错题本”。我们在求学时，当一道题没做对的时候，好的老师肯定不会直接说答案，而是会引导我们反思：“你觉得问题出在什么地方？下次可以怎么改进？”
而这篇论文的核心研究，就提出了一种巧妙的方法，能让 AI 像人一样，从错误中不断成长。
研究团队发现，即便是再强大的模型，也存在自己的 “盲区”—— 它在某一个任务上表现得非常好，但并不代表它就一定能顺利搞定类似的另一个任务。
面对这个问题，传统的解决办法是收集更多数据，对模型进行重新训练或微调。但这样的做法往往存在几个现实难题：一是很多时候你并没有更高质量的新数据可用；二是即便训练了，也常常出现 “打地鼠” 式的问题 —— 那就是优化了一个点，另一个原本表现不错的地方反而出了问题。
后来，研究团队就换了一个思路：与其一遍遍喂 AI 数据、调优模型，不如教会它怎么反思。只要让 AI 掌握 “怎么从错误中总结经验、改进自己” 的方法，它在面对不同任务时，就能逐步自行进化。用通俗的话说，就是不再一味 “灌知识”，而是教它 “怎么学”。
这个方法一共包含三个步骤，就像论文标题里写的那样：反思、重试和奖励。
第一步，反思。当模型在某个任务上第一次失败时，系统不会直接结束，而是让它先生成一段自我反思的内容，分析自己到底哪里出了问题。就像学生考试答错题后，会问自己：“我哪一步想错了？是不是公式用错了？” 这一环节的核心目的，是让 AI 开始自我觉察，并意识到错误的原因。
第二步，重试。这时候，AI 模型会带着刚才的反思内容，再去尝试完成同一个任务。就像学生在弄明白上次哪里出错后，再去解同一类题目，就更容易成功。
第三步，奖励。如果模型在第二次尝试中成功完成了任务，系统就会对它在 “反思阶段” 所生成的内容进行奖励。这里的 “奖励” 并不是我们理解中的发红包，而是一种强化学习技术。简单来说，就是通过调整模型参数，让它更偏向于那些曾经带来正面结果的反思方式。
你可以把这个过程想象成一个老师在表扬学生：当学生通过反思改正了错误，终于做对了一道难题，老师会说：“你的反思很有帮助，继续保持下去，你的数学会越来越好。” 注意，老师夸奖的不是解题方法本身，而是 “反思” 这一学习策略。所以学生就会知道，反思是有效果的，遇到问题的时候，就应该用这种方式来解决。
所以，这个机制的创新点在于：研究人员奖励的并不是模型最后给出的正确答案，而是它中间生成的 “反思过程”。这样的训练方式，让模型不再依赖死记硬背某个问题的答案，而是逐渐学会了一种通用的、自我纠错和自我提升的能力。
AI 学会反思，效果如何？
研究团队不是光讲概念，他们还做了两个实验，来实际验证这个机制的有效性。这两个实验对于 AI 来说都不算简单，一个是函数调用，一个是数学方程求解，都属于具有挑战性、但又能够清晰判断对错的任务类型。
先说函数调用。传统技术开发需要对接各种 API 接口，要填入各种参数。这个任务就是看 AI 能不能正确地调用，这不同于那种没有标准答案的写作任务，调用 API，成功与否，判断标准非常明确。
实验团队在多种规模大小的模型上都做了实验，测试了这种机制，例如从 15 亿参数的小模型到 72 亿参数的模型不等。效果令人惊叹。
一个只有 15 亿参数的阿里千问小模型，在这个任务上，一次就答对的概率只有大约 32.6%。但是经过今天介绍的这个反思训练后，第一次尝试的准确率就跃升到了 48.6%，提升了 16 个百分点。如果允许它利用自己的反思再尝试一次，第二次的成功率就达到了 52.9%，这相比原始能力提高了 20 多个百分点。
再说第二个任务 —— 数学方程求解，它比函数调用更困难得多。
实验中，15 亿参数的模型在第一次尝试时，正确率只有 6%，几乎等于纯靠蒙的水平，就好比初中数学 100 分满分只考了个 6 分。但当模型引入 “反思机制” 训练后，第一次尝试的正确率跃升到了 34.9%，已经是一个质的飞跃。如果再让它根据第一次的反思重试一遍，第二次的成功率更是提升到 45%。正确率从最初的 6% 到最后的 45%，这个跨度就像从不及格一路提升到接近及格线。
还有一个更惊人的发现是，经过这种学习方法训练的小模型，在能力上超过了参数量比自己大十倍的更高级模型。
研究团队同样使用了千问的 70 亿参数模型进行训练，结果发现，在这两个任务上，学会 “反思” 的 70 亿模型，表现都超过了不会反思的 720 亿模型。要知道，这两个模型都属于阿里千问系列。这就像一个经过良好学习方法训练的高中生，在某些难题上，反而能打败知识储备多出十倍、但缺乏方法的博士生。
这个发现的现实意义在于，对于某些任务来说，并不一定非得依赖超大规模模型，如果能优化训练方式，小模型不仅节省成本，也能具备很强的能力。
我训练 AI 干活的方法
我之所以要介绍这篇论文，是因为它的核心结论，对我们普通人是有借鉴价值的。
我观察到身边有一些同事在使用 AI 工具时，往往只进行一轮对话：给 AI 发一个任务，等它完成后就结束了。有时即便 AI 明显给出了错误答案，回应也只是简单一句 “错了，再试一次”。但按照这篇论文的启发，我们其实可以稍微调整一下话术，比如说：“你的答案可能有问题，请分析一下哪里出错了，然后再重新回答一遍。”
其次，在一些具体场景下，我们可以给 AI 提供更明确的反思方向。比如在做商业决策分析时，读完 AI 的第一轮回答后，你可以补充说：“你的分析似乎忽略了市场风险因素，请重新考虑并补充完整。” 当然，这种方式的前提是你自己能敏锐地识别出回答中的问题。
类似的反思提示词还有很多，例如：
“请检查一下你的推理过程，找出可能的逻辑漏洞。”
“分析一下你刚才的回答哪些地方可能不够准确。”
“如果让你重新回答这个问题，你会怎么改进？”
“你觉得你的答案已经完全满足问题要求了吗？请详细说明。”
最后，我想分享一个我偶尔会用的小技巧，它尤其适用于那些重要且复杂的任务，比如撰写竞品分析报告或者调研文档。我的做法是，先准备好三到四个表现稳定的大模型，比如从 ChatGPT、Claude、DeepSeek、豆包、Kimi 中挑选几个。
我个人的习惯是：先把任务描述清楚，然后分别让豆包、Kimi 和 DeepSeek 先各自完成一次回答。接下来，我会打开 ChatGPT，对它说：“我正在完成一个任务，任务内容是…… 我已经请三个 AI 助手分别作答。现在你是评审官，请你根据任务的特点，制定一套 100 分制的评卷规则，然后分别对这三个助手的答案打分，并详细说明你的评分理由。”
接下来，我就会把其他几个 AI 的回答一个个发给 ChatGPT。这时它会先搭建一套评分标准，再对其他 AI 的回答进行打分和点评，比如给出 85 分、87 分之类的分数，并详细解释打分理由。
然后，我就会开始 “PUA” 它，对它说：“你既然这么懂，那你自己来答一遍这个问题看看？” 它会乖乖照做，答完后，我继续追问：“那你就按你刚才的评分规则，对你自己的回答也打个分，并说明理由。”
它通常会开始进行所谓的 “公正打分” 和自我评价 —— 但你会发现，它几乎每次都比给其他 AI 打的分数高，一般会打个 90 到 95 分之间。哪怕这样，我也不会放过它，还要继续追问：“那你这剩下的几分是扣在哪里了？好好想想，再改一遍。”
当然，它最后输出的结果是不是满分作品，其实并不重要。但在这个过程中，往往会冒出很多新思路和新角度，对我们人类来说是很有启发的。
这个方法其实很简单，说到底，可能还是被我初中数学老师 “深刻启发” 过。当年他那种高压反思式教学，让我一度对数学敬而远之。不过还好，现在的 AI 没有情绪，不会反抗，我们可以尽情用 “PUA 语气” 去激发它的智力潜力。

作者：杏耀注册登录平台

如何教 AI 学会反思？

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →