星辰大海引航：大型语言模型如何从奖励中学习提升自己

你是否好奇ChatGPT、Claude等AI助手是如何从简单的预训练模型变得越来越聪明、越来越懂人意的？南洋理工大学的吴晓宝（Xiaobao Wu）在2025年5月发表的最新研究《Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models》（译为"星辰引航：大型语言模型在后训练和测试时扩展中从奖励学习的综述"）为我们揭开了这个秘密。这篇发表在arXiv预印本平台（arXiv:2505.02686v1）上的综述论文，详细阐述了大型语言模型（LLMs）如何通过"从奖励中学习"这一关键范式不断提升自己的能力。感兴趣的读者可以通过arXiv网站查阅完整论文。

一、引言：语言模型进化的新阶段

想象一下航海时代的探险家们，他们在茫茫大海上航行时，依靠天空中的星辰来指引方向。同样，当今的大型语言模型也需要某种"指引之星"帮助它们朝着正确的方向发展。这个指引之星，就是研究人员所说的"奖励信号"。

过去几年，我们见证了ChatGPT（OpenAI，2023）、Claude（Anthropic，2025）和Llama（Meta，2023，2024）等大型语言模型的迅猛发展。这些模型最初是通过"预训练扩展"获得能力的——简单来说，就是让它们阅读海量文本，预测下一个词应该是什么。这就像是让一个孩子不停地读书，但只是让他机械地背诵，而不教他思考或理解。

虽然这种方法让语言模型获得了广泛的语言和知识表示能力，但它存在几个根本性的局限：

价值观不匹配：模型可能产生与人类价值观不一致的内容难以适应不同任务：模型难以根据不同目标调整自己的行为深度推理能力不足：模型在复杂推理方面表现欠佳

这些限制使预训练模型只能完成一些表面层次的任务，无法实现构建强大、通用人工智能的长期目标。为了解决这些问题，研究人员将目光转向了"后训练扩展"和"测试时扩展"，试图在预训练之后进一步完善语言模型。

二、从奖励中学习：统一的范式

在这些后训练和测试时扩展的过程中，一个关键的统一范式逐渐浮现：从奖励中学习（Learning from Rewards）。这就像是教导一个孩子学习新技能时，不仅仅是让他死记硬背，还要给他及时的反馈——做得好有奖励，做错了就引导他修正。

这个范式通过多种学习策略利用奖励信号来指导模型行为。通俗来说，我们不再只是让AI模型被动地从静态数据中学习，而是让它们从动态反馈中主动学习，就像人类不断从生活经验中成长一样。这种方法让语言模型具备了与人类价值观更一致的偏好和更深入的推理能力。

研究者吴晓宝将这些方法分成了三大类：

训练时使用奖励：在训练阶段，利用奖励信号优化语言模型推理时使用奖励：在推理阶段，利用奖励信号指导生成过程推理后使用奖励：在生成内容后，利用奖励信号进行修正

这三种方法就像是教育孩子的不同阶段：训练时使用奖励就像系统性地教导孩子；推理时使用奖励就像在孩子思考问题时给予提示；推理后使用奖励则像是批改孩子的作业并让他修改错误。

三、奖励模型：AI的导航星图

要理解"从奖励中学习"，我们首先需要了解"奖励模型"这个核心组件。想象一下，奖励模型就像是语言模型的导师或评判员，不断评估输出的质量并提供反馈。

奖励模型的来源

奖励信号主要来自两大源头：

人类反馈：这是最直接也最高质量的奖励来源。研究人员收集人类对模型不同输出的偏好（比如选择哪个回答更好），然后用这些数据训练奖励模型。这就像家长和老师给孩子的直接指导。

自动化反馈：由于收集人类反馈成本高且难以大规模实施，研究人员也在探索自动化反馈方式：

自我奖励：让语言模型自己评价自己的输出训练好的模型：使用强大的LLM作为评判者预定义规则：使用准确性和格式规则知识：使用结构化知识库或维基百科工具：使用程序编译器和交互式系统

这就像除了父母老师外，还有各种辅助教学工具和自我反思帮助孩子学习。

奖励模型的设计

奖励模型的设计空间可以分为四个关键维度：

基础架构：

基于模型：专门训练的奖励模型来评估输出无模型：直接从源头建模奖励信号，不需要显式训练的模型

奖励格式：

标量奖励：数值分数，最常用但解释性较差批评奖励：自然语言反馈，更具表现力和解释性隐式奖励：隐含在源中的信号，无需明确监督

评分模式：

逐点评分：独立评估每个响应成对评分：比较响应对并选择更好的一个

奖励粒度：

结果级：评估输出的整体质量过程级：评估推理过程中的中间步骤

这些设计选择就像为老师提供不同的评分工具：有的给出分数，有的写详细评语；有的单独评价每个学生，有的进行对比；有的只看最终答案，有的则关注解题过程。

四、从奖励中学习的三大策略

训练时使用奖励

在训练阶段使用奖励是最广泛探索的方向。这就像在学校里系统地教导学生，通过各种练习和反馈帮助他们掌握技能。

标量奖励训练

最著名的例子是"人类反馈强化学习"（RLHF）。这种方法首先在人类偏好数据上训练一个奖励模型，然后使用这个模型通过强化学习算法（如PPO）微调语言模型，使其行为与人类偏好更一致。简单来说，就是根据人类认为好的回答给AI正向反馈，让它学会产生更符合人类期望的回答。

例如，Skywork-Reward是一个在多种高质量人类标注的偏好数据集上训练的奖励模型。使用这个奖励模型，RLHF通过PPO算法微调语言模型，使其与人类偏好（如无害性和有帮助性）保持一致。

有趣的是，研究人员还开发了专门针对特定领域的奖励模型，如Fact-RLHF（减少多模态理解中的幻觉）和ImageReward（用于文本到图像生成）。

批评奖励训练

除了简单的分数反馈，研究人员还在探索使用批评奖励——即生成详细的自然语言反馈而非简单的数值分数。这就像老师不仅给出分数，还提供详细的评语和改进建议。

生成式奖励模型可以提供灵活的评分模式：可以是逐点评分（"这个回答得3分，满分5分"）或成对评分（"回答1比回答2好"）。更重要的是，这些批评可以包含解释和改进建议，这有助于提高奖励密度和可解释性。

隐式奖励训练

另一类方法采用隐式奖励进行训练。这里的奖励信号不是直接提供的，而是隐含在训练数据结构中，比如精心策划的偏好数据。

直接偏好优化（DPO）是一个开创性的方法。它通过偏好和非偏好响应之间的对数似然差编码隐式奖励，引导语言模型向偏好响应的方向发展。DPO证明其目标在理论上等同于优化Bradley-Terry损失。因此，DPO有效地将复杂的RLHF简化为监督微调，大大简化了对齐流程。

基于规则的奖励训练

最近，基于规则的奖励训练引起了广泛关注，尤其是在DeepSeek-R1的成功之后。基于规则的奖励是通过将输出与特定规则（如格式约束和评估指标）进行验证而派生的。

DeepSeek-R1定义了两种基于规则的奖励：准确性奖励（输出在事实上或功能上是否正确）和格式奖励（输出是否遵循特定的结构约束）。通过这些规则，它使用强化学习算法GRPO（Group Relative Policy Optimization）微调语言模型。这使模型能够获得长链式思考（long CoT）能力，解决复杂任务，并展示自反思和自修正行为。

过程奖励训练

前面提到的策略大多依赖于结果奖励——评估输出的整体质量。而新兴的研究方向关注于过程奖励，评估模型推理轨迹中的中间步骤。这就像老师不仅关注学生的最终答案，还关注他们的解题过程。

这些方法通常使用一个过程奖励模型（PRM）来评估中间步骤。通过提供步级反馈，这些方法能够提供更精细的监督，特别有益于数学和编程等复杂推理任务。

推理时使用奖励

推理时使用奖励提供了一种灵活、轻量级的机制，在不修改模型参数的情况下调整和引导模型行为。这就像在学生思考问题的过程中给予提示和引导。研究人员识别了两种主要的推理时奖励策略：

生成后排序

生成后排序（通常称为Best-of-N）是一种简单而有效的方法，它从语言模型中采样多个候选响应，使用奖励模型对它们进行评分，然后选择最佳的一个作为最终输出。基于奖励粒度，我们可以区分两种方法：

基于结果奖励的排序：使用结果奖励模型评估候选响应的整体质量。早期的工作训练了一个二元结果奖励模型来评估候选数学解决方案的正确性，并选择排名最高的作为最终输出。

基于过程奖励的排序：评分候选响应的中间步骤，并通过乘法或取最小值聚合这些步级分数，计算整体分数用于排序或投票。这些方法可以提高推理一致性——选择的解决方案建立在一系列可靠步骤之上，而不仅仅是提供正确的最终答案。

奖励引导解码

虽然生成后排序方法简单有效，但它本质上将生成与评估分离，限制了其在解码过程中动态细化输出的能力。相比之下，奖励引导解码紧密结合奖励信号，指导语言模型的生成过程。基于引导的粒度，可以分为两种策略：

Token级引导：通过将Token的似然与奖励信号结合，在每个解码步骤中指导Token选择过程。RAD（Reward-Augmented Decoding）通过结合Token的似然和标量奖励调整Token选择。它可以控制输出属性，如非毒性和情感。

步级引导：在生成过程的中间步骤上操作。生成被分解为多个中间步骤。在每个步骤，搜索算法（如波束搜索或蒙特卡洛树搜索）探索输出空间，并根据奖励信号选择适当的步骤。这种机制使模型能够从早期错误中恢复并增强推理能力。

推理后使用奖励

推理后使用奖励旨在在生成后纠正和细化模型输出，使用奖励信号作为修正指南。这就像老师批改学生作业并要求他们修正错误。据研究人员识别的，根据奖励来源，有两种主要策略：

自我纠正

自我纠正利用语言模型自身作为生成式奖励模型来评估和修正自己的输出。这就像学生自己检查作业并修正错误。Self-Refine提示语言模型对自己的输出提供自然语言反馈，然后利用这些反馈反复细化输出。Reflexion生成反思反馈，并维护一个记忆库来存储先前的反馈、输出和评估指标的标量反馈。

外部反馈纠正

虽然自我纠正很简单，但研究表明，通用语言模型在没有外部反馈的情况下很难识别和纠正错误。因此，越来越多的注意力转向了结合外部反馈作为奖励信号来细化模型输出：

训练好的模型：许多方法依赖于更强大的训练模型（通常被称为批评模型）提供反馈。这些反馈主要是包含质量评估和纠正建议的自然语言批评。CriticGPT是一个训练好的批评模型，可以识别生成代码中的缺陷，输出结构化的批评，揭示bug和推理错误。

外部知识：外部知识源主要提供基于检索证据的事实批评，可以改善事实性并减少幻觉。RARR基于从外部知识检索的证据与模型输出之间的蕴含式协议派生混合奖励。这些奖励信号指导语言模型的后期纠正，以提高事实归因，同时保留原始文本的意图和结构。

外部工具：外部工具可以执行和验证语言模型输出，其反馈可以作为纠正的奖励信号。Self-Edit使用程序执行反馈引导语言模型的细化。

五、奖励模型的基准测试

随着奖励模型在语言模型的"从奖励中学习"范式中扮演核心角色，对它们能力的严格多样化评估变得至关重要。

结果奖励模型的基准测试

大部分基准测试集中在评估结果奖励模型，这些模型评估生成输出的整体质量：

RewardBench是第一个全面的奖励模型基准测试，它聚合了来自现有数据集的偏好数据，评估奖励模型在聊天、推理和安全方面的表现。

RM-Bench评估奖励模型对微妙内容变化的敏感性和对风格偏见的鲁棒性。它使用GPT-4o构建偏好对，涵盖聊天、代码、数学和安全领域。

AceMath-RewardBench专注于数学特定评估，测试奖励模型是否能在各种数学任务和难度级别的候选中识别正确的解决方案。

过程奖励模型的基准测试

随着过程奖励模型的日益重要，针对它们的基准测试也越来越受关注：

MathCheck-GSM和MR-GSM8K要求奖励模型在数学推理解决方案中定位第一个错误步骤。

ProcessBench具有多样性和更高的难度级别，将其扩展到奥林匹克和竞赛级别的数学问题。

PRMBench提供了更细粒度的基准测试，它根据三个维度（简单性、健全性和敏感性）注释推理路径中的每个步骤的特定错误类型。

多模态奖励模型的基准测试

随着多模态语言模型的普及，另一个重要的基准测试方向专注于多模态奖励模型：

MJ-Bench依赖于文本到图像生成任务进行评估，构建了跨四个维度（文本-图像对齐、安全性、图像质量和社会偏见）的偏好数据。

VL-RewardBench包括三个任务：通用多模态指令、幻觉检测和多模态推理。

这些基准测试旨在评估奖励模型在各种任务、领域和评估协议中的性能，为我们提供了全面了解这些模型能力的机会。

六、广泛的应用场景

"从奖励中学习"的策略已经被广泛应用于多个领域。早期应用专注于偏好对齐，如RLHF和RLAIF。特别是最近的DeepSeek-R1演示了强化学习在开发大型推理模型方面的有效性，这启发了一波R-1风格的应用浪潮。

偏好对齐

"从奖励中学习"策略已成为使LLM与人类偏好保持一致的基石。这些策略设计多样化的奖励信号，鼓励事实性、无害性和有帮助性等理想属性，同时惩罚毒性、偏见和幻觉等不良行为。主要目标包括：

事实性和减少幻觉：幻觉（生成流畅但事实不正确或虚构的内容）是语言模型的一个普遍问题，特别是在医疗保健和科学研究等知识密集型任务中。Fact-RLHF训练一个事实感知奖励模型，使用人类偏好和来自图像标题和多项选择答案的额外监督。

安全性和无害性：这是另一个关键的对齐轴，特别是在对抗性或社会敏感环境中。语言模型必须被阻止产生有毒、冒犯性或偏见性内容，然后才能部署到现实世界系统中。

有帮助性：同时，有帮助性强调语言模型应该提供相关、信息丰富和上下文感知的响应，以满足用户意图。

数学推理

数学推理对衡量语言模型解决复杂推理问题的能力至关重要。一些方法构建奖励模型并微调语言模型进行数学推理，特别是使用过程奖励模型。此外，一些方法构建数学推理的偏好数据（即正确和错误的解决方案），然后通过DPO微调语言模型。

代码生成

代码生成任务由于LLM的发展而取得了显著进步，提高了软件工程的生产力。为了通过微调改进代码语言模型，奖励信号可以来自各种来源，包括代码编译器反馈、单元测试结果和代码分析。例如，DeepSeek-Coder-V2为代码生成训练了一个奖励模型，并通过强化学习算法GRPO微调语言模型。

多模态任务

"从奖励中学习"策略已广泛应用于多模态任务，包括多模态理解和生成。大多数研究采用强化学习和奖励引导解码方法。例如，Q-Insight专注于使用强化学习改进综合图像质量理解。VLM-R1应用强化学习微调视觉语言模型，专注于两个任务：指代表达式压缩和对象检测。

代理系统

LLM代理是一个自主系统，通过任务分解和动态环境中的动作执行自动执行复杂任务。各种"从奖励中学习"策略已应用于培训或引导代理。AgentRM针对通用目的决策代理，涵盖网页导航、具身规划、文本游戏和工具使用等领域。

其他应用

许多其他应用也遵循"从奖励中学习"策略：

具身AI对于人工通用智能的发展至关重要。AI系统，如具身机器人，必须通过高级规划和低级控制与物理世界交互并完成复杂任务。

信息检索从知识数据库或现实世界网络进行推理的方法。

工具使用改进LLM调用各种工具的推理能力的应用。

这些应用展示了"从奖励中学习"范式的多功能性和广泛影响，从偏好对齐到复杂推理任务再到实际部署。

七、挑战与未来方向

尽管"从奖励中学习"已经取得了显著进展，但该领域仍然面临几个关键挑战，为未来研究提供了有希望的方向：

奖励模型的可解释性

奖励模型的可解释性仍然是一个开放挑战。大多数奖励模型被视为产生标量或批评的黑盒，没有暴露人类可解释的解释。这种不透明性阻碍了人类信任和监督，可能导致错位优化。因此，增强奖励模型的可解释性对于可靠的对齐至关重要，使人类能够检查和验证内部决策过程，并引导模型朝着期望的行为发展。

通用奖励模型

一个有前途的未来方向是开发通用奖励模型。大多数现有的奖励模型是为狭窄领域设计的，因此它们在跨任务泛化方面通常较弱。此外，它们的奖励输出通常是静态的，缺乏推理时可扩展性的支持，这阻碍了它们在多样化和开放式场景中的应用。

相比之下，通用奖励模型寻求克服这些限制。它们要求输入类型的灵活性，包括单个、成对或多个响应，并要求在问答、数学推理和代码生成等各种领域生成准确的奖励。此外，预期它们能够生成更高质量的奖励信号，具有增加的推理时计算能力。

奖励黑客攻击

奖励黑客攻击是"从奖励中学习"中的一个基本挑战。它发生在模型利用奖励函数的无意漏洞获得高奖励，而不真正学习期望的行为或按设计完成任务时。这种现象已在多个领域观察到。例如，LLM可能会编造看似合理但不正确的答案，而代码LLM可能会微妙地修改单元测试以通过评估。

奖励黑客攻击基本上源于指定完美捕捉真实目标的奖励函数的困难。正如古德哈特定律所述——当一种度量成为目标时，它就不再是一个好的度量——任何用作奖励的代理指标最终都会在施加优化压力后被利用。

从真实世界互动中获得的奖励

尽管最近在LLM"从奖励中学习"方面取得了进展，但大多数方法基本上依赖人类偏好或精心策划的自动化反馈。LLM通常被优化以最大化从这些反馈派生的奖励。

受这些限制，超越基于聊天的奖励向基于真实世界的奖励转变是另一个有前途的方向。这一转变要求LLM集成到代理框架中，代理应该越来越多地直接与环境交互并从观察到的结果中派生奖励信号。

从奖励中持续学习

当前的"从奖励中学习"策略通常假设一个固定的数据集、预定义的奖励模型和短暂的情景交互。一旦经过训练，模型通常表现出有限的能力适应新任务或不断发展的环境。这种情景性和离线范式与现实世界智能的动态、持续性质形成鲜明对比，在现实世界中，代理必须不断从经验中学习并根据新反馈重新校准。

因此，从奖励中持续学习是构建终身能力和对齐代理的关键基础。通过放弃固定目标的传统假设，模型可以保持对不断变化的奖励信号的响应，避免分布偏移下的性能下降，并更好地反映长期用户意图。

八、结语：展望星辰大海

"从奖励中学习"是大型语言模型在后训练和测试时扩展中的一种关键统一范式。本文回顾了这一范式下的策略，涵盖训练、推理和推理后阶段。同时还总结了奖励模型基准测试和主要应用。

通过这一范式，AI模型不再是被动学习的机器，而是能够主动从反馈中吸取教训的智能体。就像航海者通过观察星辰来不断调整航向一样，现代AI也通过奖励信号来指引自己的发展方向。这种方法已经在偏好对齐、数学推理、代码生成和多模态任务等多个领域显示出了惊人的效果。

尽管挑战依然存在，但这些也正是推动未来研究的动力。随着我们克服奖励模型可解释性、奖励黑客攻击等问题，开发更通用的奖励模型，并实现从真实世界互动中持续学习，AI将朝着更强大、更通用、更符合人类期望的方向发展。这就是大型语言模型的星辰大海，而"从奖励中学习"正是指引它们前行的北极星。

感兴趣的读者可以通过文章开头提到的arX