开云体育(中国)官方网站这是咱们最赶走尾的预览:在这些基准测试中-开云(中国)Kaiyun·官方网站 - 登录入口
近日,国外大模子居品平台 OpenPipe 上发布了一项连络,推崇其若何通过 GRPO 在重度推理游戏《时空谜题》中零碎 R1、o1、o3-mini 等模子。连络作家分歧为来自 Ender Research 的强化学习连络员 Brad Hilton 和 OpenPipe 的独创东说念主 Kyle Corbitt。
他们的连络示意,他们不仅将模子与 Sonnet 3.7 的差距松开至个位百分比,同期竣事跳跃 100 倍的推理老本优化。
敷陈中还分享了任务假想与超参数调度的教授,并公开了基于 torchtune 框架构建的完满覆按有野心。
一、布景先容
自 OpenAI 前年发布打破性的 o 系列推理模子以来,汲取强化学习(RL)覆按的大型话语模子(LLMs)迎来爆发式增长。谷歌 DeepMind、阿里巴巴、DeepSeek、Anthropic 接踵推出复古长 " 念念维链 "(CoT)推理的先进模子,在可考证问题上实行强化学习覆按,让传统的基准测试渐渐濒临性能天花板。
尽管取得显耀进展,逻辑演绎身手仍是顶尖模子的阿喀琉斯之踵。现时 LLMs 广大存在三大劣势:
难以牢固跟踪扫数联系细节
无法保合手逻辑严实的推演历程
多步承接可靠性不及
即便顶尖模子生成 10-100 倍长度的输出,仍然会频现东说念主类可平凡识别的初级失实。
带着意思,咱们开启了一系列的探索:微型开源模子能否借助前沿强化学习本领,打破演绎推理的边域?
咱们起始从性能较弱的模子开赴,在一项全新的推理任务上对其进行迭代覆按。跟着期间的推移,咱们昭彰不雅察到它们的推理身手有所进步,最终达到致使零碎了一些先进的私有模子 。
二、基准测试框架
为了开展咱们的实践,咱们起始必须深信一个具有明确可考证谜底且具有挑战性的推理任务。适值其中一位作家之前创建了一个皆备稳妥条目的谜题集——"时空谜题"(Temporal Clue)。除了孤高事实真相明晰这一圭臬外,还不错按照需要创建新谜题。
"时空谜题"灵感源自热点桌游 Clue(Cluedo),在该游戏中,玩家们竞相揭开究竟是谁在 Boddy 先生的豪宅中谋杀了他。"时空谜题"将这款游戏升沉为一个单东说念主逻辑谜题,它不仅涵盖圭臬因素 —— 凶犯是谁、用什么凶器、在哪作案,还增添了两个维度:作案期间和作案动机。谜题是当场生成的,游戏使用了 OR - Tools 的 CP - SAT 求解器进脚迹迹挑选。
在某个简洁的冬夜,深邃富豪 John Q. Boddy 先生为他的密友举办了一场微型的奢侈晚宴。关联词,这场晚宴以悲催已矣,Boddy 先生于清早时候被发现死在都铎庄园的一个房间里。以下是被认定为嫌疑东说念主的联系利益东说念主员……
为了明确这项推理任务的最好水平,咱们对一些火爆的推理模子进行了基准测试 ,包括 DeepSeek R1、OpenAI 的 o1 和 o3 - mini 以及 Anthropic 的 Claude Sonnet 3.7。此外,咱们还对 14B 和 32B 的 Qwen 模子进行了基准测试,这是咱们最赶走尾的预览:
在这些基准测试中,咱们发现 Claude Sonnet 3.7 在设定 6.4 万个 token 的情况下阐明最好,DeepSeek R1 的阐明确切与 OpenAI 的 o1 和 o3 - mini 不相凹凸。关联词,未经调优的 Qwen 2.5 Instruct 模子在比较之下就稍显失态了。
一个重要问题是:咱们能否将这些较微型的怒放权重模子覆按到前沿水平的阐明?谜底是深信的,只好用对秩序。
三、覆按
为了覆按出一个具有前沿水平的推理模子,咱们汲取了强化学习秩序。咱们起始让假话语模子针对每个谜题生成多个回复,以此探索问题的各式可能性,从而指示它们学习。对得出正确谜底的推理历程赐与正向强化,而对误导模子的推理历程则进行刑事遭殃。
在繁密强化学习的秩序中,咱们采用了 DeepSeek 模子的 GRPO 算法。与 PPO 等传统秩序比较,GRPO 不仅阐明出色,还简化了覆按历程。
从宏不雅层面来看,咱们的覆按辞退以下几个基本法子:
针对谜题任务生成模子回复
对回复进行评分,并为每组聊天回复估算上风值
诓骗这些上风值估算终端指示的编著政策梯度对模子进行微调
用新的谜题和模子的最新版块重迭上述法子,直至达到最好性能
在生成回复要道,咱们使用了热点的 vLLM 推理引擎,并对参数遴荐进行了调优。咱们发现,向 vLLM 发送过多恳求会导致正在处理的恳求被霸占。为措置这一问题,咱们使用了一个信号量来适度恳求数目,该信号量经过调优,大略在尽量减少换出的同期保合手较高的键值缓存诓骗率。
采样完成后,咱们使用 HuggingFace Transformers AutoTokenizer 对回复进行处理。它的聊天模板功能可将音书对象渲染为辅导字符串,其中包含一个助手掩码,用于深信哪些象征是由假话语模子生成的。咱们发现这些模子在其默许模板中穷乏必要的 "生成" 标签,于是在 token 法子中对模板进行了修改。最终得到的助手掩码被纳入用于调优的张量字典中,用以标记哪些位置需要进行蚀本筹办。
在赢得助手掩码后,咱们对数据进行打包以便调优。除了在每个打包序列中包含多个辅导和回复以外,咱们还识别出分享的辅导象征,并为每个象征分拨一个父 ID,同期附上圭臬的组 ID。关于像 "时空谜题" 这类平均每个谜题跳跃 1000 个象征的任务,咱们针对每个任务生成多个回复并高效打包张量,显耀减少了冗余。一朝将扫数必要信息打包完毕,咱们就能以二维样子直不雅呈现覆按数据集,每一排都是一个可能包含多个辅导和回复的象征序列 。
有了数据后,咱们运转调优。模子也曾完成了预覆按和指示微调,具备一定的智能水平。固然它们还无法牢固地措置谜题,然而偶尔也能告捷。通过提高正确推理的概率,咱们平安指示模子朝着 "神探" 的水平迈进。关于筹办损成仇调度权重,咱们汲取了政策梯度的秩序。
在覆按历程中,咱们使用了由 PyTorch 团队提供的 Torchtune 库,其中包括 Llama、Gemma、Phi 等热点模子。咱们在这个形状中除了使用 Qwen 模子,也用 80 亿参数和 700 亿参数的 Llama 模子进行了实践。Torchtune 还提供了一些精真金不怕火内存和进步性能的用具,包括:
激活检查点(Activation Checkpointing)
激活卸载(Activation Offloading)
量化(Quantization)
参数高效微调(PEFT),举例 LoRA
此外,Torchtune 复古多修复和多节点覆按,还不错勾通全分片数据并行(FSDP)和张量并行(TP)覆按。他们提供了十多个覆按配方,饱读舞用户复制并凭据我方的用例进行定制。他们完满微调配方的修改版复古以下功能:
多修复和单修复覆按
参考模子加载和权重交换以筹办 KL 散度
使用组和父 ID 进行高档因果掩码筹办
GRPO 蚀本集成和组件日记记载
强化学习覆按历程触及超参数的遴荐。在覆按模子期间,咱们对各式树立进行了测试,最终深信了以下参数:
模子:Qwen 2.5 Instruct 140 亿参数版和 320 亿参数版
每次迭代的任务数:32
每个任务每次迭代的样本数:50
每次迭代的总样本数:32 × 50 = 1600
学习率:6 × 10 ⁻⁶
微批次大小:关于 140 亿参数模子为 4 个序列,关于 320 亿参数模子为 8 个序列
批次大小:可变,取决于序列数目
批次大小之是以可变,是因为覆按历程中回复长度不同。每次迭代的序列打包成果会有波动,上风为零的回复会被丢弃。在一次实践中,咱们尝试将学习率与批次大小成反比动态调度,但这会导致小批次的学习率过高。经过上限处理后的版块与使用恒定学习率比较莫得昭彰各异,但调度批次大小和学习率仍是畴前值得探索的主意。
咱们还进行了不详的实践,在每次迭代的任务数和每个任务的样本数之间进行反向调度(即一个增多另一个减少),同期保合手每次迭代的总样本数不详十分。在较短的覆按周期内,这些变化莫得产生昭彰各异,这标明覆按配方对任务数目与单任务样本量之间的不同配比具有强鲁棒性。
四、终端
经过 100+ 次迭代覆按,咱们的模子告捷达到前沿级推理水平。
咱们的模子大略在准确率下跌之前飞快修订。最好景况下,140 亿参数、1.6 万个 token 的模子已接近于 ClaudeSonnet 3.7 的性能。320 亿参数、6.4 万个 token 的模子更是确切达到了 Sonnet 的终端。
在覆按期间,性能进步辞退幂律规章,在图表上酿成线性关系(在恶化之前)。
下一步,咱们将探索各样化回复的秩序,平安构建身手的秩序,或者大略引发出绝对探索的秩序。
此外,咱们细心到在覆按期间输出长度呈现出意思的规章。起始回复变长,随后趋于牢固,在覆按接近尾声时出现分化,其中 140 亿参数模子的回复变得更长,而 320 亿参数模子的回复长度则裁汰(尤其是在达到最好性能之后)。
为了从定性角度评估逻辑推理身手的进步,咱们让起初进的模子 Claude Sonnet 3.7 对 Qwen 32B 模子所作念出的引申进行识别,并评估其合感性。Sonnet 从基础模子中识别出 6 个引申,除了一个被判定为正确外,其余均被判定为失实。相背,从经过覆按的模子中识别出 7 个引申,除了一个失实以外,其余均被判定为逻辑合理。
临了,在假定按需部署具有弥散轮廓量的情况下,咱们凭据 Fireworks AI 的无管事器订价层级估算了 Qwen 模子的老本。咱们绘画了一张准确性和推理老本的关系图,并发面前未经调优的模子中存在一条明晰的线性帕累托前沿线,极地面改善了老本与准确性之间的量度关系。
五、结语
在咱们的探望连络中,咱们探索了较微型的开源话语模子能否通过强化学习竣事前沿水平的演绎推理身手。对期间踪迹谜题进行覆按时,咱们使用了超参数和 GRPO 秩序来覆按 Qwen 14B 和 32B 模子,显耀低进步了性能。这些修订使开源模子在推感性能方面达到了最前沿的水平,并大幅度低责怪了老本。咱们的连络终端突显了强化学习在高效覆按开源模子处理复杂演绎任务方面的广博后劲。
此外,临了还有一个惊喜。咱们发现,仅需 16 个覆按样本就能竣事高达 10 - 15% 的性能进步,这意味着咱们无需巨额数据就能进行推理。
原文一语气:https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue
雷峰网开云体育(中国)官方网站
- 上一篇:开云体育聚焦研发高性能的通器具身智能体-开云(中国)Kaiyun·官方网站 - 登录入口
- 下一篇:没有了