各位听众朋友大家好欢迎收听Hugging Face每日爱论文速递周末特辑每周日准时为您带来一周内Hugging Face向最受欢迎的论文汇总本期节目涵盖的时间段是2025年6月2日至6月8日在本期节目中我们将为您精选五篇备受关注的论文内容涵盖了通过强化学习RL提升大型语言模型LLM的自我改进高商仇恳在推理中的应用延长的强化学习对LM推理的拓展测试时驱动的大模型快慢思考框架以及一种经济高效的视觉语言动作模型接下来让我们一起深入这些前沿研究探索AI技术的最新进展节目正式开始本期节目的第一篇论文是反思重视奖励通过强化学习实现LM的自我提升这篇论文在Hugging Face社区获得了169个点赞显示出其研究价值和社区的关注度这篇论文的核心目标是提升大型语言模型LMS的性能通过一种名为反思重视奖励的新框架来实现这个框架的关键在于让模型在任务失败后进行自我反思分析失败原因并在再次尝试时利用这些反思来改进表现具体来说模型在失败后会生成一段自我反思的评论解释哪里出了问题并提出改进建议然后模型会根据这些反思再次尝试任务如果第二次尝试成功模型在反思阶段生成的内容会通过一种名为Group Relative Policy OptimizationGruple的算法获得奖励从而进一步优化其自我反思的能力论文中使用了多个模型进行实验包括CornarLama 3.1Fi 3.5Mini Instruct等并基于两个主要数据集Epojin和CountdownEpojin数据集包含6万个高质量的函数调用要求模型生成正确的工具调用Countdown数据集则包含45万个数字列表和目标数字要求模型通过这些数字生成正确的方程来达到目标研究结果显示这种反思重视奖励的方法在提升模型性能方面非常有效特别是在Epojin数据集上经过Gurple训练的Quin27B模型甚至超过了未经过训练的Quin272B模型此外自我反思显著提升了模型在Countdown数据集上的表现尤其是对于那些初始表现较差的模型论文还指出这种自我反思的方法不仅增强了模型解决复杂任务的能力还使得较小的模型能够超越较大的未训练模型显示出其在效率和通用性上的优势此外研究中几乎没有观察到灾难性遗忘的现象表明这种方法在模型乳棒性方面也有显著提升总的来说这篇论文提出了一种创新的方法通过强化学习的方式让LLMS进行自我反思和改进从而在复杂任务上取得更好的表现这是本期节目的第二篇论文题目是超越8020法则高商少数Token驱动LLM推理的有效强化学习这篇论文目前在Hugging Face社区获得了130个点赞显示出它在学术界引起了广泛关注这篇论文的核心研究问题是在大型语言模型LLMS的验证奖励强化学习RLVR中不同类型的Token如何影响推理性能以及是否可以通过专注于特定类型的Token来提升RLVR的效果研究团队提出了一个假设高商的少数Token作为推理路径中的关键分支点比低商的多数Token更能有效驱动RLVR他们进一步假设通过限制策略梯度更新到这些高商Token可以在保持或提升性能的同时提供计算上的优势为了验证这一假设研究团队进行了详细的实验设计他们选择了捆3LLM家族的8B 14B和32B基础模型作为研究对象通过链式思维COT推理中的Token商模式分析结合控制实验来调节这根商并在RLVR训练中选择性的更新策略梯度数据收集方面他们使用了M24 M25等数据集并在多个评估数据集上进行了验证实验结果显示高商Token在推理过程中起到了关键作用他们不仅连接了逻辑推理的各个环节还能通过调节节码温度来显著影响模型的性能具体来说降低高商Token的温度会降低性能而增加其温度则能提升性能此外RLVR在训练过程中保留了基础模型的商模式并且主要改变了高商Token的商值最令人振奋的是研究团队发现仅关注高商Token的策略梯度更新不仅没有降低性能反而在Koen3模型上显著提升了推理效果这一发现对于优化LM的推理能力具有重要意义尤其是在处理复杂推理任务时高商Token的聚焦策略能够平衡探索与训练稳定性为模型带来更大的性能提升总的来说这篇论文通过深入分析Token商对推理性能的影响揭示了高商少数Token在驱动LM推理中的关键作用为未来的LMU化提供了新的思路和方法这是本期节目的第三篇论文题目是Po延长的强化学习拓展大型语言模型的推理边界这篇论文目前在Hugging Face社区获得了115个点赞显示出它在研究社区中引起了广泛关注这篇论文的核心研究问题是延长的强化学习训练能否在大型语言模型中揭示出新的推理策略这些策略是基础模型在广泛采样下也无法获得的研究团队提出了一个假设通过延长的强化学习训练模型可以在其基础模型的基础上拓展推理能力发现新的解决方案路径并在各种任务中表现更好为了验证这一假设研究团队设计了一种名为Pro的新训练方法这种方法结合了KL散度控制参考策略重置以及一系列多样化的任务他们使用了三个模型进行实验DeepSea Car 1-15B作为基础模型Demitra Research Reasoning宽1.5B作为经过Pro训练的模型以及DeepSea Car 1-7B用于比较在实验过程中Pro训练包括了超过2000步的强化学习训练同时引入了KL散度惩罚来保持伤并防止策略漂移参考策略会定期重置以允许持续改进训练数据涵盖了数学代码STEM逻辑谜题和指令跟随等多种任务共构建了一个包含136000个视力的多样化训练数据集研究结果显示经过强化学习训练的模型在各种任务中的表现显著优于基础模型例如在数学任务中PiSide1的提升达到了14.7%在编码任务中提升了13.9%在逻辑谜题中提升了54.8%在STEM推理任务中提升了25.1%在指令跟随任务中提升了18.1%此外研究还发现Pro训练在超过2000步后仍能持续提升模型性能论文还引入了创造力指数来量化推理路径的吸引性结果表明延长的强化学习训练确实能够产生更具创新性的解决方案这一发现挑战了之前认为强化学习模型不会获得新推理能力的研究结论总的来说这篇论文提供了新的见解展示了在什么条件下强化学习能够有效拓展语言模型的推理边界研究结果表明通过稳定且延长的强化学习训练开发出超越基础模型初始能力的新的推理模式本期节目的第四篇论文我们来关注一篇名为Alpha 1测试时驱动大模型进行快慢思考的推理框架的研究这篇论文目前在Hugging Face社区获得了89个点赞显示出它在学术界和开发者社区中的广泛关注这篇论文的核心目标是解决大型推理模型LRMS在测试时如何动态调节推理过程的挑战研究人员提出了一个名为Alpha 1Alpha 1的框架旨在提升LRMS的推理能力和效率简单来说Alpha 1通过在测试时动态调度慢思考和快思考的转换帮助模型在深度分析和计算效率之间找到平衡具体来看研究团队使用了三个开源的LRMS作为基础模型分别是DeepSeq R1Distil QN1.5BDeepSeq R1Distil QN7B和QNQXRB他们在一系列涵盖数学编程和科学领域的六个基准测试上进行了实验包括M2024AMCR3Minerva Math等实验在NVIDIA L40S和A100GPU上进行确保了计算资源的充足和实验的可靠性论文的主要创新点在于引入了Alpha时刻AlphaMoment这一概念通过于Alpha和后Alpha时刻的调节Alpha1能够有效地在测试时对LRMS进行缩放研究人员还通过对比实验验证了Alpha1在问题解决准确性PiCity和推理效率FAP指标上的显著提升例如1.5B的模型在使用Alpha1后问题解决准确性提高了6.15%同时令牌长度减少了14%研究结果显示Alpha1不仅在准确性上超越了传统的测试时缩放方法如SE和Chain of Draft而且在推理效率上也表现出色特别是论文发现慢思考到快思考的线性调度方式能够带来最高的推理准确性这表明慢思考在提升推理效率方面起到了关键作用总体而言Alpha1为大型推理模型提供了一个通用的推理过程调节框架展示了慢思考和快思考的动态转换如何有效提升模型的推理能力这一研究不仅为LRMS的实际应用提供了新的思路也为未来在测试时优化模型推理提供了宝贵的经验这就是本期节目关于Alpha1测试时驱动大模型进行快慢思考的推理框架的介绍这是本期节目的第五篇论文题目是Small Flux一种用于经济高效型机器人的视觉语言动作模型这篇论文目前在Hugging Face社区获得了75个点赞论文的核心目标是解决现有大规模视觉语言动作Flux模型在机器人领域中面临的高训练成本和实际部署困难的问题研究团队提出了一个关键问题是否可以开发一种小型高效且由社区驱动的伐模型既能大幅降低训练和推理成本同时还能在机器人任务中保持竞争力论文的答案是Small Flux这是一种紧凑的伐模型专门设计用于单GPU训练和消费级设备的部署Small Flux通过利用社区收集的数据和一部推理技术实现了与更大规模模型相媲美的性能在方法论上Small Flux有一个紧凑的与训练视觉以N模型VLM和一个动作专家组成VLM负责处理语言指令RGB图像和机器人传感器状态而动作专家则通过交替的交叉注意力和自注意力快进行训练输出低级别动作数据集方面研究团队使用了来自Hugging Face的481个社区数据集的子集以及新的MetaWorld数据集和几个真实世界的机器人操作任务数据集训练过程中Small Flux通过模仿学习在社区数据集上进行运训练并使用现成的VLM如Kun 2.5VL3B Instruct自动生成任务描述以改进任务注视推理阶段一部推理技术将动作执行与观察处理和动作预测机从而提高了控制频率并减少了任务完成时间在评估中Small Flux在模拟和真实世界的机器人基准测试中表现出色特别是在识取、放置、堆叠和分类任务中优于其他Fla模型一部推理还使任务完成时间减少了约30%论文的结论表明通过利用社区驱动数据集优化模型架构和一部推理技术紧凑高效的Fla模型可以在机器人任务中取得竞争性表现Small Flux成功展示了开发经济高效型Fla模型的可行性为机器人研究提供了新的可能性并使更多资源有限的实际应用成为可能以上就是本期节目的全部内容感谢大家的收听如果你喜欢本期内容欢迎在评论区留言点赞转发并订阅我们的节目同时别忘了关注我们在小红书的账号ISOD我们下期节目再见 Hayae�� |