告别数据的“噪音”,Dreamprm,这是UCSD模型的重

Dreamprm是由加州大学圣地亚哥分校的研究团队开发的,在Mathvista数学推断列表和当局评估列表中开发了第一名。第一作者是博士生,相应的作者是学校的相关教授Pegtao Xie。其他团队成员包括Wang Ruiyi,Ruiyi Zhang和Sai Ashish Somayajula。使用流程奖励模型(PRM)提高大型语言模型的推理功能,在纯文本任务中取得了显着的结果,但是将过程奖励模型扩展到多模式领先语言模型(MLLM)面临两个主要问题。过程的概括能力一般奖励模型。数据集质量的人。多模式开放 - 源推理数据集存在许多低价值样本,Incuidado的返回方式和较少困难的问题。当直接用于训练时,噪声数据会稀释主要推理步骤的过程奖励模型的监督信号(例如联运逻辑连接)。为了响应上一个问题,我们使用两个级别的优化框架来动态抑制低质量数据域的影响,同时需要改善高密度信息域(M3COT数据集)的贡献。文档标题:DreamPRM:多模式推理文档方向的参考过程奖励模型:https://arxiv.org/abs/2505.20241V2代码地址:https://github.com/coder-qicao/coder-qicao/dreamprmdreamprm proce and nativeSAMATAMATAMATICATAMATICATAMATICATISAMATIC。 DreamPrm是一个一般框架,它优化了多个层次,例如核,并且与特定的大型语言模型没有相关。可以将其集成而没有多模式大型语言模型的问题,并大大提高了数学推断能力。在解决数据质量不平衡问题时,DreamPrm显着改善了多模式过程的性能奖励模型s。 DREAMMPRM Double Cap Optimization Frame Technology: Dual-Co-Government Detailer of the Ear Optimization Mechanisms The DREAMPRM coinnovation is to build the training process of the process of reward of the process in an optimization problem with a differentiable double layer and solve the distributed displacement and the mass imbalance in multimodal inference when dynamically adjusting the weight of the data domain.该框架包括两个紧密组合的优化阶段,可在模型性能中进行协作改进。在优化阶段的较低阶段,该系统同时在15个不同的训练领域进行PRM参数训练。数据的每个领域(例如科学,问题和答案,几何推断等)都会收到动态权重,反映了不同数据域对一般损耗函数的贡献的范围。在特定的实现中,系统为每个D计算蒙特卡洛的监督信号omain。对于特定的中间推理步骤,结果由多个样本完成,并计数精度,从而产生当前步骤概率的估计值。低级别优化使用由域和更新过程奖励模型的参数加权的过程奖励模型的模型输出来监视MSE的损失。在较高级别的优化阶段,系统使用一组基于低级别优化培训数据(例如培训数据)的MMMU的FIL元数据。这套精心构建的元数据涵盖了30个区域的183个子域,可以评估其概括能力,以实际和整合地模拟PRM推理方案。在较高的优化阶段,支持误差,并更新每个数据域的权重,从而最大程度地减少了聚合后过程评估准确性和最终响应的差异。这个两个级别的体系结构创建了自适应的阳性饲料K电路。高质量的推理数据域(例如需要复杂的联运推理的M3COT)逐渐获得更大的比索,而包含许多简单样品(例如AI2D)的域则减少了权重。整个优化过程表现出良好的收敛特征。最初在1.0中建立的Dominio的DOS在训练过程中自然区分,并最终形成与数据域信息密度高度相关的权重分布。实验结果是主要性能领域的重要重新启动。我们已经显示了加权的好处。 DreamPrm在五个参考点中不断超过其他PRM方法,与原始PRM相比,没有数据选择,增加了2-3%。他们的自我加强域加权策略超过了人为设计的启发式规则,即S1-PRM和CARPRM,表明基于数据的优化更有效。最小的型号超过了最大的型号:DREAMPRM使用国际模型(例如GPT-4V和Gemini-1.5)显示出强大的推理能力。精心调整的成绩会导致改进。该过程监督模型通过超过其他测试时间优化方法(例如自我融合验证)的步骤得分机制来检查调整后的评估的关键作用。 Dreamprm的性能不断提高,随着候选推理链(COTS)数量的增加。如图所示,随着婴儿床数量从2增加到8个,Dreamprm的精度继续增加了五个参考点。DreamPrm允许您在没有问题的情况下迁移到更强大的多模型模型。如图所示,诸如GPT-4.1-MINI和O4-MINI等更强大模型的应用提高了MathVista参考点的精度,并完全证明了Dreamprm的概括。学习数据的域重量是最终学习数据域的重量,从0.55到1不等.49,其中M3COT和FightQA获得最高权重(约1.5),而AI2D和ICONQA的重量较小(小于0.8)。这种重量分布模型有效地提高了PM的产量,同时确认不同数据集存在显着质量差异。一般描述Dreamprm通过创新的两个层次优化机制在培训多模式过程奖励模型中成功解决了数据质量和分配补偿问题的不平衡。两个级别的优化框架会自动学习每个数据域的最佳权重,而DreamPRM是五个基础测试的数学推断任务,尤其是高级。它详尽地优于其中的一般PRM方法。该实验表明,这种方法不仅将基本模型的平均性能提高了4%,而且还可以按照较新的模型(例如O4-Mini)迁移,而且继续改善结果,因为CAND数量ID推断链增加。 Dreamprm流程监督和可解释的重量分布为多模式过程的有效培训模型提供了新的范式。

Related Posts

Comments are closed.