您现在的位置是:首页 > 今日更新 > 正文
昆仑万维发布全新大模型奖励模型Skywork-Reward,登顶RewardBench
发布时间:2024-09-12 21:55:33邵明亮来源:
小枫来为解答以上问题。昆仑万维发布全新大模型奖励模型Skywork-Reward,登顶RewardBench,这个很多人还不知道,现在让我们一起来看看吧~.~!
近日,昆仑万维(300418)发布了两款全新的奖励模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B。在权威奖励模型评估基准 RewardBench 上,这两款模型表现卓越,分别位列 RewardBench 排行榜上的第一和第三位。特别是 Skywork-Reward-Gemma-2-27B 荣登榜首,赢得了 RewardBench 官方的高度认可和点赞转发。
昆仑万维发布的两款全新奖励模型在权威奖励模型评估基准 RewardBench 上表现卓越,分别位列第一和第三位(来源:RewardBench排行榜https://huggingface.co/spaces/allenai/reward-bench)
奖励模型(Reward Model)是强化学习(Reinforcement Learning)中的核心概念和关键组成,它用于评估智能体在不同状态下的表现,并为智能体提供奖励信号以指导其学习过程,让智能体能够学习到在特定环境下如何做出最优选择。奖励模型在大语言模型(Large Language Model,LLM)的训练中尤为重要,可以帮助模型更好地理解和生成符合人类偏好的内容。
RewardBench 是专用于评估大语言模型中奖励模型有效性而设计的基准测试榜单。它通过多项任务对奖励模型的表现进行综合评估,涵盖了对话、推理和安全性等领域。RewardBench 的基准测试数据集由提示词、被选响应和被拒绝响应组成的三元组构成,旨在测试奖励模型是否能在给定提示词的情况下,将被选响应排在被拒绝响应之前。
这意味着,想要在RewardBench基准测试中脱颖而出,奖励模型不仅需在对话、安全性和推理所有领域上表现出色,还必须在具有挑战性的对抗性案例中展现稳健的应对能力,证明其具备全面的理解能力并能准确识别细微偏好差异。
昆仑万维Skywork-Reward-Gemma-2-27B 荣登榜首,赢得了 RewardBench 官方的高度认可和点赞转发
此前,最先进的奖励模型是由 NVIDIA 开发的 Nemotron-4-340B-Reward,该模型基于 HelpSteer2 偏好数据集上进行训练,该数据集包括大约 10,000 个人工标注的样本。然而,由于其模型规模庞大,使用成本较高。
Skywork-Reward 通过从公开数据中精心挑选小而精的偏序数据集,并使用相对较小的基座模型,来开发最先进的奖励模型。与现有奖励模型不同,Skywork-Reward 的偏序数据仅来自于网络公开数据,采用特定的筛选策略,以获得针对特定能力和知识领域的高质量的偏好数据集。
这些偏好数据包括由人类标注和合成生成的(问题、被选回答、被拒回答),涵盖了广泛的主题,例如来自 WildGuard 的安全性和来自 Magpie 的数学与代码。数据源包括:HelpSteer2(7K)、OffsetBias(8K)、WildGuard(对抗性)(9K),以及 Magpie DPO 系列:Ultra、Pro(Llama-3.1)、Pro、Air(350K)。
为了进一步优化数据集,昆仑万维团队利用数据集的统计信息来进行筛选,在不牺牲整体性能的情况下,实现RewardBench各领域之间的性能平衡提升:
团队基于数据集中提供的 ArmoRM 平均得分,从 Magpie 综合数据集中独立选择数学、代码和其他类别的最优样本。将 Magpie-Air 子集和 Magpie-Pro 子集的 ArmoRM 平均得分分别减去 0.1 和 0.05,以优先选择 Magpie-Ultra 和 Magpie-Pro-Llama-3.1 样本。
对于 WildGuard,并未包括所有的偏好数据,而是首先在另外三个数据源上训练一个27B奖励模型(RM)。然后(1)使用该 RM 对 WildGuard 中所有样本的被选回答和被拒回答进行评分,(2)仅选择那些被选回答的 RM 得分高于被拒回答的样本。团队观察到,这种方法在提升安全性的同时,基本保留了对话、复杂对话和推理领域的性能。
最后还进行了全面的人工验证,以剔除数据中客观不正确以及奖励差距较小的样本。
最终,Skywork-Reward 偏序训练数据集包含约 80,000 个样本,通过在这些样本上微调 Gemma-2-27B-it 和 Llama-3.1-8B-Instruct 基座模型,获得最终的 Skywork-Reward 奖励模型。
在测试过程中,昆仑万维奖励模型在对话、安全性等领域表现出色,例如在对话、安全、代码推理、数据推理等方向的困难样本中,只有 Skywork-Reward-Gemma-2-27B 模型给出了正确的预测(对比模型包括:ArmoRM 和 InternLM2-20B-Reward)。
示例一丨Skywork-Reward-Gemma-2-27B 模型在安全领域上的表现优异
示例二丨Skywork-Reward-Gemma-2-27B 模型在数据推理领域上的表现优异
来源:昆仑万维官微
以上就是关于【昆仑万维发布全新大模型奖励模型Skywork-Reward,登顶RewardBench】的相关内容,希望对大家有帮助!
标签:
猜你喜欢
- 昆仑万维发布全新大模型奖励模型Skywork-Reward,登顶RewardBench
- 软通动力:公司旗下智通国际推出高性能游戏本,助力玩家畅游游戏世界,今年上半年京东、天猫淘宝等多平台销量均名列前茅
- 神州高铁:截至2024年9月10日,公司股东人数为99,245人
- 红棉股份:已有部分投资者获得赔偿,将有序推进生效判决的履行
- ST摩登:无应披露而未披露的重大信息,对于未决诉讼、仲裁事项将采取法律措施维护公司和股东利益
- 海内外项目捷报频传
- 晶科能源钱晶:服务型制造是光伏制造业的下一个阶段
- 鼎汉技术拟向控股股东定增募资不超2.56亿元 发行价格为4.78元/股
- 创意信息为“卫星”子公司引入川渝国资 预计获2.7亿元投资收益
- 海森药业拟授出230万股限制性股票 授予价为12.65元/股
- 罗牛山称台风灾害对公司造成资产损失预计约5700万元
- 北化股份:2024年上半年硝化棉产品毛利率为26.82%,同比增加13.75个百分点
- 中国一汽红旗品牌充电站突破 200 座:累计充电终端 1900+,直流快充终端占比 94%
- 健帆生物:公司产品已在海外2000余家医院广泛应用,实现90多个国家的产品准入
- 海南矿业:471.60万股限售股将于9月20日上市流通
- 实丰文化:新签约的游戏ip贪吃蛇大作战相关玩具预计2024年11月上市
- 突发!又有A股公司董事被立案并留置
- 华光环能:不断扩大优质大热电联产业务版图 装机量已达1.3GW
- 现场直击!A股公司“三跌停”背后:实控人失联!股东理财产品爆雷!投资者上门维权,警方介入
- 英唐智控第六大股东自然人刘胜刚减持23.75万股
最新文章
- 昆仑万维发布全新大模型奖励模型Skywork-Reward,登顶RewardBench
- 软通动力:公司旗下智通国际推出高性能游戏本,助力玩家畅游游戏世界,今年上半年京东、天猫淘宝等多平台销量均名列前茅
- 神州高铁:截至2024年9月10日,公司股东人数为99,245人
- 红棉股份:已有部分投资者获得赔偿,将有序推进生效判决的履行
- ST摩登:无应披露而未披露的重大信息,对于未决诉讼、仲裁事项将采取法律措施维护公司和股东利益
- 海内外项目捷报频传
- 肺部支原体感染严重不(2024年09月12日肺部支原体感染)
- 乌鸦喝水一年级语文视频(2024年09月12日一年级乌鸦喝水原文)
- 莲蓬有什么功效?(2024年09月12日莲蓬的功效与作用)
- 鱼肚白大理石多少钱一瓶(2024年09月12日鱼肚白大理石价格)
- 2021八年级上册英语课文中文翻译(2024年09月12日八年级上册英语翻译人教版)
- 晶科能源钱晶:服务型制造是光伏制造业的下一个阶段
- 鼎汉技术拟向控股股东定增募资不超2.56亿元 发行价格为4.78元/股
- 创意信息为“卫星”子公司引入川渝国资 预计获2.7亿元投资收益
- 海森药业拟授出230万股限制性股票 授予价为12.65元/股
- 罗牛山称台风灾害对公司造成资产损失预计约5700万元
- 北化股份:2024年上半年硝化棉产品毛利率为26.82%,同比增加13.75个百分点
- 中国一汽红旗品牌充电站突破 200 座:累计充电终端 1900+,直流快充终端占比 94%
- 健帆生物:公司产品已在海外2000余家医院广泛应用,实现90多个国家的产品准入
- 海南矿业:471.60万股限售股将于9月20日上市流通
- 首席总裁的小夫人(2024年09月12日首席的小妻子)
- 守望先锋没有找到兼容的显卡0xe0070180(2024年09月12日守望先锋没有找到兼容的显卡设备)
- 星露谷物语mod如何安装(2024年09月12日星露谷物语mod怎么安装)
- 星露谷物语mood手机版文件(2024年09月12日星露谷物语mods文件夹在)