新闻资讯

快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

  (01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
(图侵删)

  4月23日,快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

  • 人民大学教授:九五后出现单身化倾向,家庭数上升对基础消费形成支撑
  • 广西52个县区40.5万人因干旱受灾,4月下旬降雨有增多趋势
  • 2025新科技澳新精准免费知料,助力未来智慧生活
  • 现货黄金涨0.8%,金银矿业股普遍收涨
  • 直击南京银行业绩会:存贷比要保持在80%-85%,今年一季度净息差同比上升
  • 香港最快最准的资料免费公开,一网打尽您所需信息
  • 印度与法国签署战机军购协议
  • 变脸!星光股份(605199)业绩由盈转亏,恐面临股民索赔
  • 美加征“对等关税”后,调研显示近半外贸企业将减少对美业务
  • 《仙人指路三期必出特肖:揭秘彩票中奖的神秘力量》
  • 我驻阿巴斯总领馆:将持续跟踪港口爆炸事件进展,全力确保中方人员安全
  • 力源海纳IPO抽中现场检查:产能利用率骤降,多个大客户去年业绩大降
  • 摩根士丹利基金市场洞察:后续市场机会或将转向具备产业逻辑强化的方向
  • 银川市市长信箱被指已读乱回,官方回应
  • 泽连斯基在欧洲理事会会议上发表讲话,强调对乌支持
  • 关键词: