快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

时间：2025-04-25 11:15:03 栏目：新闻资讯浏览：54

热点栏目

　　（01024）早盘上涨3.47%，现报52.20港元，成交额7.68亿港元。

（图侵删）

　　4月23日，快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

　　快手 Kwaipilot 团队在最新研究成果《SRPO： A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化（two-Staged history-Resampling Policy Optimization ，SRPO），这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

　　通过使用与 DeepSeek 相同的基础模型（Qwen2.5-32B）和纯粹的强化学习训练，SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩（AIME24 = 50、LiveCodeBench = 41.6），超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是，SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

人民大学教授：九五后出现单身化倾向，家庭数上升对基础消费形成支撑

广西52个县区40.5万人因干旱受灾，4月下旬降雨有增多趋势

2025新科技澳新精准免费知料，助力未来智慧生活

现货黄金涨0.8%，金银矿业股普遍收涨

直击南京银行业绩会：存贷比要保持在80%-85%，今年一季度净息差同比上升

香港最快最准的资料免费公开，一网打尽您所需信息

印度与法国签署战机军购协议

变脸！星光股份（605199）业绩由盈转亏，恐面临股民索赔

美加征“对等关税”后，调研显示近半外贸企业将减少对美业务

《仙人指路三期必出特肖：揭秘彩票中奖的神秘力量》

我驻阿巴斯总领馆：将持续跟踪港口爆炸事件进展，全力确保中方人员安全

力源海纳IPO抽中现场检查：产能利用率骤降，多个大客户去年业绩大降