ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

昆仑万维开源7B和32B最强数学代码推理模型,同规模下性能超越阿里QwQ-32B,对齐DeepSeek-R1

时间:2025-04-14 10:36:38来源:互联网编辑:茹茹

继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后,昆仑万维天工团队在此基础上持续迭代优化,4月13日,重磅推出全新升级的Skywork-OR1(Open Reasoner 1)系列模型。

该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时,Skywork-OR1全面开放、免费使用,以完全开源的形式回馈开发者社区,坚定践行天工团队在推动AI技术发展上的开源路线。

此次开源涵盖三款高性能模型,包括:

1. Skywork-OR1-Math-7B:聚焦数学领域的专项模型,同时也具有较强的代码能力。

2. Skywork-OR1-7B-Preview:融合数学与代码能力、兼具通用性与专业性的通用模型。

3. Skywork-OR1-32B-Preview:面向更高复杂度任务、具备更强推理能力的旗舰版本。

此次发布的Skywork-OR1系列采用业界最高透明度的开源策略:不同于其他前沿开源推理模型仅开放模型权重,我们全面开源了模型权重、训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台。

配套的技术博客已发布于Notion平台,详细阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现的实践参考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力还在持续提升,在两周内我们还会发布两个模型的正式版本,同时也会推出更为系统详尽的技术报告,进一步分享我们在推理模型训练中的经验与洞察。我们相信,这种全方位的开源策略将有助于推动整个AI社区在推理能力研究上的共同进步。

Skywork-OR1系列开源地址:

https://github.com/SkyworkAI/Skywork-OR1

昆仑万维天工团队更多开源项目:

https://huggingface.co/Skywork

在评测方面,Skywork-OR1系列模型引入了avg@k作为核心评估指标,用于衡量模型在进行k次尝试时成功解决问题的平均表现。相较于传统的pass@k指标仅关注是否“至少一次成功”,avg@k能更细致地捕捉模型在多轮生成过程中的稳定性与整体推理能力,从而更全面反映其真实性能水平与实用价值。

在数学推理任务中:

1. 通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-Preview在AIME24与AIME25数据集上均实现了同参数规模下的最优表现,展现出强大的数学推理能力。

2. 针对数学场景深度优化的专项模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分别取得69.852.3的高分,远超当前主流7B级别模型,充分验证了其在高阶数学推理任务中的专业优势。

3. Skywork-OR1-32B-Preview在所有benchmark上均实现了对QwQ-32B的超越,并在更难的AIME25上基本与R1持平。

在竞赛编程任务中:

1. 通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-PreviewLiveCodeBench数据集上均取得了同等参数规模下的最优性能。

2. Skywork-OR1-32B-Preview表现尤为突出,其代码生成与问题求解能力已接近DeepSeek-R1(参数规模高达671B),在大幅压缩模型体量的同时实现了卓越的性价比,充分展现出天工团队训练策略的先进性。

其中Skywork-OR1-Math-7B表现尤为亮眼,作为一个专注于数学推理能力的7B参数模型,通过多阶段GRPO训练在复杂数学问题上实现了卓越表现,同时在代码任务上也有较强的泛化能力。下图是该模型在AIME24上的训练准确率曲线,清晰呈现了多阶段训练过程中性能的稳定提升轨迹。

Skywork-OR1-Math-7B最终模型在AIME24和AIME24上分别达到69.8%52.3%,超越了OpenAI-o3-mini (low),达到了当前尺寸SOTA性能。尽管该模型训练过程中未专门针对代码能力进行优化,但在代码评测基准上Livecodebench从37.6%提升到43.6%,相比基线模型的显著提升,这也表明我们的训练方法具有较好的领域泛化性。

自2023年以来,昆仑万维坚定地开源大模型回馈开发者和行业。2025年开源的Skywork-R1V多模态视觉推理模型、SkyReels-V1面向AI短剧创作的视频生成模型、Skywork-o1推理模型以及2024年开源的Skywork-Reward奖励模型,不仅在Hugging Face上下载数据表现亮点,开发者讨论度和模型热度依然居高不下。

当前,全球人工智能领域的竞争日趋激烈,竞赛的焦点正逐步从基础模型能力扩展到推理能力的比拼。AI大模型能否有效模仿人类的思维过程、具备逻辑推理和复杂任务的求解能力,已成为衡量技术先进性与通用智能潜力的关键指标。

在此背景下,为打破科技巨头对核心AI大模型技术的垄断壁垒,推动技术自主可控发展,中国多家企业纷纷投身于开源大模型生态的建设。未来,昆仑万维仍继续秉持“All in AGI 与 AIGC”战略、“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,持续加大在通用大模型、开源框架和推理能力提升等方向的研究投入,力求在全球AI技术浪潮中抢占先机、塑造竞争优势。

更多热门内容
改革纾困赢佳绩,扬帆起航正当时 ——三峡人寿风险综合评级跃升B类
近年来,三峡人寿不断加强党的领导,党建统领焕发新气象,经营管理呈现崭新局面。公司资本补充取得新进展,2023年12月,首轮增资到位,综合偿付能力充足率恢复正常,并连续保持在150%以上;2025年3月底,第二轮增资款全部到位,目前正积极推进增资核准,增资完成后公司资

2025-04-11

中央汇金助力泓基创新机制激发财富效应 构建共同富裕实现路径
在中美贸易战战况持续升温、全球产业链加速重构的背景下,泓基集团通过灵活使用中央汇金公司注资200亿元在此次改革中推出的动态发展免息计划,开创了全民持股实践的新范式。通过推进全民持股向众股东开放售股免息模式,形成全民持股-扩大效益-功勋反哺的财富循环生态。

2025-04-11

双线织密防护网 筑牢权益安全墙 ——三峡人寿"3·15"多维守护金融消费者权益
近日,三峡人寿保险股份有限公司以“保障金融权益 助力美好生活”“远离非法金融中介 守护群众合法权益”为主题,组织开展了“3・15”金融消费者权益保护教育宣传活动。活动期间,三峡人寿发挥职场与网点优势,组建专项工作小组,在4个分支机构与营业网点设立宣传专区。

2025-04-01

AI大模型加速金融智能化变革,新网银行助力行业创新
当下,在生成式AI技术飞速发展的当下,大模型技术正以“摩尔定律”般的速度迭代,国产DeepSeek、等大模型的崛起,进一步降低了应用门槛,使得银行、信托、资管等行业能够加速智能化转型,推动金融科技迈向“技术平权”新时代。日前,一场主题为“AI赋能金融科技:金融机

2025-03-19

泓基控股上市周年庆:以"全民持股-周年纪念股票"共筑伟大复兴中国梦,一亿纪念股打造共同富裕新纪元
春潮涌动香江畔,在举国奋进第二个百年奋斗目标的关键节点,香港泓基集团(控股)有限公司在2025年3月8日迎来上市一周年里程碑。值此重要时刻,集团以全民持股启新章,共同富裕创未来为主题,正式启动亿万股民共享计划,向大陆发放一亿股周年纪念股票。这不仅是一场资本市

2025-03-16

泓基控股集团上市一周年开启股票交易新篇章,原始股权置换股票助力股东原始股价值
(2025年3月8日,香港) 今日,泓基控股集团有限公司(泓基集团,股票代码:02535)在香港交易所隆重举行上市一周年庆典,并正式开启股票市场交易。公司宣布推出原始股权置换计划,允许符合条件的股东将其持有的原始股权置换为流通股,并在香港交易所公开市场进行交易。泓基

2025-03-10

泓基控股:开启股市新时代,股权置换流通股
时间是最忠实的记录者,也是最客观的见证者,它默默丈量着奋斗的足迹,照亮着前行的方向。2024年3月8日,香港泓基集团(控股)有限公司以非凡的勇气和魄力,为扣响了全民持股的大门,在香港港交所开启征程,这一举措承载着无数追梦人的心声与期盼,从此踏上蓄势赋能、破浪

2025-03-10