ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

低成本高效率!斯坦福团队打造媲美OpenAI推理模型s1

时间:2025-02-06 12:48:39来源:砍柴网编辑:快讯团队

近期,人工智能领域迎来了一项引人注目的新突破。一份最新发布的研究报告显示,斯坦福大学与华盛顿大学的科研团队,仅花费了不到50美元(当前汇率下约为364元人民币)的云计算成本,便成功打造出一个具备卓越“推理”能力的人工智能模型——s1。

这款名为s1的模型,在数学与编程能力测试中,展现出了与OpenAI的o1及DeepSeek的r1等业界顶尖推理模型相当的水平。尤为s1模型及其训练所用的全部数据与代码,均已在GitHub平台上开源,供全球开发者共享与学习。

s1团队透露,他们采用了“蒸馏”技术来构建这一模型。该技术通过训练模型去模仿并学习另一个模型的答案,从而提炼出其“推理”能力。具体而言,s1是从谷歌的推理模型Gemini 2.0 Flash Thinking Experimental中蒸馏而来。有趣的是,上个月,加州大学伯克利分校的研究人员也运用了相同的蒸馏方法,但成本高达约450美元,创建了一个人工智能推理模型。

s1模型的问世,引发了业界对于人工智能模型商品化的深刻思考。若能够以相对低廉的成本复制出价值数百万美元的模型,那么大型科技公司的竞争优势何在?这一疑问无疑给行业带来了新的挑战与反思。

面对这一新情况,大型人工智能实验室表现出了明显的不悦。例如,OpenAI此前就曾指责DeepSeek不当获取其API数据用于模型蒸馏。而此次s1的推出,无疑加剧了这一领域的竞争与争议。

s1团队的研究人员表示,他们致力于寻找实现强大推理性能和“测试时扩展”的最简洁途径。这些正是OpenAI的o1模型所取得的一些突破性进展。s1的论文指出,通过一种称为监督微调(SFT)的方法,可以利用较小的数据集来蒸馏推理模型。在SFT中,模型被明确指示在数据集中模仿特定行为,这比DeepSeek用于训练R1模型的大规模强化学习方法更具成本效益。

谷歌通过其Google AI Studio平台免费提供了Gemini 2.0 Flash Thinking Experimental模型的访问权限,但设有每日使用限制。然而,其使用条款明确禁止对模型进行逆向工程,以开发与谷歌自身人工智能产品竞争的服务。尽管如此,s1团队仍巧妙地利用了这一资源。

s1基于阿里巴巴旗下中国人工智能实验室Qwen提供的一款小型、现成的免费模型。为了训练s1,研究人员精心策划了一个包含1000个问题及其答案的数据集,并收集了谷歌Gemini 2.0 Flash Thinking Experimental为每个答案提供的“思考”过程。在16个Nvidia H100 GPU的支持下,s1的训练耗时不到30分钟,成本仅为约20美元。

更为巧妙的是,研究人员还为s1设计了一个独特的技巧,让其能够在工作过程中进行自我检查并延长“思考”时间——他们让s1在推理过程中“等待”。论文显示,这一简单的添加,有助于模型获得更为准确的答案。

更多热门内容
2025年4月28日圆梦终章:泓基控股最高限度开放二级市场原始股权置换及抛售 ——泓基控股携手香港港交所释放全民持股共同富裕政策红利
在国家全民持股战略指引下,香港泓基集团(控股)有限公司(以下简称泓基控股)作为全民持股的标杆实践主体,于2025年4月28日正式启动二级市场原始股权置换流通股抛售计划,通过与香港港交所深度协作,开创性打通全民共享资本红利的通道。此举标志着全民持股政策进入实质落

2025-04-29

昆仑万维一季报亮点:营收大幅增长46%,多款大模型达到行业SOTA,AI算力芯片实现重大突破
4月29日,昆仑万维(300418.SZ)(以下简称“公司”)披露2025年第一季度业绩报告。2025年第一季度,公司实现营业收入17.6亿元,同比增长46%;全力推动AI算力芯片、大模型及应用的研发迭代工作,研发费用4.3亿元,同比增长23%。AI业务商业化落地加速。截至报告期末,AI音乐年

2025-04-29

“从遗产管理到财富传承的传家方案”研讨会召开,传家律所分享成功经验
2025年4月20日,由桂客学院、律新社主办、北京传家律师事务所承办的“从遗产管理到财富传承的传家方案”研讨会在京召开,中国老龄事业发展基金会遗嘱库项目办荣誉主任、桂客学院院长刘桂明,中国行为法学会总监事黄永维,中国政法大学法律学院院长,教授、博士生导师许

2025-04-22

SkyReels-V2开源:突破视频生成技术边界,开启无限时长电影生成新时代
4月21日,昆仑万维SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion

2025-04-21

元鼎智能1亿美金出售股份:创始人套现背后的战略困局
近日,元鼎智能旗下清洁机器人品牌Aiper宣布获得全球泳池设备巨头Fluidra的1亿美元战略投资。Fluidra以发行新股方式获得Aiper 27%股权,投后估值3.7亿美元。然而,这一交易因复杂的对赌条款和行业前景争议引发市场关注——创始人选择此时套现离场,究竟是顺势而为,还是

2025-04-15

喜讯!西安小巷科技传媒斩获4200万天使轮融资,打造电动车产业智慧生态新标杆
近日,西安小巷科技传媒有限公司宣布完成 4200万元天使轮融资 。此次融资不仅彰显了资本市场对公司在电动车产业链创新领域的深度认可,更标志着这家扎根西安的科技企业正式迈入高速发展新阶段。深耕电动车全链服务,构建智慧生态护城河作为国内领先的 电动车综合品牌供

2025-04-14

逆势扩张150㎡,用“大店思维”让张亮麻辣烫在县域称王
从71㎡小店到150㎡大店,张建军用7年时间完成了县城里从生存到引领的蜕变。他的经历验证了县域经济的一个道理:真正的下沉不仅是模式降维,更是门店空间和服务内容的重构。在张建军看来,餐饮从业者的护城河,从来不在那多收的“三五斗”,而在于持续进化的勇气。当绝大

2025-04-08

解锁音频分离新技能!三款神器助你轻松搞定
在音视频创作领域,分离人声是一项关键技能。无论是制作伴奏、提取台词还是进行二次创作,掌握高效的音频分离方法都能显著提升工作效率。本文将为你介绍三款实用工具,并重点解析制片帮音分轨的功能优势,助你轻松提取纯净人声。一、音频分离的核心技术音频分离主要依赖

2025-04-01

为都市生活注入无限生命力 上海时装周GORE-TEX品牌空间限时开启
接棒巴黎时装周,GORE-TEX品牌在上海时装周期间又有大动作——2025年3月27日~30日,于洛克外滩源UNiTN空间打造“LIVE新生—GORE-TEX品牌空间”城中热事,精妙创意装置与各路高奢、时尚、户外品牌热门单品融合,吸引众多行业合作伙伴、潮流 ICON 齐聚,共同探索 GORE-TEX

2025-04-01