ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

国产开源大模型DeepSeek-V3爆火,低成本高效能引AI界赞叹

时间:2025-01-01 06:02:44来源:搜狐科技编辑:快讯团队

在AI界,一款源自中国的开源大模型近期引发了国内外广泛关注。这款名为DeepSeek-V3的模型,由新兴AI企业DeepSeek研发推出,以其卓越性能和低廉的训练成本,在业界掀起了波澜。

DeepSeek-V3的技术论文详细阐述了该模型的研发过程。论文指出,DeepSeek-V3的参数规模从前代的2360亿提升至6710亿,在14.8T tokens的数据集上进行了预训练,上下文长度可达128K。评测结果显示,DeepSeek-V3的性能已成为目前最强大的开源模型之一,且在多个主流评测基准上,其表现可媲美GPT-4o和Claude-3.5-Sonnet等领先的闭源模型。

除了安德烈,阿里前副总裁贾扬清、metaAI科学家田渊栋、英伟达高级研究科学家Jim Fan等多位AI领域的大牛,也对DeepSeek-V3表示了赞赏。有网友甚至认为,这是“全球最佳开源大模型”,并预测这将推动AGI(通用人工智能)的实现比预期更早且成本更低。

DeepSeek-V3之所以能引起AI大牛的关注,很大程度上是因为其低廉的训练成本。据悉,该模型仅用了2000多张GPU,训练成本不到600万美元,远低于OpenAI、meta等在万卡规模上训练的模型成本。这一成本效益比,让DeepSeek-V3在业界脱颖而出。

在知识能力方面,DeepSeek-V3在MMLU-Pro和GPQA-Diamond等基准测试中超越了阿里、meta等所有开源模型,并领先GPT-4o,但略逊于Claude-3.5-Sonnet。而在数学、代码和推理能力方面,DeepSeek-V3在MATH500、AIME2024及Codeforces等多个主流基准测试中,不仅碾压了阿里和meta的最新开源模型,还超越了GPT-4o和Claude-3.5-Sonnet。

不过,值得注意的是,DeepSeek-V3在某些方面还存在局限性。例如,其英文能力还落后于GPT-4o和Claude-Sonnet-3.5,同时部署要求较高,对小型团队不太友好,且生成速度还有提升潜力。但DeepSeek在论文中表示,随着更先进硬件的开发,这些局限性有望得到解决。

那么,DeepSeek-V3是如何在如此低的成本下,训练出可以媲美OpenAI、meta的最强开闭源模型的呢?据从事AI算法工程师的人士透露,DeepSeek在模型架构、训练框架、推理部署、硬件设计、数据构建等方面都进行了组合式的工程创新,提出了很多节约算力、提升效率的策略,并保证了模型效果。

DeepSeek-V3依然基于Transformer框架,但采用了MLA(多头潜在注意力)和独创的DeepSeekMoE(混合专家架构),共同推动了算力成本的下降。同时,DeepSeek-V3还设计了FP8混合精度训练框架,并验证了其可行性和有效性。该模型在训练语料库中提高了数学和编程样本的比例,扩展了多语言覆盖范围,在后训练阶段使用了模型生成的数据,并利用强化学习的奖励机制,从而提升了模型性能,尤其是推理能力。

DeepSeek-V3的成功出圈,也让其背后的公司DeepSeek进一步获得了关注。这家位于杭州的公司成立于2023年7月,创始人是量化私募四巨头之一幻方的实控人梁文锋。梁文锋本硕就读于浙江大学电子工程系AI方向,后来主要在量化投资领域进行研究。随着2023年大模型浪潮爆发,梁文锋把幻方做大模型的团队独立为DeepSeek。

DeepSeek追求的是AGI,且不做垂类和应用,短期内也不会融资。梁文锋非常认可开源的价值,希望通过开源走到技术的前沿,参与到全球创新的浪潮中去。DeepSeek-V3论文的最后列出了约200位贡献者,包括150位研发和工程人员,30多位数据标注人员和18位商业合规人员。其中,还包括最近引发关注的“95后天才”罗福莉,她已入职小米领导大模型团队。

DeepSeek-V3的成功,不仅为公司带来了更多的关注,也为大模型的发展路径提供了新的可能。它证明了,在数据和算法方面还有很多事情可以做,优化算法的发展潜力绝不弱于堆算力。这对于整个AI行业来说,无疑是一个振奋人心的消息。

DeepSeek-V3的出色表现,也引发了业界对“算力决定论”的质疑。是否意味着前沿大模型不再需要大型GPU集群?对此,安德烈表示,并不是这样,但你必须确保不会浪费你所拥有的。而DeepSeek-V3的成功,则是一个很好的证明,表明在数据和算法方面还有很多优化的空间。

更多热门内容
解锁音频分离新技能!三款神器助你轻松搞定
在音视频创作领域,分离人声是一项关键技能。无论是制作伴奏、提取台词还是进行二次创作,掌握高效的音频分离方法都能显著提升工作效率。本文将为你介绍三款实用工具,并重点解析制片帮音分轨的功能优势,助你轻松提取纯净人声。一、音频分离的核心技术音频分离主要依赖

2025-04-01

为都市生活注入无限生命力 上海时装周GORE-TEX品牌空间限时开启
接棒巴黎时装周,GORE-TEX品牌在上海时装周期间又有大动作——2025年3月27日~30日,于洛克外滩源UNiTN空间打造“LIVE新生—GORE-TEX品牌空间”城中热事,精妙创意装置与各路高奢、时尚、户外品牌热门单品融合,吸引众多行业合作伙伴、潮流 ICON 齐聚,共同探索 GORE-TEX

2025-04-01

中建携手泓基支持全民持股协调项目股权加快落地见效,全民持股项目股权即将发放超百亿元!
截至3月底,中建集团与香港泓基集团控股有限公司携手推进的全民持股项目股权政策现如今已进入了全面完工阶段,据悉其中有着些许插曲,双方秉持着保障参与者的切身利益,展开了多次讨论协商,终于在三月底确定了解决方案。受制于专款专用相关法律条例的工程款已移交至泓

2025-03-31

开启全民智驾时代!台铃定义电动两轮出行新格局
行业首发智驾大模型Tai-Link,台铃开启电动两轮车全民智驾时代!3月24日,以“开眼”为主题的台铃2025眼说者大会暨赤兔25新品发布会在北京新华网媒体创意工场举办。台铃发布Tai-Link智驾系统,并携革命性技术台铃V6扁线轮毂电机及新品火眼机甲·赤兔2025重磅亮相。行业首

2025-03-26

模型SOTA、开放API与微调、首次引入CoT,Mureka完成全球首秀,拿下AI音乐的顶流宝座
3月26日,昆仑万维正式发布Mureka O1模型与Mureka V6模型。Mureka O1作为全球首款音乐推理大模型,性能超越Suno、模型登顶SOTA,中国科技创新再次在AI音乐领域领跑全球。2024年4月,昆仑万维发布了第一代音乐生成模型:Mureka V1(SkyMusic),获得了非常好的市场反响。在

2025-03-26

泰国政要与皇家乐团见证JAECOO 7曼谷车展上市,ARDIS赋能越野新篇章
3月25日,在泰国曼谷车展上,奇瑞子品牌OMODAJAECOO旗下精致越野车型JAECOO 7正式上市,曼谷市长与财政副部长等多位政要莅临,曼谷皇家交响乐团现场表演,共同见证这一重要时刻。当天,JAECOO 5、OMODA C7等全新车型同步亮相车展,进一步展现品牌丰富的产品矩阵。2025年

2025-03-25

春华秋实保丰收 中国人寿财险护航春耕备耕
犁开希望千重浪,险筑金仓万户安。今年中央一号文件指出,要持续增强粮食等重要农产品供给保障能力。一直以来,中国人寿财险高度重视粮食安全问题,坚持聚焦主责主业,推进农险扩面提质,做好三大主粮保险、制种保险、地方特色农险等保险保障工作。数据显示,2024年,中

2025-03-17

泓基集团上市一周年:正式开通股票市场交易,开启财富共享新篇章
今日,香港泓基集团(控股)有限公司隆重举行上市一周年庆典,作为此次庆典活动的重要时刻,同时推出备受瞩目的原始股权置换计划。此次与香港交易所(港交所)的深度合作,将进一步推动公司国际化发展进程,为更多追梦人和广大投资者提供参与机会。自2024年3月8日成功上市以

2025-03-10

泓基集团上市周年庆典:紧跟国家政策指引,以市场为导向,携手港交所共筑“中国梦”,推进全民持股新时代
2025年3月8日,泓基集团迎来了上市一周年的周年庆,经香港泓基集团(控股)有限公司董事会决定,为加快推动全民持股政策稳步发展,并进一步强化与香港港交所(以下简称“港交所”)的战略伙伴关系,泓基控股集团正式宣布持有原始股权股东可将账户原始股兑换股票进行市场交易

2025-03-10