ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里云大模型Qwen2.5-Max发布,国产AI能否借此弯道超车?

时间:2025-01-30 12:03:30来源:中国基金报编辑:快讯团队

在大年初一这个喜庆的日子里,阿里巴巴向全球展示了其在人工智能领域的最新突破。阿里云通义千问团队于北京时间1月29日凌晨正式推出了Qwen2.5-Max旗舰版模型,这一举动在业界引起了广泛关注。

据阿里云通义千问团队介绍,Qwen2.5-Max是他们对混合专家(MoE)模型的最新探索成果,其预训练数据规模超过20万亿tokens,展现了极为出色的综合性能。在多项主流模型评测基准上,Qwen2.5-Max取得了高分,全面超越了当前全球领先的开源MoE模型以及最大的开源稠密模型。

与Qwen2.5-Max进行对比的模型中,包括了近期备受瞩目的DeepSeek旗下的V3模型。受到这一新模型发布的影响,1月28日,阿里巴巴美股股价大幅拉升,一度涨幅超过7%,最终收盘时上涨6.71%,报96.03美元/股。而在1月29日,阿里巴巴美股股价继续上涨,收盘时涨幅为0.71%,收于96.715美元。

阿里云通义千问团队强调,Qwen2.5-Max采用了超大规模的MoE架构,并基于庞大的预训练数据以及精心设计的后训练方案进行训练。在知识、编程、综合能力评估以及人类偏好对齐等主流权威基准测试上,Qwen2.5-Max展现出了全球领先的模型性能。

在指令模型这一可直接对话体验的模型版本中,Qwen2.5-Max在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,与Claude-3.5-Sonnet比肩,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。这一表现无疑证明了Qwen2.5-Max的强大实力。

在反映模型裸性能的基座模型对比中,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。结果显示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型,再次证明了其卓越的性能。

除了发布Qwen2.5-Max以外,阿里巴巴还于1月28日开源了全新的视觉理解模型Qwen2.5-VL,推出了3B、7B、72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越了GPT-4o与Claude3.5,进一步展示了阿里巴巴在人工智能领域的深厚底蕴。

Qwen2.5-Max的发布引发了资本市场关于重估中国AI资产的讨论。阿里巴巴的股价在近年来虽然经历了波动,但此次新模型的发布无疑为其股价注入了新的活力。业内人士分析认为,阿里云不仅发布了与全球顶尖模型比肩甚至更优的模型,而且具备完整的云生态,这或能形成类似去年北美云计算服务商的投资逻辑。

在DeepSeek备受关注的同时,国内其他互联网大厂的大模型能力也不容忽视。包括阿里通义千问、字节豆包、腾讯混元在内的大厂大模型,在性能上同样表现出色。这些大厂往往出于商业化等方面的考量,不会完全开源其模型,但这并不影响它们在人工智能领域的竞争力。

值得注意的是,DeepSeek在文本生成能力和理解能力方面表现出色,尤其擅长中文语境下的长文本和复杂语境。然而,DeepSeek目前尚无多模态生成能力,而大厂模型如豆包等则属于多模态大模型,在大语言模型基础上融合了图片、音频、视频等多种模态,对算力底座要求更高。

尽管如此,DeepSeek仍因其创新架构与优化算法降低了训练成本,并聚焦于大语言模型领域而备受瞩目。然而,DeepSeek也面临着“蒸馏”争议。所谓“蒸馏”,即用预先训练好的复杂模型输出的结果作为监督信号来训练简单模型。虽然这一方法存在争议,但在大模型训练中却是一种常用的手段。无论是中国还是美国,初创公司和学术机构使用ChatGPT等商业大语言模型输出数据来训练自己的模型,已成为一种普遍现象。

总的来说,阿里巴巴此次发布的Qwen2.5-Max模型无疑为人工智能领域带来了新的突破和活力。随着技术的不断进步和应用场景的不断拓展,人工智能将在未来发挥更加重要的作用。

更多热门内容