随着2024年的尾声渐近,全球大模型技术的竞争格局再次成为焦点。近日,智源研究院公布了下半年的大模型综合评测结果,覆盖了超过100个开源与闭源模型,涉及文本、语音、图像和视频等多个领域,为业界提供了一份详尽的技术参考。
此次评测中,智源研究院不仅评估了模型的常规能力,还进一步扩展了任务解决能力的内涵,新增了数据处理、高级编程和工具调用等相关任务。同时,评测首次引入了面向真实金融量化交易场景的应用能力评估,以及基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解和语言表达等核心能力进行了深入分析。
在语言模型方面,尽管针对一般中文场景的开放式问答或生成任务,模型能力已趋于稳定,但在复杂场景任务中,国内头部语言模型与国际一流水平仍存在差距。评测结果显示,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest分别位列第一和第二,阿里巴巴的Qwen-max-0919和字节跳动的Doubao-pro-32k-preview紧随其后,分列第三和第四。
文生图多模态模型方面,相较于今年上半年,参评的头部模型已具备中文文字生成能力,但整体仍存在复杂场景人物变形的情况。针对常识或知识性推理任务,模型在小于3的数量关系任务上有所提升,但大于3的数量关系依然无法处理。评测结果显示,腾讯的Hunyuan Image位列第一,字节跳动的Doubao image v2.1和Ideogram 2.0分居第二和第三。
文生视频多模态模型在画质、动态性和镜头语言等方面均有所提升,但仍存在大幅度动作变形、无法理解物理规律等问题。评测结果显示,快手的可灵1.5(高品质)、字节跳动的即梦P2.0 pro、爱诗科技的PixVerse V3等模型位列前五。
语音语言模型方面,得益于文本大模型的进步,模型能力得到了显著提升,但在具体任务上与专家模型仍存在差距。评测结果显示,阿里巴巴的Qwen2-Audio位居第一,香港中文大学与微软合作的WavLLM、清华大学与字节跳动合作的Salmon分别位列第二和第三。
智源研究院还联合海淀区教师进修学校新编了K12全学段、多学科试卷,以考察大模型与人类学生的能力差异。评测发现,尽管模型在K12学科测验中的综合得分有所提升,但仍与海淀学生的平均水平存在差距,且普遍存在“文强理弱”的情况。
智源研究院还推出了模型辩论平台Flageval Debate,对模型的逻辑推理、观点理解和语言表达等核心能力进行了深入评估。评测发现,大模型在辩论中普遍缺乏框架意识,论据经不起推敲,且更擅长反驳而非阐述观点。
此次评测不仅展示了当前大模型技术的最新进展,也为未来技术的发展提供了重要参考。智源研究院将继续坚守科学、权威、公正、开放的准则,通过技术创新和平台升级,推动大模型技术生态的持续健康发展。