在评估大型语言模型实力的赛道上,评测成为了衡量其能力的重要标尺。这不仅仅是一场对模型的考验,更是对技术现状与潜力的深度洞察,同时有助于揭示模型存在的问题,为开发者提供改进方向。
理论上,一套科学的大模型评测体系能够清晰地揭示国内外模型间的差距。然而,实际操作远比理想复杂。如果将评测比作一场考试,那么考生——即大型语言模型,不仅精通多语言,还具备跨领域的丰富知识。更重要的是,一旦它们熟悉了考试模式,便可能通过“刷分”策略取得高分。
面对全球范围内琳琅满目的评测榜单,据统计,数量不少于50个,且由不同机构制定,评测标准各异。这导致了一个现象:某些模型在某些榜单上名列前茅,但在其他榜单上却表现平平。评测的公信力因此受到质疑,人们开始质疑其公平性与可靠性。
为了构建一个更加科学、更具公信力的评测体系,我们与智源研究院进行了深入交流。作为国内最早探索大模型评测的机构,智源研究院于2023年推出了Flageval(天秤)大语言模型评测体系,涵盖了语言、多模态、语音语言等多种类型,并设计了相应的评测指标和方法。今年12月,智源再次发布了迭代后的新版本,目前Flageval已覆盖全球800多个开闭源模型,评测题目超过200万条。
为了确保评测的公平性,智源研究院采取了一系列措施。对于开源模型,采用模型发布方推荐的推理代码和运行环境;对于闭源模型,智源通过公开的API,以普通用户的角度使用大模型,确保所有模型面对相同的题目和访问方式。为了避免“刷分”现象,智源引入了更难的考题,以拉开模型间的差距,并使用了包括自建数据集在内的多样化评测数据集,防止模型针对特定数据集进行优化。
除了传统的评测方法,智源还尝试了一种新颖的方式——让大模型进行辩论。这种评测方法要求模型理解辩题、构建论点、反驳对方观点,从而全面考察模型的思辨能力、逻辑推理能力和语言表达能力。在智源现场演示的一场实时辩论赛中,两个大模型围绕“功夫熊猫和孙悟空谁更适合做队友?”这一辩题展开了三轮激烈对话,不仅反驳有力,还能引经据典,让观众直观地感受到了不同模型的能力差异。
智源研究院副院长兼总工程师林咏华表示,榜单排名不应作为评价模型的唯一标准。用户在选择模型时,应根据自身需求和应用场景,综合考虑模型的各项指标。评测应更加关注模型的实际应用能力,例如响应速度、用户体验等,以确保评测结果能够真实反映模型在实际应用中的表现。
随着技术的不断发展,创新的大模型评测体系也在不断演进。但无论如何变化,评测的核心目标始终是促进大模型技术的健康发展。为此,需要行业共同努力,不断探索新的评测方法,构建高质量的评测数据集,并加强合作,推动统一评测标准的建立。