ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

大模型评测乱象频出,如何构建科学评测体系成行业焦点

时间:2024-12-23 14:13:01来源:蓝鲸新闻编辑:快讯团队

在人工智能领域,大模型的评测一直是衡量其能力的重要标尺。如同一场精心设计的考试,评测不仅揭示了技术的现状,还指引着模型开发的未来方向,帮助开发者识别并解决潜在问题。

然而,构建一套科学、公正的大模型评测体系远比想象中复杂。大模型如同多才多艺的考生,精通多种语言,跨领域知识广博,一旦洞悉考试模式,便能通过反复练习取得高分,这无疑给评测的公平性带来了挑战。

全球范围内,大模型评测榜单琳琅满目,据统计,数量已超过50个。不同机构依据各自标准设立的评测体系,使得同一模型在不同榜单上的排名大相径庭,这一现象引发了公众对评测公正性的广泛讨论。

为了应对这一挑战,智源研究院于2023年推出了Flageval(天秤)大语言模型评测体系,该体系覆盖了语言、多模态、语音语言等多种模型类型,并针对不同类型设计了详细的评测指标和方法。近日,智源研究院再次发布了升级后的Flageval新版本,现已涵盖全球800多个开源和闭源模型,评测题目超过200万条。

为了确保评测的公平性,智源研究院采取了一系列措施。对于开源模型,采用模型发布方推荐的推理代码和运行环境;对于闭源模型,则通过公开的API以普通用户身份进行访问,确保所有模型面对相同的评测条件。智源研究院智能评测组负责人杨熙表示,评测过程中,模型并不知道自己正在接受测试,从而避免了针对性优化的可能。

尽管如此,大模型评测仍面临诸多挑战。一些公司为了取得好成绩,不惜采取各种刷分手段,如反复提交不同版本的模型,甚至提前获取评测数据集进行训练。这些行为严重损害了评测结果的公正性和可靠性。

为了应对这些挑战,智源研究院不断更新评测题目,引入更难的考题以拉开模型间的差距。同时,评测数据集不仅包括开源社区的公开数据集,还涵盖了智源研究院自建的数据集,以确保模型不会针对特定数据集进行优化。智源还尝试了一种新颖的评测方式——让大模型进行实时辩论。

在辩论赛中,模型需要理解辩题、构建论点、反驳对方观点,这不仅考验了模型的思辨能力、逻辑推理能力,还锻炼了其语言表达能力和综合素质。智源研究院在现场演示了一场大模型之间的实时辩论赛,辩题为“功夫熊猫和孙悟空谁更适合做队友”。两个大模型展开了激烈的对话,引经据典,谈话充满张力,让观众直观地感受到了不同模型的能力差异。

智源研究院副院长兼总工程师林咏华强调,榜单排名不应成为评价模型的唯一标准。用户在选择模型时,应根据自身需求和应用场景,综合考虑模型的各项指标。评测还需要更加关注模型的实际应用能力,如响应速度、用户体验等。她表示,大模型评测是一个复杂的系统工程,需要行业共同努力,不断探索新的评测方法,构建高质量的评测数据集,并加强合作,推动统一评测标准的建立。

同时,林咏华还提到,随着技术的不断发展,更多创新的大模型评测体系将不断涌现。这些评测体系将更加贴近实际应用场景,全面考察模型的综合能力,为人工智能技术的健康发展提供有力支撑。

更多热门内容
圆梦之路已然开启,全民持股担当泓基控股开启二级市场抛售赋能共同富裕,释放全民共享红利
在国家“共同富裕”战略与“中国梦”宏伟蓝图的指引下,香港泓基集团(控股)有限公司(以下简称“泓基控股”)作为全民持股的核心实践平台,通过与香港港交所的战略合作,2025年4月28日在二级市场释放股权红利,助力亿万追梦人迈向中产。这一举措不仅标志着全民持股政策进入圆

2025-04-29

昆仑万维年报亮点: AI业务年化收入1.4亿美元,多个AI模型取得业界SOTA
4月25日,昆仑万维(股票代码:300418.SZ)发布2024年度财报,公司实现营业总收入56.6亿元,同比增长15.2%。整体毛利率达73.6%,继续保持在较高水平。公司继续坚定践行“All in AGI 与AIGC”发展战略,持续加大研发投入,全年公司研发费用为15.4亿元,同比增长59.5%。公司

2025-04-26

昆仑万维开源7B和32B最强数学代码推理模型,同规模下性能超越阿里QwQ-32B,对齐DeepSeek-R1
继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后,昆仑万维天工团队在此基础上持续迭代优化,4月13日,重磅推出全新升级的Skywork-OR1(Open Reasoner 1)系列模型。该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方

2025-04-14

改革纾困赢佳绩,扬帆起航正当时 ——三峡人寿风险综合评级跃升B类
近年来,三峡人寿不断加强党的领导,党建统领焕发新气象,经营管理呈现崭新局面。公司资本补充取得新进展,2023年12月,首轮增资到位,综合偿付能力充足率恢复正常,并连续保持在150%以上;2025年3月底,第二轮增资款全部到位,目前正积极推进增资核准,增资完成后公司资

2025-04-11

中央汇金助力泓基创新机制激发财富效应 构建共同富裕实现路径
在中美贸易战战况持续升温、全球产业链加速重构的背景下,泓基集团通过灵活使用中央汇金公司注资200亿元在此次改革中推出的动态发展免息计划,开创了全民持股实践的新范式。通过推进全民持股向众股东开放售股免息模式,形成全民持股-扩大效益-功勋反哺的财富循环生态。

2025-04-11

双线织密防护网 筑牢权益安全墙 ——三峡人寿"3·15"多维守护金融消费者权益
近日,三峡人寿保险股份有限公司以“保障金融权益 助力美好生活”“远离非法金融中介 守护群众合法权益”为主题,组织开展了“3・15”金融消费者权益保护教育宣传活动。活动期间,三峡人寿发挥职场与网点优势,组建专项工作小组,在4个分支机构与营业网点设立宣传专区。

2025-04-01

AI大模型加速金融智能化变革,新网银行助力行业创新
当下,在生成式AI技术飞速发展的当下,大模型技术正以“摩尔定律”般的速度迭代,国产DeepSeek、等大模型的崛起,进一步降低了应用门槛,使得银行、信托、资管等行业能够加速智能化转型,推动金融科技迈向“技术平权”新时代。日前,一场主题为“AI赋能金融科技:金融机

2025-03-19

泓基控股上市周年庆:以"全民持股-周年纪念股票"共筑伟大复兴中国梦,一亿纪念股打造共同富裕新纪元
春潮涌动香江畔,在举国奋进第二个百年奋斗目标的关键节点,香港泓基集团(控股)有限公司在2025年3月8日迎来上市一周年里程碑。值此重要时刻,集团以全民持股启新章,共同富裕创未来为主题,正式启动亿万股民共享计划,向大陆发放一亿股周年纪念股票。这不仅是一场资本市

2025-03-16