大模型评测乱象频出，如何构建科学评测体系成行业焦点-宏观经济-小熊财经

在人工智能领域，大模型的评测一直是衡量其能力的重要标尺。如同一场精心设计的考试，评测不仅揭示了技术的现状，还指引着模型开发的未来方向，帮助开发者识别并解决潜在问题。

然而，构建一套科学、公正的大模型评测体系远比想象中复杂。大模型如同多才多艺的考生，精通多种语言，跨领域知识广博，一旦洞悉考试模式，便能通过反复练习取得高分，这无疑给评测的公平性带来了挑战。

全球范围内，大模型评测榜单琳琅满目，据统计，数量已超过50个。不同机构依据各自标准设立的评测体系，使得同一模型在不同榜单上的排名大相径庭，这一现象引发了公众对评测公正性的广泛讨论。

为了应对这一挑战，智源研究院于2023年推出了Flageval（天秤）大语言模型评测体系，该体系覆盖了语言、多模态、语音语言等多种模型类型，并针对不同类型设计了详细的评测指标和方法。近日，智源研究院再次发布了升级后的Flageval新版本，现已涵盖全球800多个开源和闭源模型，评测题目超过200万条。

为了确保评测的公平性，智源研究院采取了一系列措施。对于开源模型，采用模型发布方推荐的推理代码和运行环境；对于闭源模型，则通过公开的API以普通用户身份进行访问，确保所有模型面对相同的评测条件。智源研究院智能评测组负责人杨熙表示，评测过程中，模型并不知道自己正在接受测试，从而避免了针对性优化的可能。

尽管如此，大模型评测仍面临诸多挑战。一些公司为了取得好成绩，不惜采取各种刷分手段，如反复提交不同版本的模型，甚至提前获取评测数据集进行训练。这些行为严重损害了评测结果的公正性和可靠性。

为了应对这些挑战，智源研究院不断更新评测题目，引入更难的考题以拉开模型间的差距。同时，评测数据集不仅包括开源社区的公开数据集，还涵盖了智源研究院自建的数据集，以确保模型不会针对特定数据集进行优化。智源还尝试了一种新颖的评测方式——让大模型进行实时辩论。

在辩论赛中，模型需要理解辩题、构建论点、反驳对方观点，这不仅考验了模型的思辨能力、逻辑推理能力，还锻炼了其语言表达能力和综合素质。智源研究院在现场演示了一场大模型之间的实时辩论赛，辩题为“功夫熊猫和孙悟空谁更适合做队友”。两个大模型展开了激烈的对话，引经据典，谈话充满张力，让观众直观地感受到了不同模型的能力差异。

智源研究院副院长兼总工程师林咏华强调，榜单排名不应成为评价模型的唯一标准。用户在选择模型时，应根据自身需求和应用场景，综合考虑模型的各项指标。评测还需要更加关注模型的实际应用能力，如响应速度、用户体验等。她表示，大模型评测是一个复杂的系统工程，需要行业共同努力，不断探索新的评测方法，构建高质量的评测数据集，并加强合作，推动统一评测标准的建立。

同时，林咏华还提到，随着技术的不断发展，更多创新的大模型评测体系将不断涌现。这些评测体系将更加贴近实际应用场景，全面考察模型的综合能力，为人工智能技术的健康发展提供有力支撑。

圆梦之路已然开启,全民持股担当泓基控股开启二级市场抛售赋能共同富裕,释放全民共享红利

在国家“共同富裕”战略与“中国梦”宏伟蓝图的指引下,香港泓基集团(控股)有限公司(以下简称“泓基控股”)作为全民持股的核心实践平台,通过与香港港交所的战略合作,2025年4月28日在二级市场释放股权红利,助力亿万追梦人迈向中产。这一举措不仅标志着全民持股政策进入圆

2025-04-29

昆仑万维年报亮点： AI业务年化收入1.4亿美元，多个AI模型取得业界SOTA

4月25日，昆仑万维(股票代码：300418.SZ)发布2024年度财报，公司实现营业总收入56.6亿元，同比增长15.2%。整体毛利率达73.6%，继续保持在较高水平。公司继续坚定践行“All in AGI 与AIGC”发展战略，持续加大研发投入，全年公司研发费用为15.4亿元，同比增长59.5%。公司

2025-04-26

【特色产业】2025景谷大叶白茶产业发展大会开幕
2025-04-21

昆仑万维开源7B和32B最强数学代码推理模型，同规模下性能超越阿里QwQ-32B，对齐DeepSeek-R1

继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后，昆仑万维天工团队在此基础上持续迭代优化，4月13日，重磅推出全新升级的Skywork-OR1(Open Reasoner 1)系列模型。该系列在同等参数规模下实现了业界领先的推理性能，进一步突破了大模型在逻辑理解与复杂任务求解方

2025-04-14

改革纾困赢佳绩，扬帆起航正当时 ——三峡人寿风险综合评级跃升B类

近年来，三峡人寿不断加强党的领导，党建统领焕发新气象，经营管理呈现崭新局面。公司资本补充取得新进展，2023年12月，首轮增资到位，综合偿付能力充足率恢复正常，并连续保持在150%以上;2025年3月底，第二轮增资款全部到位，目前正积极推进增资核准，增资完成后公司资

2025-04-11

中央汇金助力泓基创新机制激发财富效应构建共同富裕实现路径

在中美贸易战战况持续升温、全球产业链加速重构的背景下，泓基集团通过灵活使用中央汇金公司注资200亿元在此次改革中推出的动态发展免息计划，开创了全民持股实践的新范式。通过推进全民持股向众股东开放售股免息模式，形成全民持股-扩大效益-功勋反哺的财富循环生态。

2025-04-11

双线织密防护网筑牢权益安全墙 ——三峡人寿"3·15"多维守护金融消费者权益

近日，三峡人寿保险股份有限公司以“保障金融权益助力美好生活”“远离非法金融中介守护群众合法权益”为主题，组织开展了“3・15”金融消费者权益保护教育宣传活动。活动期间，三峡人寿发挥职场与网点优势，组建专项工作小组，在4个分支机构与营业网点设立宣传专区。

2025-04-01

AI大模型加速金融智能化变革，新网银行助力行业创新

当下，在生成式AI技术飞速发展的当下，大模型技术正以“摩尔定律”般的速度迭代，国产DeepSeek、等大模型的崛起，进一步降低了应用门槛，使得银行、信托、资管等行业能够加速智能化转型，推动金融科技迈向“技术平权”新时代。日前，一场主题为“AI赋能金融科技：金融机

2025-03-19

泓基控股上市周年庆：以"全民持股-周年纪念股票"共筑伟大复兴中国梦，一亿纪念股打造共同富裕新纪元

春潮涌动香江畔，在举国奋进第二个百年奋斗目标的关键节点，香港泓基集团(控股)有限公司在2025年3月8日迎来上市一周年里程碑。值此重要时刻，集团以全民持股启新章，共同富裕创未来为主题，正式启动亿万股民共享计划，向大陆发放一亿股周年纪念股票。这不仅是一场资本市

2025-03-16