国产AI新星DeepSeek-V3：低成本高效能，能否引领AI新潮流？-企业动态-小熊财经

近期，一款由中国新兴AI企业DeepSeek研发的开源大模型DeepSeek-V3，在全球范围内引起了广泛关注。这款模型不仅性能卓越，而且训练成本相对较低，给业界带来了不小的震动。

据悉，DeepSeek-V3的技术论文详细披露了该模型的研发历程。与上一代相比，其参数规模从2360亿大幅提升至6710亿，并在14.8T tokens的数据集上进行了预训练，上下文长度更是达到了128K。这一系列的升级，使得DeepSeek-V3在多个主流评测基准上表现出色，性能媲美甚至超越了GPT-4o和Claude-3.5-Sonnet等领先的闭源模型。

DeepSeek-V3的出色表现，也吸引了众多AI领域的大咖关注。其中包括阿里前副总裁贾扬清、metaAI科学家田渊栋、英伟达高级研究科学家Jim Fan等。这些专家对DeepSeek-V3给予了高度评价，甚至有网友将其誉为“全球最佳开源大模型”，并预测它将加速AGI（通用人工智能）的实现。

值得注意的是，DeepSeek-V3的训练成本相对较低，是其受到广泛关注的重要原因之一。据透露，该模型仅使用了2000多张GPU，训练成本不到600万美元，远低于OpenAI、meta等在万卡规模上训练的模型成本。这种成本效益比，让DeepSeek-V3在业界独树一帜。

在知识能力方面，DeepSeek-V3同样表现出色。在MMLU-Pro和GPQA-Diamond等基准测试中，它超越了阿里、meta等所有开源模型，并接近GPT-4o的水平，尽管略逊于Claude-3.5-Sonnet。而在数学、代码和推理能力方面，DeepSeek-V3更是展现出了强大的实力。在MATH500、AIME2024及Codeforces等多个主流基准测试中，它不仅碾压了阿里和meta的最新开源模型，还超越了GPT-4o和Claude-3.5-Sonnet，成为业界的新标杆。

然而，DeepSeek-V3也并非完美无缺。它在某些方面还存在局限性。例如，在英文能力方面，它还落后于GPT-4o和Claude-Sonnet-3.5。同时，该模型的部署要求较高，对小型团队不太友好。其生成速度也有待进一步提升。不过，DeepSeek在论文中表示，随着更先进硬件的开发，这些局限性有望在未来得到解决。

尽管存在这些局限性，但DeepSeek-V3的出现无疑为AI领域带来了新的活力和希望。它展示了中国在AI技术研发方面的实力和潜力，也为其他国家和地区提供了宝贵的借鉴和启示。未来，我们期待DeepSeek-V3能够不断完善和提升自己，为AI领域的发展做出更大的贡献。