AI应用爆发前夜：推理成本骤降，免费时代即将到来？-财经人物-小熊财经

在科技界的一次重要盛会上，关于人工智能未来的讨论如火如荼。近日，在中关村国家自主创新示范区展示中心举办的“万千流变，一如既往”2024甲子引力年终盛典上，PPIO派欧云联合创始人兼CEO、PPTV创始人姚欣分享了他对AI时代的深刻洞察。

姚欣指出，当前大模型虽然推动了智算中心的建设热潮，但面临使用率较低的挑战。同时，需求侧的变化也十分显著，从2023年上半年大模型创业训练的热潮，到后来的逐渐降温，算力结构正在发生深刻转变。他强调，AI应用需求正在经历重大变迁，大模型正从面向VC的炒作阶段走向面向B端的应用落地阶段，未来有望进一步向C端拓展。

姚欣进一步分析，当前制约AI应用爆发的关键因素在于推理成本。他预计，2025至2026年将是AI的转折年。随着AI推理成本每年接近十倍的下降，大量AI应用的收入将足以覆盖所有的推理成本，AI应用有望迎来免费时代。这一预测引起了与会嘉宾的广泛关注和讨论。

姚欣以数据为例，回顾了数字新基建的发展历程。从2015、2016年开始，数字新基建持续发展，每年互联网数据中心的增速保持在30%-50%之间，机架上架数量在300万到1000万之间。然而，这些数据中心的建设在后期面临了使用率较低的挑战。尤其是在贵州、内蒙古等数据中心建设最密集的地区，利用率仅为34%。全国平均来看，机房利用率不到50%，出现了“IDC过剩”现象。

姚欣表示，去年大模型点燃了新一代智算中心的建设。但今年前七个月，全国新建了约140个智算中心，随着未来两年大量投产落地，也必然会面临使用率较低的情况。根据信通院的调研报告，过去两年建设的智算中心整体平均利用率约为30%。超前建设的智算中心可能会面临算力过剩问题，这也是供给侧所面临的挑战。

在需求侧方面，姚欣指出，2023年上半年大模型迎来爆发，业内纷纷投身大模型的创业和训练。然而，进入2024年，大模型热度明显降温，参与大模型预训练的企业数量显著下降。这一变化反映了行业正在从预训练转向后训练，包括微调和推理环节。国内一些公司如Kimi等，已经采用更多推理侧算力，通过新技术进一步提升模型性能和推理效果。

姚欣还提到了OpenAI发布会引发的关注，特别是音视频生成领域的发展。他指出，从文字、图片时代到视频时代的演进带来了巨大的变化。如今，生成一分钟的视频所需的token消耗相当于数万倍文字生成的资源需求，新一代多模态大模型会带来更大的推理消耗。

针对算力需求的变迁，姚欣提出了自己的观察。他认为，AI应用的发展将经历三个阶段：面向VC的炒作阶段、面向B端的应用落地阶段以及面向C端的大规模应用阶段。目前，AI正处于炒作阶段的尾声，开始进入到To B的落地阶段。未来，AI应用将逐步走向To C阶段。

姚欣强调，推理成本的优化是AI应用爆发的关键。他分享了PPIO派欧云在推理成本优化方面的实践。PPIO派欧云作为一家分布式云计算企业，从IaaS基础设施到PaaS平台服务，再到大模型应用服务，进行了端到端的全程观察。他们发现，推理成本的下降主要源自硬件成本的降低、算力调度的优化以及推理加速。

在硬件成本降低方面，PPIO派欧云探索了如何找到更便宜的电力资源和充分利用硬件资源。他们通过“梯次利用”老旧GPU卡，如A100等，在推理任务中保持较高效能，从而降低了硬件成本。在算力调度优化方面，他们通过智能预测和调度需求，实现了资源的高效利用和全局负载平衡。在推理加速方面，他们结合产学研最新成果，将先进技术整合到工程能力和实际使用能力中，实现了推理效率的大幅提升。

姚欣还分享了PPIO派欧云在实际应用中的成果。他们为一家知名小说推文APP提供了模型能力替代服务，使其推理成本降低了70%，生图速度提升了5倍，业务用量和营收在短短一个月内实现了3倍多的增长。同时，他们也将业务扩展到海外市场，帮助全球Top10招聘网站通过大语言模型进行简历筛选和优化，显著减少了人工需求。

姚欣表示，PPIO派欧云将继续致力于分布式云计算的建设和优化，通过高效的资源整合和调度、优化硬件利用率以及提升模型性能和推理加速能力，为客户提供更高性价比的AI服务。他们相信，随着技术的进一步发展，AI应用将迎来爆发式增长，为各行各业带来深刻的变革。

姚欣还提到了PPIO派欧云在全国范围内的广泛布局和合作伙伴网络。他们已经在全国1200多个城市以及亚洲的1300多个城市与本地合作伙伴建立了合作，整合了各类算力资源加入到他们的算力共享平台中。这些合作伙伴为PPIO派欧云提供了丰富的GPU资源和算力支持，共同推动了AI应用的发展。