斯坦福天才少年创立AI公司，语音模型Sonic-3获英伟达等1亿美元B轮融资-信息流-贝尔财经

语音AI领域又迎来一则重磅消息：来自硅谷的初创公司Cartesia正式发布新一代语音模型Sonic-3，同时宣布完成1亿美元B轮融资，英伟达等知名投资机构参与其中。这家由斯坦福AI实验室核心成员创立的公司，正以独特的技术路线和惊人的发展速度，在语音AI赛道掀起新的浪潮。

与传统语音AI依赖Transformer架构不同，Sonic-3基于状态空间模型（SSM）构建。这种架构模拟人类大脑的持续感知能力，无需反复回溯对话历史，使模型在多轮对话中保持流畅自然。测试数据显示，Sonic-3的模型延迟仅90毫秒，端到端响应时间190毫秒，达到行业领先水平。更令人惊叹的是，该模型能精准捕捉语言中的情感波动，无论是笑声、语气起伏还是微妙情感变化，都能以接近真人的方式呈现。

公司创始人Karan Goel的履历堪称传奇。这位印度裔天才少年出身科研世家，本科就读于印度理工学院德里分校，硕士毕业于卡内基梅隆大学计算机科学学院，并获得Siebel Scholar奖学金。在斯坦福AI实验室攻读博士期间，他师从AI领域教父级人物Chris Ré，与团队共同研发出Mamba架构，为SSM的商业化应用奠定基础。2022年，Karan与实验室同门创立Cartesia，将学术研究成果直接转化为产品，这种"学术变现"模式在硅谷引发关注。

公司核心团队堪称"学霸天团"：首席科学家Albert Gu是华裔学者，Mamba架构共同发明人之一；其他成员均来自斯坦福AI实验室，形成强大的技术壁垒。这种学术派班底使Cartesia在成立初期就展现出惊人发展速度：2023年推出首款语音模型Sonic，同年完成种子轮融资；2024年3月发布支持语音克隆的Sonic-2.0并完成6400万美元A轮融资；如今B轮融资后估值已达数亿美元。

英伟达的参与尤为引人注目。作为AI基础设施领域的领导者，英伟达的投资不仅带来资金支持，更意味着Cartesia的技术路线获得行业认可。分析人士指出，SSM架构在处理长序列数据时具有显著优势，特别适合语音交互、实时翻译等场景，可能成为下一代AI模型的重要方向。

国内市场同样竞争激烈。就在Cartesia发布新模型当天，MiniMax推出语音模型MiniMax Speech 2.6，主打"快速响应"与"多语言支持"。该模型响应延迟压缩至250毫秒以内，支持40余种语言及所有口音，并能准确识别网址、邮箱、金额等非标准文本。这意味着即使用户带着浓重口音快速报出复杂信息，模型也能精准理解并回应。

随着技术不断突破，语音AI的商业化路径逐渐清晰。从智能客服到虚拟主播，从实时翻译到无障碍沟通，语音模型正在渗透各个领域。有行业报告显示，语音交互市场的年复合增长率超过30%，成为大模型领域最早实现盈利的赛道之一。这场由学术精英发起的语音革命，正在重新定义人机交互的边界。