语音AI领域又迎来一则重磅消息:来自硅谷的初创公司Cartesia正式发布新一代语音模型Sonic-3,同时宣布完成1亿美元B轮融资,英伟达等知名投资机构参与其中。这家由斯坦福AI实验室核心成员创立的公司,正以独特的技术路线和惊人的发展速度,在语音AI赛道掀起新的浪潮。
与传统语音AI依赖Transformer架构不同,Sonic-3基于状态空间模型(SSM)构建。这种架构模拟人类大脑的持续感知能力,无需反复回溯对话历史,使模型在多轮对话中保持流畅自然。测试数据显示,Sonic-3的模型延迟仅90毫秒,端到端响应时间190毫秒,达到行业领先水平。更令人惊叹的是,该模型能精准捕捉语言中的情感波动,无论是笑声、语气起伏还是微妙情感变化,都能以接近真人的方式呈现。
公司创始人Karan Goel的履历堪称传奇。这位印度裔天才少年出身科研世家,本科就读于印度理工学院德里分校,硕士毕业于卡内基梅隆大学计算机科学学院,并获得Siebel Scholar奖学金。在斯坦福AI实验室攻读博士期间,他师从AI领域教父级人物Chris Ré,与团队共同研发出Mamba架构,为SSM的商业化应用奠定基础。2022年,Karan与实验室同门创立Cartesia,将学术研究成果直接转化为产品,这种"学术变现"模式在硅谷引发关注。
公司核心团队堪称"学霸天团":首席科学家Albert Gu是华裔学者,Mamba架构共同发明人之一;其他成员均来自斯坦福AI实验室,形成强大的技术壁垒。这种学术派班底使Cartesia在成立初期就展现出惊人发展速度:2023年推出首款语音模型Sonic,同年完成种子轮融资;2024年3月发布支持语音克隆的Sonic-2.0并完成6400万美元A轮融资;如今B轮融资后估值已达数亿美元。
英伟达的参与尤为引人注目。作为AI基础设施领域的领导者,英伟达的投资不仅带来资金支持,更意味着Cartesia的技术路线获得行业认可。分析人士指出,SSM架构在处理长序列数据时具有显著优势,特别适合语音交互、实时翻译等场景,可能成为下一代AI模型的重要方向。
国内市场同样竞争激烈。就在Cartesia发布新模型当天,MiniMax推出语音模型MiniMax Speech 2.6,主打"快速响应"与"多语言支持"。该模型响应延迟压缩至250毫秒以内,支持40余种语言及所有口音,并能准确识别网址、邮箱、金额等非标准文本。这意味着即使用户带着浓重口音快速报出复杂信息,模型也能精准理解并回应。
随着技术不断突破,语音AI的商业化路径逐渐清晰。从智能客服到虚拟主播,从实时翻译到无障碍沟通,语音模型正在渗透各个领域。有行业报告显示,语音交互市场的年复合增长率超过30%,成为大模型领域最早实现盈利的赛道之一。这场由学术精英发起的语音革命,正在重新定义人机交互的边界。