
在语音交互的赛道上,技术突破与资本押注往往相伴而生。红杉资本的最新动作——投资 Sesame AI信康优配,不仅是一次商业选择,更是对下一代人机交互方式的前瞻性下注。这背后,语音技术如何从工具走向生态,值得我们深入探讨。

AI 发展这么快,我们已经习惯了在屏幕上打字问问题。但有家公司正在改变这种习惯,它希望我们重新用“说话”去跟 AI 交互。
这家公司叫Seasome。它不是做聊天机器人的,而是在打造一个“能说话、有性格、像人一样回应你的 AI 伙伴”。
你不用再输入指令,只需要开口对它说话。它会用自然的语气回应你、提出问题、甚至打趣你,像一个真正的朋友。
01 Seasome 是什么?怎么用?如果说 ChatGPT 是“文本界面”,那 Seasome 就是“语音界面”。
你和它对话时,不需要任何打字、按钮、或脚本。只要开口,它就能理解上下文、判断语气、并实时生成回应。
今年2月,他们在官网上线了两位虚拟角色:Maya 和 Miles。

这两个声音角色一上线就火了,短短几周内,超过100 万人参与对话,总时长突破500 万分钟。
用户的评价很统一:它听起来不像机器,更像一个有点个性的人。
和 Siri 或 ChatGPT Voice 不同,Seasome 的声音不是文字转语音的播报,而是直接在语音层面生成内容,包括语气、停顿、呼吸、笑声,甚至偶尔的犹豫。
那种“人味儿”,是目前任何语音助手都没有的。
同时,Seasome 的创始人阵容相当豪华:
Brendan Iribe,Oculus VR 的联合创始人、前 CEO(就是被 Facebook 以20亿美元收购的那家公司);
Ankit Kumar信康优配,前 Ubiquity6 CTO,一家做“增强现实社交”的公司。
公司今年完成了2.5亿美元的B轮融资,由红杉资本领投,团队成员来自 Oculus、Google DeepMind、Adobe 等顶尖机构。
Seasome 的核心突破点在于语音生成方式完全不同。
传统语音助手的流程是:
模型生成文字 → 再转成语音 → 机器读出来。
Seasome 改成了:
AI 直接在语音层面生成思维。
也就是说,它不是“把答案念出来”,而是“用声音思考”。
这让它能自然地加入情绪变化,比如语速的停顿、呼吸的节奏、情绪的轻重。
这背后是他们自研的Expressive Speech Generation 模型,专门为“语音优先”训练,重点不是理解,而是如何让 AI 听起来可信。
同时,他们正在开发一款轻量级AI 智能眼镜,内置麦克风、扬声器和本地算力。
用户可以边走路边和 AI 对话,无需拿出手机。
红杉在投资文里提到一句话很有意思:
“这些眼镜时尚到,就算没有 AI 功能,你也会想戴着它。”
他们的逻辑很清晰:语音要成为主界面,必须从软件走向硬件。
过去十年,我们和机器的关系是“低头打字”:ChatGPT、Claude、Copilot,几乎所有 AI 工具都停留在文字层面。
但文字交互有天然的瓶颈:慢、缺乏情绪、不自然。
而语音,才是人类最自然的接口。
语音包含语气、信任感、情绪温度,当 AI 能“听懂你的呼吸”和“语气里的情绪”,协作体验就会被彻底重写。
这就是为什么从2024年开始,语音 AI 正在成为新战场:
OpenAI 推出了GPT-4o Voice;语音创业公司Hume、Suno、ElevenLabs都在做情绪语音生成;而 Seasome 走得更远,它在语音层直接构建人格和互动。从宏观趋势看,这是一场从文本操作系统(text OS)向语音操作系统(voice OS)的迁移。
每一次输入方式的变化,都会诞生一个新的巨头:键盘诞生了微软,触屏诞生了苹果,而语音,很可能诞生下一个“AI iPhone”。
Seasome 当前仍以测试为主,首款 iOS 应用正在内测阶段(可在官网sesame.com申请)。
他们的路径和当年的 Oculus 很像:先用情感体验吸引早期用户,再以硬件设备切入更广泛的日常场景。
这家公司很可能成为陪伴型 AI 赛道的核心玩家,而这条赛道在全球市场的年复合增长率预计超过40%。
以上,祝你今天开心。
作者:张艾拉 公众号:Fun AI Everyday
本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可信康优配,禁止转载
富深所配资提示:文章来自网络,不代表本站观点。