AI测试 对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

RTE开发者社区 · 2025年07月01日 · 280 次阅读

以下文章来源于 Senturm Okern

在硅谷做语音产品的 Vela 又带了最新的观察和思考!

语音输入产品 Whispr Flow 融资 3000 万美元后,备受行业关注。Vela 今年 2 月也对话了创始人 Tanay。

「用户优先、基于情感,强调互动如何让用户感到愉悦,而不仅仅关注技术性能。」这是 Vela 和 Tanay 对话后写下的一些思考。希望她的文章对你有所启发!

如果说硅谷最近有什么产品能真正给大家带来那种珍贵的 aha moment,语音输入产品 Wispr Flow 就是其中之一。这个产品是我认为第一个能让用户真正感受到语音作为输入界面,产生 aha momen 的产品。尤其是最近看到很多朋友体验后都表示,不用打字之后,能通过自然语言像和人交流一样的方式输入,那种爽感是真实的。

今年二月我和创始人 Tanay Kothari 交流,发现他其实对语音交互和产品设计有很深的思考,会从神经科学和设计哲学的角度去探索更深层的"为什么"。在那次对话之后我也很佩服他,在硅谷这么多技术驱动的创业公司里,像他这样既懂技术又真正关注用户体验、有产品 sense 的创始人并不多。

作为同样在语音赛道的创业者,我个人觉得从硅谷这边来看,语音 AI 还处于技术创新的非常早期阶段。它就像重写所有的 APP 一样,会在交互输入层面重塑现在大多数产品的体验。目前语音 AI 整体创业的进展是先从基础设施层出发,比如 speech-to-text、real-time voice conversation 这些,然后再进入到应用层的产品。

然而,语音这种输入界面的方式对于人们使用产品的习惯影响是慢慢渗透的,在应用产品层正在逐渐出现聚焦各种细分赛道的语音应用。从 OpenAI 的 Advanced Voice Mode 让我们第一次体验到真正的 AI 对话,到 Google 的 NotebookLM 用双人播客重新定义信息消费,再到语音输入的 Wispr Flow、情感陪伴的 Tolan、会议记录的 Granola 等产品在不同场景的探索——语音正在成为一个稳定的接口,扩宽人们与产品交互的物理边界。

前几周,Wispr Flow 宣布完成了 Menlo Ventures 领投的 3000 万美元 A 轮融资,这篇文章分享一下我和 Tanay 聊的一些观点,以及关于语音产品设计的思考。

一、Wispr Flow:比打字快 4 倍的语音输入

Wispr Flow 是一款语音转文字应用,核心功能是让用户在任何应用内都能通过语音进行输入。不管你是在写邮件、发 Slack 消息、写文档,还是和 ChatGPT 对话,都可以用说话代替打字。产品支持 104 种语言,并且会根据不同应用场景自动调整语调和格式。

团队背景

创始人 Tanay Kothari 拥有斯坦福大学计算机科学学士学位,曾在 Andrew Ng 指导下进行 AI 研究。9 岁开始编程,20 岁时创立的第一家公司 FeatherX 在一年内被收购。

联合创始人兼 CTO Sahaj Garg 同样来自斯坦福,曾在 Google Brain 进行 NLP 和机器学习公平性研究,在 Luminous Computing 担任 AI 团队负责人。

产品发展时间线

Wispr AI 成立于 2021 年 8 月,最初想做通过识别无声口型来打字的可穿戴设备。

-2023 年转向软件,开发 Wispr Flow 应用

-2024 年 10 月发布 Mac 版本

-2025 年 3 月推出 Windows 版本

-2025 年 6 月发布 iOS 应用并在 Product Hunt 获得第一名

目前产品的用户增长率达到月环比 50%,收入增长月环比 60%,付费转化率 19%,年收入 380 万美元。据 Tanay 透露,硅谷几乎每一家一线风投基金都在使用 Wispr Flow 处理邮件、备忘录和文档,"他们感到被这个产品吸引住了,这是他们每天都在使用的产品之一",我自己也是产品的日活用户。

有体验过的朋友会更认可这一点,语音输入一旦进入的 flow 其实很难再回到打字状态,这也是为什么我自己和身边做语音产品的朋友一直也越来越相信 “语音作为一种新的产品交互媒介” 的原因。

二、对话 Tanay:深入 Voice AI 的设计哲学

二月份我与 Tanay 进行了一次深度对话,那次交流印象极深,不仅仅是 Wispr Flow 这一产品的设计理念和技术实现,还有很多是彼此同作为语音产品的早期探索者,对于 Voice Interface 语音界面这一全新交互方式的一些思考和共鸣。以下是对话的核心内容:

Vela: Why is the product called "Flow"?

Tanay: The name "Flow" captures the essence of the product's design philosophy—enabling users to enter a natural, uninterrupted rhythm while speaking, listening, and completing tasks. The interface avoids distractions and cognitive overload, allowing users to focus entirely on their interactions without being interrupted by unnecessary visual or technical elements.

Vela:为什么产品叫"Flow"?

Tanay:"Flow"这个名字体现了产品设计理念的精髓——让用户在说话、听取和完成任务时进入一种自然、不中断的节奏。界面避免干扰和认知过载,使用户能够专注于互动,而不被不必要的视觉或技术元素打断。

一些思考:

这里体现的是心理学家 Mihály Csíkszentmihályi 的"心流"理论在产品设计中的具体应用。在我自己构建语音产品的过程中,我深刻体会到"Flow"状态对用户体验的重要性。用户在使用语音输入时,任何界面上的干扰都会打断思维的连贯性。

这一设计理念让我想起了之前分析过的 Suno 的产品哲学——技术的最高境界是让用户感受不到技术的存在。当我们在设计语音界面时,如何在提供必要反馈的同时不打断用户的思维流,这是一个需要精心平衡的设计挑战。

Vela: What is the goal of the voice interface?

Tanay: The voice interface is designed to become an indispensable tool in users' lives by replacing traditional devices like phones and laptops for 90% of daily tasks. The ultimate goal is to build a product that users trust and rely on, with seamless usability, personalization, and natural interactions as its core features. The long-term vision involves creating a dedicated hardware device that integrates the voice interface into users' lives, allowing them to perform tasks like communication, task management, and information retrieval effortlessly through voice commands. This vision emphasizes the shift from screen-based to voice-first interactions, making technology more intuitive and accessible.

Vela:为什么做语音界面?

Tanay:语音界面旨在成为用户生活中不可或缺的工具,通过替代传统设备(如手机和笔记本电脑)完成 90% 的日常任务。最终目标是打造一个用户可以信任和依赖的产品,其核心功能包括无缝的可用性、个性化和自然的交互。长期愿景是创建一个专用的硬件设备,将语音界面无缝集成到用户的生活中,使他们能够通过语音命令轻松完成通信、任务管理和信息检索等任务。从基于屏幕的交互转向语音优先的交互,让技术更加直观和易用。

一些思考:

《Voice-first,闭关做一款语音产品的思考》中提到过,我认为语音正在成为一个较稳定的接口扩宽人们与产品交互的物理边界,而 Tanay 提到的"替代 90% 日常任务"不是简单的功能替换,而是交互方式的重新定义。

语音交互的最大价值在于它解放了用户的手和眼睛,让多任务处理成为可能。但要实现这个愿景,关键在于如何处理语音交互中的错误和模糊性,比如在人们日常说话中有很多话是没有必要的,但又有一些很重要(nuance),所以如果作为一种从听写的交互看,不必要逐字逐句听写,但又要弄明白用户意图、什么是重要的?——这正是 Wispr Flow 通过"零编辑"这一目标要解决的核心问题。

Vela: When talking about voice interface design, all of us are pretty new to this field. What is the product design philosophy when building the flow?

Tanay: The product is designed with a user-first, emotion-based philosophy, emphasizing how interactions make users feel rather than focusing solely on technical performance.

-Emotion-Based Design: The design aims to elicit positive emotions and reduce frustration, creating a delightful and intuitive user experience.

-User-Centric Focus: Moving away from overly technical, developer-oriented designs to prioritize the needs and behaviors of end-users.

-Flow-Oriented Interface: The product ensures a seamless, uninterrupted experience by aligning with how users naturally interact with technology.

For example: - Avoiding real-time text display during speech to reduce cognitive interference (based on neuroscience research). - Displaying text during pauses to help users process information more effectively. - Learning from user corrections to build a personalized dictionary and continuously improve accuracy.

Vela:产品的设计理念是什么?

Tanay:用户优先、基于情感,强调互动如何让用户感到愉悦,而不仅仅关注技术性能。

** 基于情感的设计:** 设计旨在激发积极情绪,减少挫败感,创造令人愉悦且直观的用户体验。** 以用户为中心:** 摒弃过于技术化、面向开发者的设计,优先考虑最终用户的需求和行为。**Flow 流畅界面:** 产品通过与用户自然的技术互动方式相一致,确保无缝、不中断的体验。例如:

-避免在语音过程中实时显示文本,以减少认知干扰(基于神经科学研究)。

-在暂停时显示文本,帮助用户更有效地处理信息。

-从用户的纠正中学习,建立个性化词典并不断提高准确性。

一些思考:

"情感优先设计哲学"这一点值得思考。在我自己构建语音产品的过程中,我发现技术指标和用户体验之间往往存在微妙的平衡。传统的语音识别产品过分关注 WER(词错误率),但用户真正在意的是能否"零编辑"地使用输出结果。

就像当时分析 NotebookLM 时发现的一个重要洞察:最好的 AI 产品不是炫耀技术,而是让技术消失在用户体验中。Wispr Flow 通过基于神经科学的界面时序设计,体现了对用户认知过程的深度理解——这正是我认为语音产品与传统 GUI 产品最大的差异。

Vela: What neuroscience insight influenced the design?

Tanay: Neuroscience research revealed that speaking and reading activate the same brain region responsible for language understanding. This overlap makes it challenging for users to do both simultaneously. To address this, the product avoids displaying real-time text during speech, reducing cognitive interference. Instead, text appears during pauses, aligning with how the brain processes language and allowing users to reflect on their output more effectively.

Vela:神经科学的哪些见解影响了设计?

Tanay:神经科学研究表明,说话和阅读会激活同一个负责语言理解的大脑区域。这种重叠使用户难以同时完成两项任务。为了解决这一问题,产品在语音过程中避免显示实时文本,从而减少认知干扰。相反,文本在暂停时显示,与大脑处理语言的方式保持一致,使用户能够更有效地反思输出内容。

一些思考:

一个启发点,在设计语音界面时,我们往往本能地想要提供实时反馈,比如其他的同类语音输入产品 Aqua、Superwhisper 是这样做的,但 Tanay 提到的这一点值得我们在设计产品时从用户体验而不是技术角度出发来思考问题。

认知负载理论将人脑处理信息的负荷分为三类:内在负载(任务本身的复杂性)、外在负载(呈现方式造成的额外负荷)、以及有效负载(促进学习和理解的负荷)。从认知负载的角度来看,Wispr Flow 通过将复杂的 AI 处理过程完全后台化来优化内在负载,通过精心设计的界面时序来消除外在负载,通过个性化学习来增强有效负载。

Vela: How does personalization work in the product?

Tanay: Personalization is a cornerstone of the product, achieved through advanced modeling that adapts to each user's unique preferences, behaviors, and communication styles. Key elements include:

-Tone and Style Adaptation: The system learns how users communicate in different contexts (e.g., casual with friends, formal with colleagues, warm with family) and adjusts the tone, language, and structure of responses accordingly.

-Emoji and Phrase Integration: It incorporates contextual elements like emojis or specific phrases that align with the user's habits, making interactions feel more natural and human-like.

-Continuous Learning: The system learns from user corrections (e.g., adjusting transcriptions or adding new words to the dictionary) to refine its performance over time.

-Multi-Language Support: Personalization extends across languages, ensuring consistency in tone and style when users switch languages.This level of personalization ensures the product feels intuitive, tailored, and responsive to each individual's needs.

Vela:Wispr Flow 是怎么做语音输入的 “个性化的”?

Tanay:个性化是产品的基石,通过高级建模实现,能够适应每位用户的独特偏好、行为和沟通风格。关键要素包括:

语气和风格调整 :系统会学习用户在不同情境下的沟通方式(例如,与朋友的随意交流、与同事的正式沟通、与家人的温暖交流),并相应地调整语气、语言和回复结构。

表情符号和短语集成 :它会根据用户习惯集成上下文元素,如表情符号或特定短语,使互动更自然、更人性化。

持续学习:系统从用户的纠正中学习(例如,调整转录或添加新词到词典),随着时间推移不断优化性能。

多语言支持 :个性化功能扩展到多种语言,确保用户在切换语言时语气和风格的一致性。

个性化机制其实正是 AI 产品的” 护城河 “,关键在于是否有足够有效的用户信息。Vela: What is the roadmap for flow in terms of voice interface?Tanay:

  1. Perfect Speech-to-Text Functionality: Establishing a highly accurate, reliable foundation for real-time transcription and speech recognition.

  2. Personalization and User-Specific Models: Building sophisticated models that adapt to individual users' preferences, communication styles, and unique vocabularies.

  3. Actions and Workflow Capabilities: Introducing features like smart reminders, email/message automation, and workflow integration to enhance productivity and convenience.

  4. Dedicated Hardware Device: The long-term vision includes creating a wearable device that replaces 90% of phone and laptop usage, allowing users to perform most tasks seamlessly through voice commands.

Vela:怎么看 Flow 发展的产品路线图?

Tanay:

  1. 完善语音转文字功能:建立一个高度准确且可靠的实时转录和语音识别基础。

  2. 个性化和用户特定模型:构建复杂的模型,能够适应每位用户的偏好、沟通风格和独特词汇。

  3. 动作和工作流功能:引入智能提醒、电子邮件/消息自动化和工作流集成功能,提升生产力和便利性。

  4. 专用硬件设备:长期愿景包括创建一个可穿戴设备,替代 90% 的手机和笔记本电脑使用,通过语音命令无缝完成大部分任务。

一些思考:

先在软件层面做到极致,再考虑硬件承载,其实这一路线比他们一开始直接做硬件以及很多做语音硬件产品更为现实。

而 Tanay 提到的第三阶段提到的"动作和工作流功能",是语音产品区别于传统输入工具的关键——从被动的转录变成主动的行动助理。就像 Granola,不仅仅是一个会议听写记笔记工具,它还会在会议开始前提醒你将要到来的回会议,并在会议结束后为你撰写一封必要的邮件。

Get things done.

同时,值得一提的是,在新功能正式发布前, Flow 团队首先会在内部进行大量的 Beta 测试。这使团队能够观察实际使用情况,识别问题,并根据反馈对功能进行优化,然后再发布给外部用户。确保新功能以用户为中心、可靠且经过完善。

三、写在最后,关于 AI 产品设计

从 Wispr Flow 可以很好地看出一个关注产品本身、且具有” 产品 Sense“的一个 AI 产品是怎样被创造出来的。而对于 Voice AI Interface 这一全新的交互,对于所有创业者来说都是一种全新的体验的探索。创造 Voice Interface 的思考可以迁移到对 Voice AI 的构建中:

第一,用户体验重于技术指标。 传统的语音识别产品追求准确率,但 Wispr Flow 追求的是"零编辑"的用户体验。这个差异看似微小,实则代表了完全不同的产品哲学。

核心是从用户角度出发,什么是你希望带给用户的一种好的用户体验?很多第一次体验语音输入的朋友都表示,“啊不用打字只需要 blabla 且不用担心说废话真爽”,就像很多第一次体验会议记录产品 Granola 的用户说 “啊,不用再担心录音、丢掉会议信息的感觉真爽”“而自己只需要记录自己觉得核心的东西,其他的事情交给 Granola 很放心”。

第二,相信科学,忠于用户。 Wispr Flow 语音输入背后是基于神经科学研究:人在说话时大脑是怎么运作的?我们是否可以同时说话、倾听、记笔记?然而,优秀的产品也同样极其关注用户,关注产品背后真实的人与用户故事。

第三,个性化(Personization)是 AI 产品的核心竞争力。 在人人都可以用大模型捏一个产品的时代,真正的护城河不在于模型本身,而在于对用户的深度理解、用户知识沉淀和个性化能力。

我很喜欢 Flow 这款产品,很欣赏 Tanay,就像自己刚来硅谷和 Suno 交流一样,Tanay 也 像极了 Suno 的创始人 Mikey,他们有着及其相似的 vibe, 一样的对做创造产品的热忱、和对于产品设计近乎极致的追求。

在语音 AI 逐渐发展的今天,Wispr Flow 的出现给大家带来的 Voice-First 体验的 Aha moment。正如我在之前的文章中提到的,"语音正在成为一个较稳定的接口扩宽人们与产品交互的物理边界"。

我相信我们正站在一个重要的历史节点。Voice-first 不仅仅是一种技术趋势,更是一种重新定义人机交互与重塑的机会。

对于 Voice- AI,其实一切都才刚刚开始。

黎明破晓,我们都在路上。

Pride Month at Ferry Building, SF, June 28th

更多 Voice Agent 学习笔记:

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册