Retell.ai 的 5 位联创。(图:maginative.com)
Retell AI 提供一个平台,用于构建和部署可进行自然、类人对话的 AI voice agent,赋能呼叫中心,替代或辅助人工座席。
Retell AI 起初为构建 voice agent 产品的开发者提供 API,现已将重点转向为中型企业提供完整的 AI 呼叫中心解决方案。
Retell AI 的联合创始人兼 CEO Bing Wu 曾在字节跳动(TikTok 母公司)工作三年,领导开发了触达数十亿用户的 B2B 和消费者产品。大学期间,他创立了两家获得投资的初创公司,并创造了六位数的收入。
近期,Bing Wu 作为嘉宾参与了播客 Voice AI Newsletter 的录制。在这次对话中,他分享了创立 Retell AI 的过程,以及转型 AI 呼叫中心服务后的心得,我们摘录了部分精彩内容,希望能给大家提供这一领域的一些新视角。
主播: Davit Baghdasaryan,Krisp 联合创始人兼 CEO
嘉宾: Bing Wu, Retell AI 联合创始人兼 CEO
注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。
预测话轮转换:理解人类对话的语义和语气
Davit Baghdasaryan: 欢迎收听语音 AI 播客!今天的嘉宾是 Retell AI 的联合创始人兼 CEO Bing Wu。
我在 Hacker News 上看到 Retell 发布的消息就一直关注你们了。根据我从 ChatGPT 收集的信息,Retell AI 提供了一个平台,用于构建和部署能够进行自然、类人对话的 AI 语音智能体。这些智能体可以处理预约安排、客户服务和线索鉴定等任务。该平台提供低延迟响应、流畅的话轮转换,并与各种电话服务集成。我的理解准确吗?
Bing Wu: 非常准确。
Davit Baghdasaryan: 太棒了。语音 AI 智能体是一个充满挑战的领域,而你们正走在前沿。能跟我们聊聊你的创业故事吗?为什么选择专注于这个领域?你们二月份发布产品后又发生了什么?目前技术进展如何?
Bing Wu: 一切始于去年十一月。我们最初在开发直播配音软件,目标用户是希望触及英语受众的国际主播,特别是中文主播。他们当时主要使用手写标语和简单的英语进行产品销售,但由于直播的兴起,销售额依然很高。我们开发了这款软件,但它有七秒的延迟,严重影响了用户体验。
后来,我们收到了用户关于 AI 语音生成的反馈。这促使我们转向直接研发语音 AI。集成大规模语言模型(LLM)、文本转语音(TTS)和语音转文本(STT)技术极具挑战性,尤其是话轮转换和延迟方面。我们在二月份推出的第一个产品是一个 API,让 LLM 能够「开口说话」。 我们解决了延迟问题,并开发了一个专有的话轮转换模型,可以预测用户话语的结束,从而实现近乎实时的响应。
Davit Baghdasaryan: 我记得 Retell 在话轮转换方面有一种先进的方法。你能解释一下为什么检测话轮转换如此困难吗?
Bing Wu: 传统的唤醒词(例如「嘿,Alexa」)或按键说话等方法并不自然。人类是通过理解语义和对话语气来预测话轮转换的。我们复制了这种机制,使用语义和音频信号在 100-200 毫秒内准确预测轮转结束。
Davit Baghdasaryan: 如果话轮转换处理不好会发生什么?
Bing Wu: AI 要么会不断打断用户,要么反应迟钝。两种情况都不理想。 人们在思考过程中会有停顿,AI 需要识别这些停顿。 即使是 GPT 的实时 API 也难以解决这个问题,经常在用户说到一半时打断他们。
Davit Baghdasaryan: 现在很多演示都展示了令人印象深刻的语音转文本、LLM 和 TTS 流水线。有些回应速度快得有些不自然。这些演示的真实性如何?话轮转换问题真的解决了吗?
Bing Wu: 基本解决了,而且还在不断改进。 真正的语音到语音模型可能会将话轮转换直接集成到 LLM 中。 然而,即使是部分功能的演示也可能具有误导性。
从开发者工具到企业呼叫中心解决方案
Davit Baghdasaryan: 你们现在的主要用例是什么?自二月份以来,这些用例是如何演变的?
Bing Wu: 最初,我们的 API 主要面向构建语音 AI 产品的开发者。在我们的 YC 孵化批次中,有七家公司用它来开发 AI 治疗师、语言学习教练等等。从那以后,我们认识到语音到语音模型的巨大潜力,于是转向为中端市场企业构建 AI 电话呼叫中心平台。我们正在帮助拥有 100-500 名座席的公司大幅减少人员配置并提高效率。像热转接这样的关键功能,即在座席交接过程中传递上下文,至关重要。
Davit Baghdasaryan: 所以,你们现在的重点是呼叫中心?
Bing Wu: 是的,作为对现有人工呼叫中心的替代或补充。
Davit Baghdasaryan: 你们提供完整的呼叫中心解决方案,还是与现有解决方案集成?
Bing Wu: 我们的愿景是提供一个端到端的解决方案,类似于与业务流程外包(BPO)服务商的接口。 用户提供培训材料、常见问题解答、公司信息、CRM 访问权限和知识库。AI 智能体学习并迭代,并提供绩效报告。您可以把它想象成一个 AI BPO。
Davit Baghdasaryan: 电话集成方面呢?
Bing Wu: 虽然针对座席监控和评估的 AI 原生解决方案正在兴起,但与现有电话系统的集成仍然至关重要。 我们提供 SIP 中继以兼容现有的 VoIP 系统,从而实现 AI 和人工座席之间的无缝协作。
Davit Baghdasaryan: 与客户环境的深度集成至关重要。这与 CRM 和其他后台应用程序是如何工作的?
Bing Wu: CRM 集成非常关键。 我们的目标是与 Salesforce 等流行 CRM 进行本地集成。 我们使用动态变量根据 CRM 数据个性化对话。呼叫结束后,我们从对话记录中提取结构化数据以更新 CRM,尽管这个过程还需要进一步简化。
Davit Baghdasaryan: 那么与自定义后台应用程序集成呢?这需要自定义代码吗?
Bing Wu: 这取决于具体的用例。对于需要实时数据检索的客户支持场景,目前需要一些自定义代码。但是,像公司知识库这样的静态信息可以轻松上传。
Davit Baghdasaryan: 你们的座席如何处理需要与内部工具和流程进行更深入集成的更复杂请求?
Bing Wu: 我们正在构建高级对话管理工具,例如多管齐下的对话树,以减少 AI 幻觉并处理复杂性。这些工具允许为每个步骤定义操作和短语,并根据结果进行分支。我们也在不断改进知识库集成。
Davit Baghdasaryan: 这已经部署了吗?
Bing Wu: 是的,我们已经有 100 个客户正在使用,但我们仍在努力实现我们的完整愿景。
短期重点是可靠地处理一级/二级复杂度的请求
Davit Baghdasaryan: 在接下来的两到三年里,你认为语音 AI 的未来会是什么样子?基础模型将如何影响你们的能力?你们未来能够处理更复杂层级的请求吗?
Bing Wu: 短期内,重点是可靠地处理一级和二级复杂度的请求,解决 LLM 幻觉问题,保持适当的语气,并维护品牌形象。 仅此一项就可以极大地颠覆离岸 BPO 行业,提供更高的可靠性和一致性。转向更复杂的请求取决于基础模型的进步。
Davit Baghdasaryan: 你们的定价模式是什么?
Bing Wu: 目前,我们是按分钟计费的,基于实际使用量。这使客户可以轻松地将成本与现有的每小时座席费用进行比较。 基于结果的定价可能适用于一些单点解决方案,但我们的目标是满足呼叫中心的更广泛的运营需求。
Davit Baghdasaryan: OpenAI 的 Voice Mode API 大约是每小时 15 美元。这算贵吗?
Bing Wu: 与级联模型相比,它比较贵, 级联模型每分钟的成本约为 0.10-0.12 美元。然而, 语音到语音模型的定价可能会迅速下降。
Davit Baghdasaryan: 所以,你们在接下来的三年里将专注于可靠地处理一级/二级复杂度的请求,而更进一步的进展取决于基础模型的改进?
Bing Wu: 是的,可靠性至关重要,尤其是在 银行业和医疗保健等领域,严格遵守行业规范和指南至关重要。
Davit Baghdasaryan: Bing,非常感谢你分享这些精彩的见解。
Bing Wu: 谢谢你,Davit。
原文:https://voice-ai-newsletter.krisp.ai/p/can-ai-replace-bpos-bing-wu-ceo-and
编译:施苏娜、傅丰元社区
技术顾问:付则宇
更多 Voice Agent 学习笔记:
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
https://mp.weixin.qq.com/s/txGrV9-uqVnmNvxxrOEMFA
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
https://mp.weixin.qq.com/s/P8qmj4Ha2zbM_5cqLmhDDQ
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服
https://mp.weixin.qq.com/s/1Z8TuyqFDkuUMGNbNSiAPw
语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场
https://mp.weixin.qq.com/s/fPcCw7aIUppbLNkR-0PJCQ
下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》
https://mp.weixin.qq.com/s/LNUj3YaOkPXFW10WriRwCA
Voice-first,闭关做一款语音产品的思考|社区来稿
https://mp.weixin.qq.com/s/MArV5cbJ2wKu15YcH3-5hA