AI测试 对话式 AI workshop:Voice Agent 全球五城开发实录

RTE开发者社区 · 2025年07月04日 · 34 次阅读

过去几个月,TEN Framework 团队与 Agora 和声网围绕 “对话式 AI” 题,踏上了横跨全球五大城市的精彩旅程——东京、旧金山、巴黎、北京、京都。 五场精心筹备的 Workshop 场场爆满, 汇聚了来自当地及全球的开发者、创业者、产品经理与语音技术爱好者。得益于 RTE 开发者社区与全球多地 AI 社区的鼎力支持,我们得以深入探讨 Voice Agent 的前沿趋势、真实应用场景与落地开发实践。

每一站,都上演着不同的故事,碰撞出独特的火花。 现在,就让我们一起回顾这趟旅程的精彩瞬间!

东京站|Avatar 实时交互,引爆现场兴奋点

四月,东京,旅程启航。 首场 Workshop 聚焦于 Avatar 驱动的实时交互体验。

🤩核心印象: Avatar + 实时交互 = 未来感十足!

🎤重量级分享: Microsoft 深入解析 GPT-4o Realtime API 的语音对话落地;TEN Framework 揭秘开源语音代理框架的最佳实践;声网和 Agora 展示对话式方案的卓越效果与客户案例;Dify 社区大使 Alec Lee 则带来结合 TEN 和 Dify 构建语音交互数字人的创新方案。现场讨论热烈,焦点集中在部署细节、延迟优化及 Demo 的惊艳效果。

💻实战演练:参与者亲自动手,在本地部署 TEN Agent,并通过 Playground 接入 Azure OpenAI 语音服务,亲手搭建出可实时对话的 Voice Agent。 从原理到实操,体验全链路打通。现场还有 Felo(AI 翻译)、MeltingHack & TUM.ai(AI 社群)、UniConvo(Chatbot)、EMQ(MQTT 通信)等伙伴交流互动,气氛火热。

旧金山站|VAD & 轮次检测首秀,开发者聚焦语音体验 “魔鬼细节”

五月,微软大厦,旧金山站。 这里聚集了来自 Oracle、Google、字节跳动等大厂,以及 AI 教育、企业效率、医疗等领域的创业者和高校学生,背景极其多元。

🤩核心印象: 技术控的盛宴,VAD & 轮次检测解决关键痛点!

🎤技术深度解析: Microsoft、TEN 与声网和 Agora 持续输出干货。TEN 团队首次开源 VAD(语音活动检测)与 Turn Detection(轮次检测)模块成为焦点! 该组件能精准判断语音起止和对话轮次,显著提升实时对话的流畅度与自然度。 现场提问不断,低延时、模型选择、成本与应用落地是开发者最关心的话题。

💻实战反馈: 动手环节体验 TEN Agent + Azure 实时语音交互。甚至有去年就使用过 TEN 的老用户惊喜反馈:部署和编排体验进步巨大!

巴黎站|深聊语音 AI 爆发点,探讨 Voice Agent 落地路径

五月,巴黎,Vivatech 大会同期活动。 我们采用 “Keynote + 圆桌” 的形式,吸引了众多活跃于欧洲语音技术领域的创业公司和开发者,包括欧洲知名 Voice AI 社区 Voice AI Space。

🤩核心印象: C 端应用探索活跃,欧洲视角碰撞新火花!

🎤趋势与落地碰撞:TEN、声网、Agora、Microsoft 带来主题演讲。圆桌讨论 “Voice Agent in Action” 更是干货满满,嘉宾们与特邀的欧洲本地伙伴——ASR 服务商 Gladia 和数字人服务商 Trulience——深入探讨语音 Agent 的真实场景落地。 话题覆盖热门应用场景、社区反馈、核心挑战与未来突破。

🍷巴黎 Mingle 时刻: 晚间的 Demo 展示与自由交流环节,在葡萄酒与轻食的伴随下,技术讨论也染上了浓浓的巴黎风情。

北京站|从 TTS 到产品,语音 Agent 的全链路探讨

六月,北京,极客公园 AGI Playground。 我们特别设置了两场 Workshop:上半场看趋势,下半场动手干。

🤩核心印象: 技术走向纵深,落地需求旺盛,开发者上手更快!

🎤前沿洞察:RTE 开发者社区重磅启动《对话式 AI 白皮书》共建计划;TEN 分享框架设计理念与核心能力;MiniMax 架构师冯雯详解其 Speech 模型在低延迟语音合成与音色定制上的优势;FoloToy 联合创始人郭兴华则从儿童陪伴产品切入,分享 “把技术藏起来” 的落地心得。

📱Lightning Demo: 现场观众即兴展示 AI 儿童教育 Metabooks 和旅行助手项目,展现语音 AI 在生活场景的渗透。

深度实战: TEN 团队与阶跃星辰协作,带领参与者完成本地 Voice Agent 的部署与定制开发(模型接入、界面设置、交互逻辑)。经过大半年迭代,现场开发者的 “跑通率” 显著提升,一小时即可完成搭建!

京都站|扎根本土:ASR、大模型与会议实时翻译

7 月,京都,日本创业大会 IVS 现场。 氛围开放轻松,聚焦日本本土化需求。

🤩核心印象:本土化应用开花结果,实时翻译场景亮眼!

🎤本地化视角:除了 TEN、声网和 Agora 的分享,特邀日本本土 ASR 技术专家 Paraparas 团队带来 “以人为中心的信息转化平台” 理念,提供极具本地特色的思考。

📱Lightning Demo: 7 个 AI 项目轮番登场! FoloToy(AI 语音玩具)、Mosumosu(二次元助手)、Uniconvo(多场景语音 AI bot)、Flowith、MyShell(Agent 平台)、Pasoo(客服实时翻译 Agent)等,现场演示日语店家与英文顾客的无缝沟通,惊艳全场。 在披萨的香气中,大家自由体验 demo,畅谈合作可能。

🔜 WHAT'S NEXT?下一站?

从东京启航,经旧金山、巴黎、北京,抵达京都——TEN 团队携手全球伙伴,跨越五座城市,与超过 300 位 Voice AI 领域的探索者面对面交流。

我们不仅分享了对话式 AI 的最新进展,更深刻感受到不同地区对 Voice Agent 的独特关注:

  • 日本: 企业级需求旺盛,电话客服与商业场景是核心。

  • 欧洲: C 端产品创新活跃,创业者热情高涨。

  • 旧金山: 开发者生态成熟,对底层框架、性能优化(如 VAD、延迟)细节孜孜以求。

尽管对许多朋友而言,这是与 TEN Framework 的初次邂逅,但大家对其架构设计、技术能力及现场体验给予了积极反馈和宝贵建议。 我们由衷感谢每一位参与者的热情与支持!

Voice Agent 的旅程远未结束。 TEN 团队将继续深耕这一领域,期待与更多伙伴携手,共同探索对话式 AI 的无限可能!

欢迎给我们一个🌟 https://github.com/TEN-framework/ten-framework

更多 Voice Agent 学习笔记:

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册