如果您正在开发具备语音对话、视觉理解等多模态能力的 AI Agent,请加入我们的直播讨论!
OpenAI 今日发布了 OpenAI Realtime API 的重大更新,其中包括价格下调、新增模型以及一项尤为重要的改进: WebRTC 支持 。结合此前 WebRTC 创建者加入 OpenAI 的消息,这清晰地表明 OpenAI 正在积极拥抱 RTC 技术 ,以强化其多模态 AI 的传输能力。
RTC 让开发者在 多平台上构建实时语音 AI 产品变得更加简便,无论是浏览器应用、移动客户端、物联网设备,还是服务器到服务器连接。它还具备音频编码、流媒体传输、降噪和拥塞控制等关键功能,能够在网络不稳定的情况下依然提供 流畅的用户体验。
如果您正在开发具备 语音对话、视觉理解等多模态能力的 AI Agent ,或者对探索下一代人机交互方式充满热情,欢迎你预约并收看 19 日(周四)晚八点 的 RTE Dev Talk!
RTE 开发者社区邀请了 多位 RTC 专家参与圆桌讨论 。 从基本概念到技术对比,从实践经验和未来展望,助力你 成为更全面的多模态 AI Agent 开发者。
GenAI 已经从文本框交互迅速走向更自然、更拟人的多模态实时互动,期待和你一起成长和探索。
毛玉杰,声网生成式 AI 产品负责人,WebRTC 技术专家。曾参与过 Android、Chromium、WebRTC 等多个开源项目的开发。
Plutoless,实时语音 AI 智能体开源框架 TEN Framework 的联合发起人,拥有多年在实时互动领域的专业从业经验。RTE
开发者社区布道师。
白宦成(主持人),全流程工程师,AI 产品经理,RTE 开发者社区布道师,《编码人声》主播。
时间:12 月 19 日(周四)20:00~21:15pm
地址:线上直播,欢迎提前预约,接收开播提醒
活动主办:RTE 开发者社区
社区伙伴支持:语音之家、TEN Framework
更多 Voice Agent 学习笔记:
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服
语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场
下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》