以下文章来源于共识粉碎机 ,作者 AI 芋圆子

前面的话:

GPT-4o 发布当周,我们的社区伙伴「共识粉碎机」就主办了一场主题为「GPT-4o 对实时互动与 RTC 的影响」讨论会。涉及的话题包括:

另外,此次讨论会嘉宾史业民在我们的播客《编码人声》里深度解析了 GPT-4o 的能力边界,并基于实时多模态开发的一手经验,给开发者提出了不少建议,也欢迎收听。

这次讨论会的信息量极大,Enjoy!

本期讨论会参与者:

杜金房老师: 烟台小樱桃网络科技有限公司创始人,FreeSWITCH 中文社区创始人,RTS 社区和 RTSCon 创始人,《FreeSWITCH 权威指南》、《Kamailio 实战》、《深入理解 FFmpeg》作者,FreeSWITCH 开源项目核心 Committer。杜老师同时是 RTE 实时互动开发者社区联合主理人。

刘连响老师: 资深 RTC 技术专家,推特@leeoxiang

史业民老师: 实时互动 AI 创业者,前智源研究院研究员。

徐净文老师: 负责百川的战略、投融资、开源生态、海外等业务。

1、GPT4o 如何降低延迟

GPT4o 前调用 OpenAI API 延迟极限情况下可以压缩到 2 秒

但在客服等场景中还经常需要做 Planning 和 RAG,延迟会进一步增加

GPT4o 优化延迟的机制

VAD 模块可能也应用了 LLM

GPT4o 后,还可以通过工程并发的方式进一步降低延迟

在做应用的时候还可以用一些鸡贼的产品体验进一步降低 “延迟感”

2、GPT4o 怎么影响实时互动场景

有哪些实时互动场景可以开始做了

还有一些典型的行业场景,也很适合实时互动需求

医疗进入实时互动可以大大减缓患者焦虑

法律引入实时互动后适合现场处理场景

教育引入实时后适合在线解题和语言教学场景

GPT4o 后最快会是哪些场景能跑出来

3、GPT4o 应用到实时也有不完善的地方

在触发机制等问题上还无法做到完全实时

具体举一些场景来看的话

4、GPT4o 为什么要用到 RTC

GPT4o 为什么需要 RTC?用 RTC 的 LLM 会产生时空穿越??

LLM 可能还会影响新的 RTC 技术

但目前的 LLM RTC 需求还不复杂

除了直接延迟外,RTC 在网络不好的场景,以及对打断有需求的场景有明显优势

5、怎么选择 RTC 供应商

先讲讲 RTC 的发展历史

OpenAI 目前选择了 LiveKit,但未来 API 可能可以不与 LiveKit 绑定

未来客户可能也能使用商业 RTC 方案

使用 GPT4o 不一定必须用其自带的 TTS

各方是怎么看要不要用 RTC 的

6、实时场景对端侧的影响

Vocie Assistant 场景对于端侧硬件的要求

对 RTC/RTE 感兴趣的朋友也欢迎访问 RTE 开发者社区:

https://www.rtecommunity.dev/

最后我们放一张本次活动的听众 Agent 创业者 王轶老师 参与互动后画的一张图,也比较清晰的展现了 RTC 引入后 LLM 的流程变化


↙↙↙阅读原文可查看相关链接,并与作者交流