AI测试 豆包 APP 上线端到端语音能力,低时延、可打断;OpenAI 实时 Agent 源代码:20 分钟开发 Voice Agent

RTE开发者社区 · 2025年01月20日 · 171 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@ 鲍勃

01 有话题的技术

1、OpenAI 源代码分享!实时 AI Agent,20 分钟开发语音智能体

实时 Agent 技术特点: 能提供高效的数据交互能力,在用户说话的同时就能立刻响应,极大减少了等待时间,同时优化了数据传输和处理流程,确保了高效率和低延迟,这对于开发语音类智能体非常重要。

多层级协作 Agent 框架, 提供了一个预定义的 Agent 流程图,开发者可以快速配置和使用。每个 Agent 都有明确的职责和任务,确保任务能够按照预设的顺序顺利进行,减少了大量从头设计任务流程的时间。

实时 Agent 还支持灵活的任务交接,Agent 之间可以无缝传递任务, 确保每个步骤都能由最合适的 Agent 处理,大大提高了任务处理的效率和准确性。

状态机驱动的任务处理是实时 Agent 另外一大技术亮点。通过状态机将复杂的任务分解为多个小步骤,逐步处理。每个步骤都有明确的状态和转换条件,确保任务能够按顺序、逐步完成。

同时状态机可以实时监控任务的执行状态,根据用户的输入和反馈进行调整。 如果用户在某个步骤中遇到问题,状态机可以及时调整任务流程,提供帮助或重新引导用户。

借助大模型提升 Agent 决策能力,在面对复杂或重要的任务决策时,实时 Agent 可以自动将任务升级到更智能的大模型,例如,OpenAI 的 o1-mini。开发者也可以根据任务的具体需求,选择合适的大模型。

清晰可视化 WebRTC 界面,用户可以通过下拉菜单选择不同的场景和 Agent,实时查看对话记录和事件日志。

提供详细的事件日志和监控功能,为开发者提供了强大的调试和优化工具。详细的事件日志,记录了客户端和服务器的事件。开发者可以通过这些日志,实时监控任务的执行状态,及时发现和解决问题。

通过实时监控可以及时发现 Agent 性能瓶颈,进行特定的优化和调整。 例如,如果某个 Agent 的响应时间过长,可以及时调整任务分配,确保系统的整体性能。

此外,这个实时 Agent 还借鉴了之前 OpenAI 开源的著名多层级协作 Agent 框架 swarm,所以,在业务执行和稳定性方面非常可靠。(@AIGC 开放社区)

2、三星拟携手 OpenAI 研发智能电视:将支持实时对话及内容推荐

据国外媒体报道,三星电子正与 OpenAI 洽谈「开放伙伴关系」,计划将 OpenAI 的先进技术融入电视产品线,以提升其在全球电视市场的竞争优势。

据悉,三星计划引入 OpenAI 的多项核心技术,包括 GPT 文本生成、DALL·E 图像生成、Whisper 语音识别以及 O1 推理模型等。这些技术将为用户带来个性化内容推荐、对话式助手、实时翻译等创新功能。例如,用户可在观看节目时实时提问,获取演员信息或相关教育资料,系统还能基于观看历史推荐相似内容。

市场调研机构 Omdia 数据显示,2024 年上半年三星在全球电视市场的营收份额达 28.8%,继续保持全球领先。然而从出货量来看,三星份额为 18.3%,与中国厂商 TCL 的 13.3% 差距逐渐缩小,显示出中国企业在低价市场的强劲攻势。

在今年 CES2025 展会上,三星已展示部分 AI 电视功能,如时尚信息查询和实时字幕翻译等。不过,与 OpenAI 的合作能否最终达成,仍取决于双方对合作费用的谈判。对于相关合作传闻,OpenAI 表示「无法确认」。

这一潜在合作显示出三星以 AI 技术创新应对市场竞争的战略意图。作为连续 19 年蝉联全球电视市场第一的品牌,三星正寻求通过 AI 技术建立新的竞争壁垒。此前,该公司影像显示器部门已与微软达成合作,展现出其在 AI 生态系统构建方面的积极布局。(@AIbase 基地)

3、OpenAI 即将发布博士级,超级 AI Agent

超级 Agent,作为生成式 AI 发展的新阶段产物,被设计用于解决人类思维难以应对的复杂、多层次现实世界问题。

与传统的 AI 工具不同,Agent 不会仅仅响应单一指令,而是能够自主设定并追求目标。例如,当用户下达「构建一个新的支付软件」的指令时,超级 Agent 将凭借其强大的能力,自行完成从设计、测试到交付一个可正常运行产品的全过程。

在这一过程中,需要综合分析海量数据,全面评估各种可行方案,并高效整合不同领域的知识与技术。其核心技术涉及先进的机器学习算法、自然语言处理技术、复杂系统建模与优化等多个领域的深度融合。

从机器学习算法角度来看,超级 Agent 可能运用了强化学习与深度学习相结合的方式。通过强化学习,Agent 能够在不断与环境交互的过程中,根据反馈信号学习到最优的行为策略,以实现给定的目标。

深度学习则为其提供了强大的特征提取和模式识别能力,使其能够从海量的文本、图像、数据等信息源中快速准确地提取有价值的信息,为决策提供坚实的数据支持。

在自然语言处理方面,超级 Agent 具备高度的语言理解和生成能力。不仅能够理解人类用自然语言表达的复杂任务需求,还能够以清晰、准确的语言向用户反馈任务的执行进度和结果,实现人机之间的高效沟通与协作。

这一能力的实现依赖于大规模的语言模型以及基于 Transformer 架构的预训练技术,使得 Agent 能够学习到丰富的语言知识和语义关系,从而在不同的语言场景下都能表现出色。

目前,虽然超级 Agent 尚未全面推向市场,但部分早期测试结果和相关研究已经展示出其巨大的潜力。在一些模拟实验中,超级 Agent 在处理复杂的数据分析任务时,能够比传统的数据分析方法快数倍甚至数十倍地提取出有价值的信息和洞察。(@AIGC 开放社区)

02 有亮点的产品

1、360 集团发布鸿蒙原生 AI 应用纳米 AI 搜索:用户可选择不同风格的 AI 声音进行交互

360 集团近日宣布旗下纳米 AI 搜索和 360AI 办公两款应用正式推出鸿蒙原生版本,标志着该公司在 AI 应用领域的重要布局。

作为被业界称为「搜索引擎 3.0」的多模态内容创作引擎,纳米 AI 搜索自 2024 年 11 月上线以来表现亮眼。数据显示,该应用首日访问量突破 100 万,到 2024 年 12 月访问量已达 3.59 亿,跃居「AI 产品榜 · 全球总榜」第四位,成为榜单 TOP10 中唯一的国产 AI 产品,月环比增长 27.1%。

鸿蒙原生版纳米 AI 搜索支持多种交互方式,包括文字、语音输入、拍照识图和视频提问等。除基础问答功能外,该应用还提供 PDF 文件解析、食物卡路里计算、图片文案生成等特色功能。用户还可选择不同风格的 AI 声音进行交互,提供更个性化的使用体验。

同期发布的 360AI 办公则整合了超过 100 款 AI 工具,覆盖图片处理、写作辅助、文档编辑、视频制作和文档模板五大核心场景。该应用特别为学生群体提供了试卷练习功能,支持擦除手写笔迹便于重复练习。

目前,两款应用已在 HarmonyOS NEXT 应用市场上线,用户可通过「我的华为 App-升级尝鲜」申请体验。360 表示,这两款应用将持续迭代升级,进一步提升用户体验。(@AIbase 基地)

2、豆包 APP 上线端到端语音能力:低时延、可打断

豆包实时语音大模型于今日正式推出,并在豆包 APP 全量开放,将豆包 APP 升级至 7.2.0 版本即可体验。

豆包实时语音大模型,是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。

根据外部用户真实反馈,该模型整体满意度较 GPT-4o 有明显优势 ,特别是语音语气自然度和情绪饱满度远高于后者。团队认为,该模型的推出具备里程碑式意义,不仅贴合中国用户实际需求,且发布即上线,有能力直接服务亿万用户,而非停留于演示 Demo 层面。

技术展示页:https://team.doubao.com/realtime_voice@ 豆包大模型团队)

03 有态度的观点

1、MiniMax CEO:千万别套用移动互联网的逻辑来做 AI

近日,MiniMax CEO 闫俊杰接受采访,并表示千万别套用移动互联网的逻辑来做 AI。闫俊杰提到,移动互联网的逻辑认为用户越多,产品迭代速度越快,但在 AI 领域,这个逻辑并不成立。并且他表示复杂任务的解决更多依赖技术突破,而非大规模用户行为数据。闫俊杰还认为,AI 模型在很多场景中比普通用户更「聪明」,大部分用户的使用并不足以推动模型进一步改进。

闫俊杰预测,Agent 很快还会看到一类应用—信息的获取,从而让用户能更好地使用 Agent 去获取信息。同时他对比了移动互联网产品和 AI:移动互联网产品,要思考有哪些供给、哪些消费;而 AI 产品其实不需要人为供给,AI 既有分发,也有供给能力,而且 AI 能力会不停变化。此外,闫俊杰还提及了模型开源。他认为,大模型都应该开源,并表示所有模型一年之后都会落后。同时他认为,如 OpenAI,它的核心能力已不再是对比,而是 ChatGPT 的品牌和心智。(@APPSO)

2、小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?

《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。

他在采访中提到:「现在大家对文字转语音(TTS)更感兴趣,最近几年兴起的流匹配(flow matching)方法简单易懂,而且效果特别好,也很稳定,我很喜欢研究它们。

我在小米的团队正在转向 TTS(文字转语音)。一般来说,TTS 的速度要比语音识别慢,特别是在手机上运行的时候。我们希望开发一个既能在手机上快速运行,又能保持完美音质的 TTS 系统。」(@ 机器之心)

更多 Voice Agent 学习笔记:

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册