AI测试 OpenAI 推出嵌入式硬件 SDK,支持 ESP32 语音开发;INFP:音频驱动的双人对话头像生成,自动区分说话者和倾听者

RTE开发者社区 · 2024年12月23日 · 2076 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@ 鲍勃

01 有话题的新闻

1、GPT-5「难产」细节曝光

近日,据华尔街日报报道,OpenAI 的 GPT-5 进度出现落后,并且将不能按时发布。

和此前爆料一致,代号为猎户座(Orion)的 GPT-5 开发周期已经超过 18 个月。OpenAI「金主」微软本来预计它能在 2024 年中发布,但结果显而易见,GPT-5 已经「难产」。

据悉,OpenAI 给 GPT-5 设定的目标不低,Orion 至少试了两轮大规模训练,但效果都未达预期,成品只是比现在的产品是强了点,但投入产出比极低,据估计,六个月的训练运行就要烧掉大约 5 亿美元(折合人民币 36.48 亿元)。

2023 年年中,OpenAI 启动了代号为「Arrakis」的测试项目,旨在验证 Orion 新设计的有效性和可行性,测试过程成本过高。2024 年初,OpenAI 决定开始新一轮尝试。5 月,研究团队认为时机成熟,启动了一项预计持续到 11 月的大规模训练。但训练中出现数据多样性不足的问题。此后,OpenAI 另辟蹊径,专门招聘软件工程师和数学家写代码、解数学题来为 Orion 提供学习材料,并详细记录解决问题的思维过程。同时寻求专家合作以及用推理模型 o1 生成合成数据,并结合传统数据来不断改进模型生成结果。

目前,迫于研发进度的延缓,OpenAI 开始将注意力转向其他项目,包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露,这也导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。

此前,包括 Ilya Sutskever、Mira Murati、Alec Radford 在内的 20 多名核心高管和资深员工都离开了 OpenAI,给 OpenAI 带来了不小的冲击。(@ APPSO)

2、Livekit 开源精准语音轮次检测模型,可精准识别用户是否说完话

目前 AI 语音最难解决的问题之一是回合结束检测,也就是要么:

  • 过早响应:用户只是停顿思考,系统却以为用户说完了

  • 过晚响应:用户已经完成发言,但系统未及时反应

Livekit 模型能精准判断「用户是否说完话」,然后才开始响应。

传统方法主要依赖语音活动检测(VAD),但 VAD 只关注语音信号的存在与否,忽略了语义层面的信息,因此容易受到停顿和背景噪声的干扰。

Livekit 通过结合 Transformer 模型和传统的语音活动检测(VAD),来改进对「轮次结束检测」(End of Turn Detection, EOT)的判断。以更好地判断用户是否完成发言。

测试结果显示,错误打断减少了 85%,也就是说,语音助手变得更加自然和不容易误判。

这种技术相比传统方法更加准确和智能,可以用来改进语音人工智能(比如语音助手、客服机器人)在对话中判断「用户是否说完话」的能力。(@ xiaohu@X)

3、INFP:基于音频驱动的双人对话中的互动头像生成,能自动区分谁在说话,谁在听

INFP 是由字节跳动开发的一种音频驱动的交互式头部生成框架,主要应用于双人对话场景。意为「在双人对话中基于音频驱动的互动式头像生成」。

它能通过语音输入生成动态头像动画,包括嘴唇同步、面部表情和头部动作。这些生成的头像能自然地模拟对话双方的互动状态,而且能自动切换「说话者」和「倾听者」的角色,也就是两个人对话时,它能自动区分谁在说话,谁在听。对于说话者,它能嘴唇同步语音内容,同时展现自然的头部和表情动作,而对于倾听者,它能够生成自然的面部反应(如点头、微笑、疑惑)和倾听姿态。(@ 小互 AI)

4、DeepSeek 关键开发者将加入小米,领导大模型团队

据第一财经获悉,DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米,或供职于小米 AI 实验室,领导小米大模型团队。

据有知情人士称,雷军认为小米在大模型领域发力太晚,于是亲自挖人,重金招募能够领军小米大模型的人才,支付的薪酬水平在千万元级别。

小米 AI 实验室正式成立于 2016 年年初,目前团队大约有 250 人,研究方向包括视觉、声学、语音、自然语言处理(NLP)、知识图谱、机器学习和大模型。2023 年 4 月,小米成立专门的大模型团队,由栾剑担任负责人。小米的大模型技术主要聚焦于模型的轻量和本地部署,已研发出 MiLM 系列模型,并升级至第二代 MiLM2,部分模型已在小米的产品中得到应用。

据悉,罗福莉硕士毕业于北京大学计算语言学研究所,并在自然语言处理领域有着杰出的研究经历和成果。此后,罗福莉在阿里巴巴的达摩院机器智能实验室工作,并主导开发了多语言预训练模型 VECO。2022 年,罗福莉参与 DeepSeek 的 MoE 大模型 DeepSeek-V2 的开发。报道指出,罗福莉的加入可能加速小米在大模型领域的研发进度。(@ APPSO)

02 有亮点的产品

1、OpenAI 推出 Realtime Embedded SDK 专门用在小型硬件设备

OpenAI 推出 Realtime Embedded SDK,使微控制器(如 ESP32)实现实时 AI 功能,支持语音交互与自然语言处理;

应用场景覆盖智能家居、物联网与机器人,增强设备智能交互与环境理解能力。

SDK 提供便捷工具链,支持快速部署与云端 AI 连接,或激发相关硬件市场需求,支持 Linux 和 ESP32S3 平台,无需额外硬件即可在 Linux 上运行。

开发者只需安装 protobufc 和设置目标平台,配置 WiFi 和 OpenAI API 密钥后即可构建和部署应用。(@ 腾讯研究院)

2、汤姆猫推出 AI 童伴机器人:支持主动聊天、情绪识别

汤姆猫于 12 月 21 日在京东等平台推出 AI 童伴机器人,共有经典款、豪华款、尊享款三个版本,售价分别为 1499 元、1699 元、1999 元。

商品页面显示,这款产品配备「灵动双眼」,支持情绪识别、趣味打断、主动聊天 等功能。无需触发按键,一声「汤姆猫」即可切换对话场景。此外,该产品还支持一次唤醒,连续对话。

功能上,新品支持中英文双语交互、万物百科等,产品外观为肤感硅胶材质。

汤姆猫此前介绍称,AI 语音情感陪伴机器人的头部设有传动装置,可以自动根据听到的声音辨别位置与方向,120° 自由转头,面向用户进行语音对话。此外,该产品支持耳朵和嘴巴自然活动,设计了 20 多款灵动表情;3000 毫安时容量电池,产品采用肤感硅胶材质,可自由摆动的手臂。(@IT 之家)

03 有态度的观点

1、戴尔创始人:产品更新通常会被低估

近日,戴尔创始人迈克尔・戴尔向《财富》杂志表示,并不担心 AI PC 遇冷,产品更新通常会被低估。

在回复中他指出,尽管 AI 技术发展迅速,但将 AI 应用到消费者级别的设备和应用中仍需要时间。他表示,已经不止一次经历过这样的情况了,产品更新通常会被低估,有时进展稍微快一点,有时则较慢。

戴尔提到,AI 不仅将影响 PC 设备,还将在云计算和企业级应用中扮演越来越重要的角色。他看好 AI 技术对各个行业的渗透,特别是在数据分析、自动化和智能化方面。

戴尔表示,对未来保持乐观,并不担心 AI PC 遇冷。认为随着技术的成熟,AI 将彻底改变 PC 市场,推动新一轮的设备更新换代,尤其是在高性能计算和智能硬件方面。(@ APPSO)

04 社区项目推荐

1、remixly.ai :一款由 AI 驱动的音频处理平台

remixly.ai 是一款由 AI 驱动的音频处理平台,集成了多种音频编辑功能,包括伴奏移除、音调调节和人声转换,旨在简化音频创作与处理流程,节省时间和精力。remixly 不仅满足音频编辑的常见需求,还支持自定义工作流,让团队根据自身需求灵活调整处理流程,提升创作效率。无论是进行内容生产,甚至是构建自己的音频应用,remixly 都能提供高效的支持。

产品亮点:

  • 多功能音频处理工具集: 包含伴奏移除、音调调节、人声转换等功能,减少工具切换,提升工作效率。

  • 自定义工作流: 为中小型团队提供灵活的工作流设计,可以根据不同音频处理场景定制自动化流程,显著节省人工操作时间。

  • API 支持与集成: 可为开发者和企业客户提供全面的 API 接口,支持与现有系统、产品的集成,帮助您基于我们的平台快速构建音频处理应用。

2、Tempo-Pulse 触觉音乐播放器

Tempo-Pulse 是一款由 AI 驱动的音乐触觉播放器,你可以搜索或上传任何你喜欢的音乐,Tempo 会为你带来独一无二的触觉体验,听障人士也可以通过 Tempo-Pulse 感受音乐的律动,享受音乐的魅力。

以上信息由 RTE 开发者社区成员通过社区网站投稿提供,如果你也有与实时互动(Real-Time Engagement,RTE)相关的项目分享,欢迎访问网站 rtecommunity.dev 发布,优秀项目将会在公众号发布分享。同时还有 RTE Meetup demo 分享、《编码人声》播客录制、RTE Open Day 展位优先申请等机会。

有意投稿者请联系微信 creators2022 ,请备注身份和来意。

更多 Voice Agent 学习笔记:

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

Voice-first,闭关做一款语音产品的思考|社区来稿

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册