开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@ 鲍勃

01 有话题的技术

1、OpenAI Evals 升级：原生支持音频输入输出

OpenAI 推出了 Evals API 对音频输入的直接支持，允许开发者无需先转录，即可评估模型处理音频交互的能力。这项更新显著简化了诸如客服等涉及语音沟通的场景的评估流程，并通过音频模型评分，更准确地反映模型性能。

关键亮点

原生音频评估: Evals API 现在可以直接接收和处理音频输入，如 WAV、MP3、FLAC 等格式，无需预先转录为文本。
端到端音频工作流: 支持对音频输入生成音频输出的模型进行评估，完美模拟真实世界的语音交互场景。
灵活的评分机制: 提供音频模型评分（score_model）概和文本字符串比对评分（string_check）两种评分器，支持直接评估音频或其文本转录。
简化数据准备: 提供audio_to_base64 工具函数，便于将 Hugging Face 数据集中的音频格式转换为 API 所需的 base64 编码。`
gpt-audio 模型支持: 评估过程中可指定的 gpt-audio 等支持音频处理的模型进行采样和评分。

02 有亮点的产品

1、获百万美元融资，Outlier Humans 推出儿童无屏幕语音设备 Bunny

初创公司 Outlier Humans 近日发布了一款专为 3-8 岁儿童设计的创新语音对话设备——Bunny。该产品主打无屏幕或少屏幕的互动体验，旨在通过日常对话和活动建议，激发孩子的好奇心与创造力。

Bunny 的核心功能包括：

激发好奇：以对讲机形式，引导儿童通过语音进行探索和学习，摆脱对屏幕内容的依赖。

赋能家长：父母可以接收孩子与设备对话的日志和摘要，并获得个性化的亲子活动建议，如在谈论鸟类后推荐参观鸟类保护区。
安全可控：内置适龄内容过滤器，并允许父母自定义屏蔽主题。同时设有「静默时段」和每日使用额度，确保健康使用。
价值对齐：支持父母根据家庭的育儿理念与文化背景进行定制，例如调整讲故事的侧重点（如强调「耐心」），或让孩子成为故事的主角，实现与家庭价值观的无缝对齐。

产品目前处于 Waitlist 阶段，尚未全面发售。

详细链接：

https://www.outlierhumans.com/product

( @Outlier Humans)

2、腾讯会议推出「AI 托管」功能：先行听会、代听多会、全程记录

腾讯会议近日联合「元宝」正式上线「AI 托管」功能，旨在通过人工智能技术全面解决用户在会议中遇到的迟到、多会撞车及临时离场等痛点。该功能让「元宝」智能体作为用户的「会议哨兵」，先行听会、代听多会、全程记录，并智能生成会议纪要和提供会后内容拓展，致力于打造高效、无缝的会议体验。

腾讯会议「AI 托管」功能已正式上线，用户可通过会邀页面或会议列表直接启用。

关键亮点

「人未到，耳先至」： 用户在入会前点击「AI 托管」，「元宝」智能体将先行替用户听会，生成智能提炼的 AI 纪要，确保用户入会后能迅速了解会议开头内容，无缝衔接议题。
「多会撞车」智能代听： 当用户日程冲突需同时参与多个会议时，可将会议设置为「托管中」，「元宝」将真实接入并实时记录多个会议的完整内容与关键要点，会后自动推送 AI 纪要，支持浏览小结或详细内容。
「会中突发离场」全程守护： 会议中途若需临时离场，用户可一键开启「AI 托管」，「元宝」将继续坚守岗位，完整记录会议内容，待用户返回后通过 AI 纪要快速了解错过的信息，流畅投入讨论。
会后拓展与辅助决策： 基于 AI 纪要，「元宝」支持用户进行深入提问、梳理逻辑、解答疑问，甚至生成思维导图，辅助用户沉淀会议成果并推进决策。

03 有态度的观点

1、DeepMind CEO：现在的模型有博士级水平？无稽之谈

近日，Google DeepMind CEO Demis Hassabis 在参加「All In 峰会」时指出，时常能听到一些竞争对手称，如今我们所拥有的这些现代系统具备博士级智能。「但我认为这种说法是无稽之谈，因为根本不具备博士级智能。」

据 OfficeChai 指出，OpenAI CEO Sam Altman 此前曾声称 GPT-5 模型拥有「博士级」能力，甚至在发布会上表示「这就像是在和一个专家交谈，一个真正的博士级别的专家，在任何一个领域。」

而在 Hassabis 看来，现阶段的 AI 系统在综合能力上与博士级水平相差甚远。其表示：「事实上，众所周知，与如今的聊天机器人互动时，只要你以特定方式提问，就会发现它们甚至会在高中数学和简单计数问题上犯低级错误。对于真正的通用人工智能（AGI）系统而言，这种情况是不应该出现的。」

同时 Hassabis 也预测，要研发出能够实现博士级综合能力的人工智能系统，人类可能还需要 5 到 10 年的时间。

Hassabis 还提到，当前的模型系统尚不具备人类这样的学习能力，他认为，现阶段另一个缺失的关键能力是持续学习能力 —— 即能够在线向系统传授新知识，或通过某种方式调整其行为模式的能力。

其表示，目前这些核心能力中的大部分仍未实现。「或许通过规模扩张人类能达成目标，但如果让我打赌的话，我认为要实现这一目标，可能还需要一两项关键突破，而这些突破有望在未来五年左右出现。」

(@ APPSO)

素材来源官方媒体/网络新闻

↙↙↙阅读原文可查看相关链接，并与作者交流