开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@ 鲍勃

01 有话题的技术

1、OpenAI Evals 升级:原生支持音频输入输出

OpenAI 推出了 Evals API 对音频输入的直接支持,允许开发者无需先转录,即可评估模型处理音频交互的能力。这项更新显著简化了诸如客服等涉及语音沟通的场景的评估流程,并通过音频模型评分,更准确地反映模型性能。

关键亮点

相关链接:

https://cookbook.openai.com/examples/evaluation/use-cases/evalsapi_audio_inputs

( @OpenAI Evals Cookbook)

2、Google Meet 推出实时语音翻译:AI 赋能超低延迟,重塑跨语言沟通

Google Meet 联合 DeepMind 和 Research 团队,利用 AI 技术推出了实时的语音翻译功能。这项功能能够将用户讲话的内容近乎实时地翻译成对方的语言,并以接近原声的音色播放,极大地降低了跨语言沟通的延迟,使得跨国界、跨时区的交流更加顺畅。

关键亮点

相关链接:

https://blog.google/products/workspace/google-meet-langauge-translation-ai/

( @Google Blog)

02 有亮点的产品

1、获百万美元融资,Outlier Humans 推出儿童无屏幕语音设备 Bunny

初创公司 Outlier Humans 近日发布了一款专为 3-8 岁儿童设计的创新语音对话设备——Bunny。该产品主打无屏幕或少屏幕的互动体验,旨在通过日常对话和活动建议,激发孩子的好奇心与创造力。

Bunny 的核心功能包括:

产品目前处于 Waitlist 阶段,尚未全面发售。

详细链接:

https://www.outlierhumans.com/product

( @Outlier Humans)

2、腾讯会议推出「AI 托管」功能:先行听会、代听多会、全程记录

腾讯会议近日联合「元宝」正式上线「AI 托管」功能,旨在通过人工智能技术全面解决用户在会议中遇到的迟到、多会撞车及临时离场等痛点。该功能让「元宝」智能体作为用户的「会议哨兵」,先行听会、代听多会、全程记录,并智能生成会议纪要和提供会后内容拓展,致力于打造高效、无缝的会议体验。

腾讯会议「AI 托管」功能已正式上线,用户可通过会邀页面或会议列表直接启用。

关键亮点

相关链接:

https://mp.weixin.qq.com/s/cobZ01s7siWYi3I0QHX29A

(@ 腾讯会议)

3、美团「小美」生活智能体:一键打理日常,开启极简生活新范式

美团近日正式上线其首个生活类 AI「智能体」——「小美」,目前为内测阶段。该「智能体」深度融合了美团的本地生活服务生态与 AI 能力,旨在通过自然语言交互,为用户提供点餐、购物、日程管理等一站式智能助理服务,预示着 AI「智能体」在本地生活服务领域的巨大潜力与市场竞争的白热化。

目前,「小美」正处于内测阶段,需邀请码方可体验。已支持外卖点餐、美团闪购、酒店预订及 AI 定时任务等核心功能。打车、电影票、机票、火车票等票务预订功能正在开发中,预计未来将逐步上线。

核心亮点:

(@ 数字生命卡兹克)

03 有态度的观点

1、DeepMind CEO:现在的模型有博士级水平?无稽之谈

近日,Google DeepMind CEO Demis Hassabis 在参加「All In 峰会」时指出,时常能听到一些竞争对手称,如今我们所拥有的这些现代系统具备博士级智能。「但我认为这种说法是无稽之谈,因为根本不具备博士级智能。」

据 OfficeChai 指出,OpenAI CEO Sam Altman 此前曾声称 GPT-5 模型 拥有「博士级」能力,甚至在发布会上表示「这就像是在和一个专家交谈,一个真正的博士级别的专家,在任何一个领域。」

而在 Hassabis 看来,现阶段的 AI 系统在综合能力上与博士级水平相差甚远。其表示:「事实上,众所周知,与如今的聊天机器人互动时,只要你以特定方式提问,就会发现它们甚至会在高中数学和简单计数问题上犯低级错误。对于真正的通用人工智能(AGI)系统而言,这种情况是不应该出现的。」

同时 Hassabis 也预测,要研发出能够实现博士级综合能力的人工智能系统,人类可能还需要 5 到 10 年的时间。

Hassabis 还提到,当前的模型系统尚不具备人类这样的学习能力,他认为,现阶段另一个缺失的关键能力是持续学习能力 —— 即能够在线向系统传授新知识,或通过某种方式调整其行为模式的能力。

其表示,目前这些核心能力中的大部分仍未实现。「或许通过规模扩张人类能达成目标,但如果让我打赌的话,我认为要实现这一目标,可能还需要一两项关键突破,而这些突破有望在未来五年左右出现。」

(@ APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流