开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Audio-Interaction:基于 400ms 分块流式架构,首个实现「感知 - 决策 - 响应」闭环的实时音频交互模型

图片

新加坡国立大学与南洋理工大学等机构联合发布了首个统一的实时音频交互模型 Audio-Interaction 及其底座框架 SOUNDFLOW。该模型打破了传统音频大语言模型(LALM)的离线问答模式,通过端到端流式处理,使模型能够在连续音频流中实时感知、自主决策并执行多任务交互。

论文链接:

https://arxiv.org/pdf/2606.05121v1

数据集:

huggingface.co/datasets/zhifeixie/StreamAudio-2M

@XieZhifei14110\@X

2、小红书 rednote-hilab 开源 2b 参数的端到端文本转语音模型 dots.tts

图片

图片

小红书 rednote-hilab 团队正式发布了名为 dots.tts 的 2b 参数全连续、端到端自回归文本转语音系统

该系统的主干网络由语义编码器、基于 Qwen2.5-1.5B-Base 初始化的大语言模型,以及基于 48 kHz AudioVAE 的自回归流匹配声学头组成,且在整个处理流程中未使用离散 token。

根据官方提供的数据,dots.tts 在 Seed-TTS-Eval 测试集中取得最佳平均性能,并在 24 语言的 MiniMax 多语言基准测试中获得最高平均说话人相似度,展现出开源领域最优的表现及较强的声音克隆与情感表达能力

目前,该项目的预训练、自我纠正对齐以及 MeanFlow 蒸馏等多个版本的检查点,连同完整的推理与微调代码,已在 GitHub 和 Hugging Face 上以 Apache 2.0 协议开源,并同步提供了在线体验 Demo。

https://rednote-hilab.github.io/dots.tts-demo/

https://huggingface.co/spaces/rednote-hilab/dots.tts

(@ 橘鸦 Juya)

3、MMAE:首个通用音频编辑评测基准

既然图像编辑早有了 Nano-Banana,那属于音频的「Audio Banana」还要多久?

视觉编辑早已跨入「香蕉时代」(如图像的 Nano-banana 2、视频的 Gemini-Omni),但音频编辑的评测基础设施却严重断档。由于场景碎片化、传统信号指标失效,真正的下一代通用音频编辑缺乏统一卡尺。

全方位分类法:

核心创新:

扎心发现(现在的音频模型还吃不下这根「香蕉」🍌):

开源链接:

https://arxiv.org/abs/2606.07229

https://huggingface.co/papers/2606.07229

https://github.com/ddlBoJack/MMAE

https://huggingface.co/datasets/BoJack/MMAE

(@ 社区投稿)

02 有亮点的产品

1、Opal Electronics 获 OpenAI 领投 4000 万美元 Series B 融资:拟推出首款 AI 音频硬件

图片

高端网络摄像头厂商 Opal Camera 正式更名为 Opal Electronics,并宣布完成由 OpenAI 领投的 4000 万美元 Series B 融资,估值达 2.75 亿美元。该公司将战略重心全面转向 AI 消费电子,逐步停产现有摄像头产品,并计划在 3 至 4 个月内推出一款可切换底层大模型的 AI 音频硬件

@AING 硬迹、@Opal Electronics、@Wired@testingcatalog

2、微软发布 Project Solara 智能体平台和概念硬件:根据设备形态与上下文实时生成界面

图片

微软在 Computex 2026 上推出了基于 AOSP(Android 开源项目)的智能体硬件平台 Project Solara,并公布了 Badge 和 Desk 两款处于研发阶段的概念硬件。该平台旨在剥离传统的「以应用为中心」交互模式,通过设备端轻量化系统与 Azure 云端算力协同,由 AI 智能体根据设备形态与上下文实时生成界面(Just-in-Time UI)。

图片

图片

(@ 多知)

3、游戏硬件初创公司 Board 获 2000 万美元融资:主打实体棋子与屏幕数字内容的无缝实时交互

图片

图片

智能健身镜 Mirror 创始人 Brynn Putnam 创办的游戏硬件公司 Board 宣布完成 2000 万美元融资(累计融资 3500 万美元),由 Union Square Ventures 领投。其核心产品是一款售价 399 美元的 24 英寸木框触控屏设备,通过实体棋子感知技术实现线下桌游触感与电子游戏交互的融合。该公司正通过开放 SDK 构建开发者生态,并计划于 2026 年推出 AI 创作平台 Board Studio,允许用户利用自然语言生成桌游原型

@AING 硬迹)

03 有态度的观点

1、心理学家:把认知工作外包给 AI,会「失去对大脑的控制」

图片

据 MIT Technology Review 报道,加州大学欧文分校心理学家 Gloria Mark 在 SXSW London 接受采访时讨论了数字技术和 AI 对注意力的影响。她指出,人们已经在很大程度上「失去对注意力的控制」

Mark 的长期实验显示,2003 年用户在切换到其他任务前平均能专注约 2 分半钟;2012 年降至约 75 秒;2014 年至 2020 年的研究中进一步降到平均 47 秒。

她还在实验中看到,注意力快速切换与压力上升存在直接相关。她对 AI 聊天机器人更担心的部分,是「深度处理」被外包。Mark 表示,当人主动评估、总结和理解信息时,会更可能学习、理解和记住它;

如果把写作、总结、评价交给 ChatGPT、Claude 或 Gemini,人就把认知工作交给了 AI。她还把问题延伸到合成陪伴产品,认为顺从型机器人关系会削弱人维持真实关系所需的情绪能力

建议人们重新思考与 AI 技术的关系:读完整本书而非只看摘要;能当面见朋友时尽量当面;在熟悉环境里减少对 GPS 的依赖。她认为,努力本身会带来更深层的满足感,这些例子也是对注意力、记忆和情绪能力的重新训练。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流