开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@ 鲍勃

01 有话题的技术

1、Audio-Interaction：基于 400ms 分块流式架构，首个实现「感知 - 决策 - 响应」闭环的实时音频交互模型

新加坡国立大学与南洋理工大学等机构联合发布了首个统一的实时音频交互模型 Audio-Interaction 及其底座框架 SOUNDFLOW。该模型打破了传统音频大语言模型（LALM）的离线问答模式，通过端到端流式处理，使模型能够在连续音频流中实时感知、自主决策并执行多任务交互。

400ms 分块与双控制 Token 机制：模型以 400ms 为单位步进消费音频流，通过实时预测 <silent>（沉默）或 <response>（响应）控制标记，完全基于上下文语义决策触发时机，取代了传统的物理 VAD（语音活动检测）触发。
StreamAudio-2M 开源流式数据集：包含 260 万个样本，总时长超 30 万小时，涵盖 7 大基础能力下的 28 个子任务。采用分层事件策划流程（场景规划 - 事件细化 - 片段落地）构建长格式音频，并辅以时频联合预处理，确保拼接边界自然平滑。
FIFO 队列异步低延迟推理：将音频编码器与解码器解耦为独立进程，编码器持续向时序队列追加特征，解码器根据当前状态异步进行预测，消除了推理停滞，将响应结束后恢复聆听的首帧延迟降低了 4.5 倍。
通用能力无损与主动响应解锁：在通用音频理解基准 MMAU 上得分 58.15（基座 Qwen2.5-Omni-3B 为 57.81）；在 CoVoST2 语音翻译上，中英和英中 BLEU 分数分别提升 15.72 和 17.04 分；在 Proactive-Sound-Bench 主动干预测试中，单/多事件流响应准确率达 61.2% 和 62.8%。

论文链接：

https://arxiv.org/pdf/2606.05121v1

数据集：

huggingface.co/datasets/zhifeixie/StreamAudio-2M

（@XieZhifei14110\@X）

2、小红书 rednote-hilab 开源 2b 参数的端到端文本转语音模型 dots.tts

小红书 rednote-hilab 团队正式发布了名为 dots.tts 的 2b 参数全连续、端到端自回归文本转语音系统。

该系统的主干网络由语义编码器、基于 Qwen2.5-1.5B-Base 初始化的大语言模型，以及基于 48 kHz AudioVAE 的自回归流匹配声学头组成，且在整个处理流程中未使用离散 token。

根据官方提供的数据，dots.tts 在 Seed-TTS-Eval 测试集中取得最佳平均性能，并在 24 语言的 MiniMax 多语言基准测试中获得最高平均说话人相似度，展现出开源领域最优的表现及较强的声音克隆与情感表达能力。

目前，该项目的预训练、自我纠正对齐以及 MeanFlow 蒸馏等多个版本的检查点，连同完整的推理与微调代码，已在 GitHub 和 Hugging Face 上以 Apache 2.0 协议开源，并同步提供了在线体验 Demo。

https://rednote-hilab.github.io/dots.tts-demo/

https://huggingface.co/spaces/rednote-hilab/dots.tts

（@ 橘鸦 Juya）

3、MMAE：首个通用音频编辑评测基准

既然图像编辑早有了 Nano-Banana，那属于音频的「Audio Banana」还要多久？

视觉编辑早已跨入「香蕉时代」（如图像的 Nano-banana 2、视频的 Gemini-Omni），但音频编辑的评测基础设施却严重断档。由于场景碎片化、传统信号指标失效，真正的下一代通用音频编辑缺乏统一卡尺。

全方位分类法：

7 大模态：全面覆盖 Sound、Music、Speech 及其各类混合模态。
6 大复杂度：涵盖单操作、多指令、多源、多轮迭代及多步推理。
8 种操作：细分局部与全局的增、删、改、提取及属性调整。

核心创新：

原子级拆解：将开放式编辑任务拆解为 17,741 个客观可验证的 Rubric-Based 细则评测（覆盖 2,000 个高保真样本）。
双轴卡尺：独立评测 Instruction Following (指令遵循) 与 Consistency (上下文一致性)，直面修改与保留的底层对抗。
客观裁判：由高性能 MLLM（如 Qwen3-Omni）进行多轮投票解答，彻底消除评测偏见。

扎心发现（现在的音频模型还吃不下这根「香蕉」🍌）：

完美执行率（EMR）全线崩塌：顶尖模型 EMR 无一例外低于 5%，复杂混合模态下直接挂 0%！
高分不等于可靠：平均分高的「全能型」模型因小错不断，完美执行率（EMR）反而输给局部「专家型」模型。
Agent 规划越帮越忙：引入外部 Planner 虽微幅提升了指令遵循，但多轮串联导致错误和伪影疯狂累积，一致性（CR）惨遭毁灭。

开源链接：

📄 Paper：

https://arxiv.org/abs/2606.07229

🔥 Daily Paper：

https://huggingface.co/papers/2606.07229

💻 Code：

https://github.com/ddlBoJack/MMAE

Dataset:

https://huggingface.co/datasets/BoJack/MMAE

（@ 社区投稿）

02 有亮点的产品

1、Opal Electronics 获 OpenAI 领投 4000 万美元 Series B 融资：拟推出首款 AI 音频硬件

高端网络摄像头厂商 Opal Camera 正式更名为 Opal Electronics，并宣布完成由 OpenAI 领投的 4000 万美元 Series B 融资，估值达 2.75 亿美元。该公司将战略重心全面转向 AI 消费电子，逐步停产现有摄像头产品，并计划在 3 至 4 个月内推出一款可切换底层大模型的 AI 音频硬件。

4000 万美元融资与股权结构：本轮融资于 2025 年第一季度完成，由 OpenAI 领投，Samsung、Peter Thiel、Seven Seven Six 及知名科技博主 MKBHD 等参投。OpenAI* 已成为 Opal 最大股东*，但并不拥有 Opal 的知识产权（IP）或设计权。
首款 AI 音频设备支持多 LLM 切换：该产品被描述为「熟悉的产品类别」，明确不是手机替代品，尚未披露是可穿戴还是桌面设备；目前已在 Sam Altman、OpenAI 研发人员以及 Anthropic 和 xAI 的高管中进行内测。Opal 正与多家主流 AI 实验室（包括 OpenAI、Anthropic、xAI）进行接口谈判，允许用户在设备上自主切换底座模型。
产品线转型与中国台湾制造：Opal 现有 C1 和 Tadpole 网络摄像头（截至 2023 年累计销量超 5 万台）将在售罄后停产，未来 12 个月内公司计划推出 3 款新型消费电子产品，其硬件生产继续由中国台湾代工厂承接。
协同 OpenAI 环境计算（Ambient Computing）战略：该投资契合 OpenAI 的环境计算愿景（即无需屏幕、通过轻量化设备实时感知世界）。由于 OpenAI 与 Jony Ive 合作的自研智能音箱类硬件因技术与商标争议已推迟至 2027 年发布，Opal 成为 OpenAI 验证实时语音/视觉交互模式的快速外部通路。

（@AING 硬迹、@Opal Electronics、@Wired、@testingcatalog）

2、微软发布 Project Solara 智能体平台和概念硬件：根据设备形态与上下文实时生成界面

微软在 Computex 2026 上推出了基于 AOSP（Android 开源项目）的智能体硬件平台 Project Solara，并公布了 Badge 和 Desk 两款处于研发阶段的概念硬件。该平台旨在剥离传统的「以应用为中心」交互模式，通过设备端轻量化系统与 Azure 云端算力协同，由 AI 智能体根据设备形态与上下文实时生成界面（Just-in-Time UI）。

基于 AOSP 构建 MDEP 系统底层：Project Solara 运行的轻量化操作系统名为「微软设备生态系统平台」（MDEP）。该系统避开了 Windows 架构，利用 Android 开源项目的硬件驱动与电源管理能力，集成了微软企业级技术和多智能体交互的 Shell 层。
即时界面生成技术（Just-in-Time UI）：系统舍弃了传统静态 App 图标平铺模式，由 Azure 云端实时驱动 AI 智能体。UI 界面根据当前上下文和硬件形态动态生成，例如在 Badge 徽章的微型屏上仅展示关键按键，而在大屏设备上则展开为完整的数据仪表盘。
Badge 概念机搭载定制低功耗高通芯片与 NPU：该随身徽章硬件集成 5G 与 Wi-Fi 芯片，其端侧 NPU 专门负责本地语音唤醒、实时音频流处理及基础计算机视觉计算，复杂的大模型推理则交由云端处理。

第一人称空间感知与多模态交互：Badge 顶部集成低功耗广角微型摄像头，可作为 AI 的视觉输入源进行第一人称视角空间感知，硬件本身支持触控、语音和手势的多模态交互。
Desk 概念机实现跨生态协同：作为固定式桌面伴侣，Desk 硬件支持人脸识别无感解锁，并能与 Windows PC、Windows 365 云电脑协同，作为辅助屏幕呈现 AI 的实时工作状态。

（@ 多知）

3、游戏硬件初创公司 Board 获 2000 万美元融资：主打实体棋子与屏幕数字内容的无缝实时交互

智能健身镜 Mirror 创始人 Brynn Putnam 创办的游戏硬件公司 Board 宣布完成 2000 万美元融资（累计融资 3500 万美元），由 Union Square Ventures 领投。其核心产品是一款售价 399 美元的 24 英寸木框触控屏设备，通过实体棋子感知技术实现线下桌游触感与电子游戏交互的融合。该公司正通过开放 SDK 构建开发者生态，并计划于 2026 年推出 AI 创作平台 Board Studio，允许用户利用自然语言生成桌游原型。

实体棋子感知技术：24 英寸触控显示屏搭载专有感知技术，可将采集的原始触控信号实时转化为对每枚实体棋子的种类、空间位置及移动轨迹的精准识别，实现物理实体与屏幕数字内容的高实时性交互。
高留存商业指标：硬件终端定价 399 美元，官方游戏库提供 13 款原创游戏（7 款内置，其余单购单价 35-45 美元），已进入全美 50 个州的数万个家庭与学校，85% 的活跃用户月均使用次数在 30 次以上。
SDK 生态与分发渠道：已向开发者开放 SDK，目前已有数千名创作者开发出绘画应用、剧情游戏、模拟器和教育工具；公司计划于今年 7 月上线 Community 板块，正式支持第三方内容的展示与分发。
AI 零代码原型生成：计划于 2026 年内上线 AI 创作平台 Board Studio，支持普通玩家通过自然语言生成桌游原型，降低游戏玩法设计与逻辑配置的技术门槛。

（@AING 硬迹）

03 有态度的观点

1、心理学家：把认知工作外包给 AI，会「失去对大脑的控制」

据 MIT Technology Review 报道，加州大学欧文分校心理学家 Gloria Mark 在 SXSW London 接受采访时讨论了数字技术和 AI 对注意力的影响。她指出，人们已经在很大程度上「失去对注意力的控制」。

Mark 的长期实验显示，2003 年用户在切换到其他任务前平均能专注约 2 分半钟；2012 年降至约 75 秒；2014 年至 2020 年的研究中进一步降到平均 47 秒。

她还在实验中看到，注意力快速切换与压力上升存在直接相关。她对 AI 聊天机器人更担心的部分，是「深度处理」被外包。Mark 表示，当人主动评估、总结和理解信息时，会更可能学习、理解和记住它；

如果把写作、总结、评价交给 ChatGPT、Claude 或 Gemini，人就把认知工作交给了 AI。她还把问题延伸到合成陪伴产品，认为顺从型机器人关系会削弱人维持真实关系所需的情绪能力。

她建议人们重新思考与 AI 技术的关系：读完整本书而非只看摘要；能当面见朋友时尽量当面；在熟悉环境里减少对 GPS 的依赖。她认为，努力本身会带来更深层的满足感，这些例子也是对注意力、记忆和情绪能力的重新训练。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

↙↙↙阅读原文可查看相关链接，并与作者交流