开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 瓒 an、@ 鲍勃

01 有话题的技术

1、清华等联合发布 UltraEval-Audio v1.1.0：引入隔离推理机制，支持 TTS/ASR/Codec 模型一键复现

清华、OpenBMB、面壁智能联合发布 UltraEval-Audio v1.1.0 版本，在原有的「一键测评」音频模型的基础上，重点新增热门音频模型的一键复现能力，扩展对 TTS/ASR/Codec 等专业模型与专项评测的支持，并引入隔离推理运行机制，以在工程层面降低复现门槛、提升评测流程的可控性与可迁移性。

在 v1.1.0 中，打破了「仅评测通用音频大模型」的边界，将评测能力下探至 TTS（语音合成）、ASR（语音识别）与 Audio Codec（音频编解码）三大专有领域，打造全链路的音频评测基础设施。

TTS 语音合成：聚焦任务多样性
- 针对 TTS 模型，集成了权威数据集 Seed-TTS-Eval，CV3-Eval， Long-TTS，支持 VC 音色克隆与长语音合成等典型任务场景，为模型在合成文本准确性，音色模仿，声学自然上的表现提供多维度定量基准。
ASR 语音识别：多场景覆盖
- 针对 ASR 模型，支持了包括 LibriSpeech、Common Voice、AISHELL-1、WenetSpeech 在内的十余个主流数据集。评测范围横跨清晰朗读（AISHELL-1）到复杂真实环境（WenetSpeech），从单一语种（LibriSpeech）到多语种（MLS、FLEURS），确保评测结果具有广泛的鲁棒性参考价值。
Audio Codec 音频编解码：构建三维评测体系
- Codec 作为音频基础模型的底层组件，其重建质量至关重要。针对现有评测标准不统一的痛点，构建了语义、音色、声学的「三维评测体系」，为模型优化提供精细的诊断工具：
- 语义：采用 Whisper-large-v3 与 Paraformer-zh 计算 WER（词错率），确保内容不丢失；
- 音色：基于 WavLM-large 提取声纹特征并计算余弦相似度，衡量音色保真度；
- 声学：结合 UTMOS（自然度）与 DNSMOS（抗噪/音质），客观量化听感体验。

v1.1.0 版本已在 GitHub 开源，并同步发布包含官方复现脚本与 Benchmark 报告的文档目录。

GitHub:

https://github.com/OpenBMB/UltraEval-Audio

（@OpenBMB 开源社区）

02 有亮点的产品

1、Looki 获蚂蚁美团 A 轮融资：自研「场景自适应智能」架构，实现 7.9 小时长时多模态记录

AI 硬件初创公司「Looki」完成超 2000 万美元 A 轮融资，由蚂蚁集团领投、美团龙珠等多家机构跟投。公司产品 Looki L1 通过记录多模态上下文构建个人生活图谱，目前正从被动响应模式转向基于「场景自适应智能」的主动服务阶段。

从响应式向主动式 AI 演进：Looki 推出「场景自适应智能」架构。设备通过对实时环境和用户行为的持续学习，从被动等待 Prompt 转向主动识别关键时刻，实现如咖啡过量提醒、久坐提醒、CES 逛展自动总结等前瞻性功能。
长时穿戴数据验证：Looki L1 采用非事件驱动的产品形态，用户人均使用时长已从 6.2 小时提升至 7.9 小时。这一数据证明了设备在采集高密度、长时段多模态生活碎片数据方面的可行性。
非结构化数据自动化处理：系统支持将采集到的视频、图片和音频碎片自动加工，生成每日总结 Vlog、生活洞察分析以及连载漫画。利用大模型能力实现对个人生活数据的语义化索引与二次创作。
核心团队技术背景：创始人孙洋与 CTO 刘博聪均为 CMU 校友，曾分别在 Google Assistant、美团智能硬件、Momenta 及 Pony.ai 担任核心职务，具备将自动驾驶级别感知算法应用于消费级硬件的技术底层支撑。

( @Founder Park)

2、夸克 AI 眼镜更新：新增录音纪要、图文备忘录、大模型多意图理解与执行等功能

昨天，搭载千问 AI 助手的夸克 AI 眼镜迎来首次 OTA 升级，新增录音纪要、图文备忘录、大模型多意图理解与执行、蓝环支付、社区服务五项功能，并同步优化翻译、行程查询、音乐播放等常用场景。

在录音场景中，升级后的夸克 AI 眼镜可实现十米范围内收音并有效降噪；系统可识别不同说话对象，对录音内容进行 AI 要点提炼，并自动生成待办事项。目前支持中文、英语、日语、韩语四种语言的录音转写及互译。

在备忘录场景中，用户可通过拍照或语音方式记录信息。系统具备 AI 分类与语义理解能力，可根据用户提问自动检索历史记录，如在询问「最近一个月我想买的家具有哪些」时，眼镜会汇总相关内容并给出结果。

本次升级的核心亮点是大模型支持的多意图理解与执行能力。相比多数仅能处理单一指令的 AI 眼镜，夸克 AI 眼镜已可理解并执行 2 至 3 个复合任务，如地图、音乐、日历等，提高工作与生活场景的效率。

随身翻译功能也同步增强，支持 89 种语言，覆盖英、日、韩、法、德等主流语种及多个国家和地区的小众语言，适用于跨境旅行与商务交流。

夸克 AI 眼镜目前已推出 S1、G1 两个系列共六款产品。作为阿里千问 C 端事业群的重要业务方向，千问 AI 助手正以 APP 为核心入口，加速向眼镜、PC、汽车等多终端延伸。

( @APPSO)

3、首款「语音转艺术」智能画布将亮相 CES 2026

据 The Verge 报道，Fraimic 将在今年 CES 2026 上首次公开展示其号称「市场首款语音转艺术」的智能画布 Fraimic Smart Canvas。

据悉，Fraimic Smart Canvas 采用全彩 Spectra 6 电子墨水屏，主打类纸质哑光观感、无眩光显示，并因仅在「换画」时耗电，可实现多年级别的电池续航。

用户只需轻触画框边缘垫子并描述想看到的画面，系统即可在数秒内生成 AI 艺术作品。Fraimic 强调设备无需 App、无需订阅、不依赖云端，可在本地私密运行；用户也可通过手机访问本地网页上传图片，无需安装额外应用。

Fraimic 表示，该产品的核心理念是「以硬件为中心」，将其视为可长期使用的艺术展示载体，而非以 AI 为主导的数码设备。其设计获得 BIG SEE Product Design Award 2026 等多项国际奖项。

产品将提供两种尺寸：

标准版 13.3 英寸（适配 14×18×2 英寸画框）
大号版 31.5 英寸（适配 24×36×2 英寸画框）

支持上墙或搁架摆放，均为无电源线设计。预购价格分别为 399 美元与 999 美元，众筹平台 Kickstarter 预计今年 5 月发货，面向消费者的直销渠道预计今年 6 月启动。

Fraimic 去年完成预生产样机，并在 Kickstarter 上筹集超过 100 万美元，目前正与 Sungale Electronics 合作推进量产准备，包括测试、验证与合规流程。

( @APPSO)

4、Subtle 发布无线语音耳机：搭载定制芯片唤醒锁屏 iPhone，转录错误率较 AirPods Pro 3 降低 80%

语音 AI 初创公司 Subtle 推出集成原生语音隔离模型的无线耳机。该设备通过定制硬件实现了在 iPhone 锁定状态下的免按键 AI 唤醒与交互，旨在提供高精度的移动端语音输入接口。

定制芯片突破系统限制：内置专用芯片支持在 iOS 设备锁屏状态下直接唤醒 AI，解决了第三方应用在移动端交互路径冗长的问题。
5 倍于竞品的转录精度：官方测试数据显示，其语音捕捉错误率比「AirPods Pro 3」配合「OpenAI」转录模型的方案低 5 倍，支持在极度嘈杂环境及低声耳语状态下准确识别。
全场景听写集成：耳机配合其 iOS 和 Mac 应用，可实现在任何第三方 App 中进行全局语音听写，直接竞争对手锁定「Wispr Flow」和「Superwhisper」。
底层模型工程化背景：公司此前已向「Qualcomm」及「Nothing」授权降噪隔离算法，本次发布标志着其从算法供应商向垂直整合的硬件厂商转型。

售价 199 美元（包含一年期订阅），提供黑白两色，已在官网开启预购，预计未来几个月内在美国市场发货。

早些时间在 25 年 11 月，加州初创公司 Subtle Computing 宣布完成 600 万美元种子轮融资，由 Entrada Ventures 领投。该公司正通过其专有的语音分离模型，解决嘈杂环境下人声捕获的关键难题。

( @TechCrunch)

5、Plaud 升级录音胶囊 NotePin S，从硬件扩展至会议转录软件市场

硬件厂商「Plaud」于 CES 2026 前夕发布 AI 录音胶囊新版本「NotePin S」及配套桌面端应用程序。该更新标志着 Plaud 从单一的线下录音硬件扩展至线上会议转录市场，旨在通过硬件控制与多模态软件输入，构建完整的会议记录工作流。

新增物理交互与重点高亮功能：设备增加实体按键用于控制录音起止。在录音过程中，用户可点击按键手动标记重点，功能逻辑与高端型号「Plaud Note Pro」对齐。
硬件参数与存储规格：内置 64GB 闪存，支持连续 20 小时录音；搭载双 MEMS 麦克风阵列，有效拾音半径为 9.8 英尺（约 3 米）。
接入 Apple「Find My」生态：硬件原生支持苹果查找网络，可通过 iOS 设备定位追踪。随机附带四种佩戴配件（夹扣、挂绳、磁贴、腕带），覆盖多种移动办公场景。
桌面端系统音频采集系统：新推出的桌面 App 支持通过 Mac 系统音频直接采集线上会议内容，具备自动检测会议活动并触发转录的能力，直接竞争对手包括 Granola 与 Fireflies。

多模态记录：桌面端支持在音频转录的同时，同步嵌入图像素材与手动输入的文本笔记，将纯音频转录升级为结构化的多模态文档。

Plaud NotePin S 定价 179 美元，包含全套佩戴组件；每月提供 300 分钟免费转录额度。桌面端应用已同步上线。

( @TechCrunch)

03 有态度的观点

1、Google 工程师：Claude Code 一小时完成团队一年工作量

Google 资深工程师亚娜・多根（Jaana Dogan）近日在 X 平台公开表示，Anthropic 推出的 Claude Code 在仅一小时内生成了一套可用系统，其完成度已接近她所在团队过去一年构建的成果，引发业内广泛关注。

多根在 Google 负责 Gemini API 相关工作。她透露，此次测试中，她向 Claude Code 提交的提示词并不复杂，仅包含三段内容，且未使用任何 Google 内部资料，而是基于公开信息构建了一个简化版需求。

Claude Code 在短时间内生成的系统核心为「分布式智能体编排器」，用于协调多个人工智能体协同工作。多根称，Google 团队此前曾尝试多种技术路线，但始终未能达成一致。

她强调，Claude Code 的输出仍需进一步优化，但其整体表现已足够令人惊讶。

她建议对代码生成工具持怀疑态度的开发者，尝试在自身熟悉的专业领域进行测试，以获得更直观的判断。多根同时确认，Google 内部禁止在非开源项目中使用 Claude Code。

在被问及 Gemini 是否会达到类似能力时，多根回应称团队正在全力推进模型与工具链的研发。她表示，人工智能行业并非零和竞争，在竞争对手取得进展时给予肯定是合理的做法。

多根还回顾了人工智能辅助编程技术的演进，她坦言，过去对技术进展的预期已被现实超越：

2022 年：仅能完成单条代码补全；
2023 年：可处理完整代码片段；
2024 年：扩展至跨文件协作，可构建简单应用；
2025 年：已能独立构建并重构完整代码库。

多根近期在 X 上的发言也反映出她对行业现状的思考。她指出，软件行业复杂度与流程摩擦不断上升，开发者难以「直接把事情做成」，而围绕编码智能体的争议只是行业结构性问题的表象。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示：个人观点，仅供参考

↙↙↙阅读原文可查看相关链接，并与作者交流