开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@ 鲍勃
阿里于 2026 年 6 月正式发布端到端语音识别大模型 Fun-ASR-Flash。该模型采用混合专家架构,单模型集成全球 30 种语言及国内 16 种方言的识别能力,并引入泛上下文机制,旨在解决真实业务场景中方言口音、稀缺小语种及同音词语义歧义的识别痛点。
语音识别结果:乡村振兴,家乡面貌大变样。
语音识别结果:我们宁波人早饭喜欢吃宁波年糕、炒咸菜,再来碗咸豆浆,这才是宁波的味道。
单模型集成 30 种语言,在 GigaSpeechBench 取得最佳表现:在东亚与东南亚多语种评测中,模型平均语义错误率降至 17.09,低于 Azure(22.00)、ElevenLabs Scribe v2(22.11)及 Gemini 3.0 Flash(27.02);其中,针对泰语等稀缺语料小语种的识别准确率提升约 20%。
引入泛上下文强化机制,大幅降低同音消歧误差:模型在解码阶段整合历史对话话题与用户自定义热词。评测显示,在引入相关对话上下文后,句准率由 26.8% 提升至 48.2%;在输入法场景下注入专属热词后,字错率由 4.24% 降至 3.40%(相对下降约 20%),热词召回率达 84.2%。
( @Fun Audio)
语音智能体平台 Retell 推出专门用于构建语音智能体的辅助工具 Conductor。它能够理解语音智能体在真实业务流程中如何运行,把每一项拟议修改直接展示在智能体工作流中,并且只有在人类审核批准后才会真正生效。通过自然语言描述即可端到端配置提示词、通话参数及业务流程,并通过图原生审查界面和自动化仿真测试进行调试。该工具可将智能体从概念到投产的开发效率提升 2.5 倍,构建时间缩短 60%。
图原生审查机制:摒弃传统的 JSON 差异对比,Conductor 直接在受影响的步骤或设置节点上渲染变更,支持单节点新旧值快速切换对比,并在跨节点变更时提供自动滚动定位和步骤计数引导。
自动化异常诊断与仿真测试:支持导入真实通话记录,自动分析故障并转化为测试用例;用户可在无需拨打真实电话的情况下运行模拟仿真,验证智能体在特定边缘场景下的响应表现。
端到端一键生成与工作流转化:用户使用日常自然语言即可配置音色、模型、中断处理及通话后分析等关键运行参数,并支持一键将单一提示词智能体转化为包含多步骤、多跳转逻辑的复杂对话工作流。
原生 RBAC 权限继承:Conductor 原生继承 Retell 平台的用户级角色访问控制权限,其上下文分析与数据操作边界严格受限于当前操作用户的安全审计范围。
OpenAI Codex 联合定制外设厂商 Work Louder 推出首款物理硬件 Codex Micro。该设备专为 macOS 桌面端的 Codex 智能体应用设计,旨在通过物理按键与旋钮交互,优化开发者在 AI 辅助编程及日常办公流中的操作效率。
键盘配备 13 个可映射机械按键、1 个物理摇杆以及 1 个触摸传感器,支持高度定制化的物理键位映射。解决开发者在集成开发环境(IDE)与浏览器之间频繁复制、粘贴和切换上下文的痛点,支持手不离键盘完成代码补全、纠错和版本回溯。支持通过物理旋钮直接调节 AI 生成代码的「创造力」阈值等超参数。
其深度适配周活已超 500 万的 Codex 桌面端应用,除软件开发外,还支持非技术团队用于文件整理、数据分析和发布管理等场景。
在 Humane AI Pin 和 Rabbit R1 等 C 端 AI 语音硬件因交互效率低下、偏离高频场景而遇冷的背景下,OpenAI 选择以务实的 B 端生产力桌面外设切入硬件生态。此举本质上是通过高频物理外设在开发者桌面上建立生态「锚点」,以极高的物理交互粘性锁定 Codex 用户,提高其向竞争对手工具迁移的成本。这与 Sam Altman 联合 Jony Ive 开发 C 端 AGI 终端的计划互为补充,构成了 OpenAI 软硬一体的双线布局。
该硬件已在 AI Engineer World's Fair 公开,深度适配已上线的 macOS 版 Codex 桌面端应用,具体发售日期与定价暂未公布。
( @APPSO、@OpenAIDevs\@X)
ZEEHOO 推出桌面智能体 AIPAL DOCK,彻底取消摄像头,改用 77GHz 毫米波雷达与双麦克风方案进行主动交互与状态感知。该设备由 ChatGPT 与 Gemini 驱动,通过软硬一体的桌面客户端直接抓取系统窗口像素,免除物理摄像头遮挡和反光限制,提供端侧办公辅助与游戏战术实时提示。
无摄像头物理感知:Ultra 版本内置 77GHz 窄带毫米波雷达,通过高频电磁波扫描检测用户胸腔起伏与疲劳状态;Pro 版本则采用基于双麦克风的 DOA 算法进行音频定位,在完全不采集视觉隐私的条件下实现空间状态感知。
免摄像头屏幕像素抓取:采用软硬一体的桌面客户端方案,直接在系统后台实时抓取电脑屏幕窗口、界面布局及动态画面的像素信息,绕过物理摄像头画面采集,消除屏幕反光对视觉大模型的干扰,提升响应速度。
高容量端侧存储与离线能力:设备内置 1250mAh 电池(可拔电续航约 8 小时),Pro/Ultra 版本分别提供 32GB 和 64GB 本地存储空间,最高支持离线存储 10 万条语音笔记或约 600 小时的录音。
多大模型驱动与混合收费模式:接入 ChatGPT 与 Gemini,支持 37 种语言的实时语音转录与日程同步。核心功能(长期记忆、屏幕识别、工作流联动)免费开放,另提供 $9.9/月(Plus)和 $19.9/月(Pro)的订阅方案以升级模型能力与额度。
目前该产品已在 Kickstarter 开启众筹(筹款进度已超 408%),Pro 超级早鸟价 199 美元,Ultra 超级早鸟价 219 美元,预计 2026 年 9 月交付并提供 2 年质保。
( @ 新智独角兽)
AI 记事硬件初创公司 Pocket 宣布完成 1100 万美元融资,由 Accel 领投,Y Combinator 及 ElevenLabs 联合创始人 Mati Staniszewski 参投。Pocket 推出了一款售价 129 美元的卡片式磁吸录音硬件,旨在通过捕获线下真实场景的语音并进行本地及离线转写,配合 AI 助手与第三方软件集成,切入个人与企业级会议记录市场。
硬件销售绑定订阅制服务:硬件设备售价 129 美元,无需订阅即可使用无限量录音与基础转写功能;增值服务收费 200 美元/年,用于解锁 AI 摘要、AI 助手问答、每日精选和文件附件功能。
支持 MCP 协议构建外部连接:提供模型上下文协议(MCP)服务器,允许其 AI 助手直接连接并读取用户的外部数据库,解决了传统 AI 硬件数据孤岛的痛点。
无缝集成主流开发者与办公工具:提供自定义工作流管理与 Webhook 支持,兼容 Google Calendar、OneDrive、Google Drive、Obsidian 以及 Claude 和 Cursor 等生产力与开发工具。
出货量超 13 万台:自去年产品发布以来,Pocket* 已售出超过 130,000 台硬件设备*,核心用户群体涵盖律师、销售、医生、建筑工人及学生。
( @TechCrunch)
苹果视觉产品集团硬件工程负责人 Paul Meade 将于下周离职,正式加入 OpenAI 硬件部门。他将与 Jony Ive 等前苹果核心硬件设计元老汇合,共同主导 OpenAI 正在研发的 AI 智能眼镜及多款消费级智能硬件。此举不仅标志着硅谷顶级硬件工程人才加速向 AI 头部企业流失,也直接暴露了苹果因近期高层重组带来的内部组织动荡。
Paul Meade 在苹果任职 16 年,曾任 i*Pad 关键经理与 iPhone 项目管理负责人。自 2019 年起,他全面负责苹果视觉产品集团的硬件工程,主导了 Vision Pro 以及无显示器智能眼镜、AR 眼镜等可穿戴设备研发*。
Paul Meade 将加入由 Jony Ive、唐坦、埃文斯·汉基等前苹果硬件及设计高管组成的 OpenAI 硬件设计部门。该团队此前创办的 AI 硬件初创公司于去年被 OpenAI 以 65 亿美元估值收购,目前正在推进包含智能眼镜在内的多款 AI 消费电子产品。
自 John Ternus 接任苹果首席执行官、芯片负责人 Johny Srouji 兼管首席硬件官后,苹果硬件工程部门进行了重组。Paul Meade 等多位副总裁的汇报对象被调整至新任副总裁 Tom Marieb,实质性降低了原有高管的组织层级,直接导致了此次核心人才流失。
受 Vision Pro 市场表现低迷影响,苹果已将视觉产品集团拆分为独立的硬件和软件部门,并将部分团队并入 Siri 项目以加速端侧 AI 落地。产品优先级已从封闭式 VST 头显转向轻量化眼镜,而新版封闭式头显项目已被推迟至 2028 年底至 2029 年。
( @XR Vision)
OpenAI Codex 负责人 Andrew Ambrosino 近日在播客节目《Lenny‘s Podcast》中坦言,AI 在创意设计领域的能力仍存在明显短板——设计的好坏比代码能否运行更难量化,这使得用于训练模型「什么是好设计」的反馈回路难以建立。
设计比软件更难评分,构建一个能训练模型辨别好坏设计的循环,比判断代码能不能跑起来要繁琐得多。
Figma CEO Dylan Field 此前也在播客《Hard Fork》中指出,AI 模型基于「数据分布」进行训练,产出的设计结果往往落在「平均水平」区间,缺乏让人眼前一亮的创造性。
这一特质决定了 AI 在审美判断和设计品味上的先天局限。Ambrosino 最后以一句话作结:「先为人类大脑鼓掌吧。」
( @APPSO)
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考