图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Google 发布 Gemma 4 12B:首个原生支持音频输入的无编码器模型,16GB 显存即可运行

Google 发布了 Gemma 4 12B,这是其首款支持原生音频输入的中量级多模态模型。该模型采用全新的无编码器(Encoder-free)架构,将视觉与音频处理直接集成在 LLM 主干网络中,旨在 16GB 显存的消费级硬件上实现高性能智能体(agent)推理。

参考链接:

https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/?utm_source

( @blog.google)

2、SoulX-Transcriber 开源:基于 LLM 的端到端多人对话转录模型,SOTA 性能覆盖多项公开基准测试

图片

西北工业大学 ASLP\@NPU 团队联合 Moonstep AI 开源了 SoulX-Transcriber。该模型在单一 LLM 框架下实现了话者日志(SD)与语音识别(ASR)的联合建模,解决了多人对话中声音重叠、频繁交替及边界分割不准的痛点

Demo : 

https://soul-ailab.github.io/soulx-transcriber/

论文链接: 

http://arxiv.org/abs/2606.02400

GitHub : 

https://github.com/Soul-AILab/SoulX-Transcriber

HuggingFace:

https://huggingface.co/Soul-AILab/SoulX-Transcriber

(@ 社区投稿)

02 有亮点的产品

1、手亿科技获数千万元 Angel++ 轮融资:发布 1/10 成本 POV 具身智能数采方案,支持毫米级手势重建

具身智能数据基础设施供应商手亿科技(Showee)宣布完成数千万元天使 ++ 轮融资,为 4 个月内完成的第 3 轮融资。公司旨在通过极低成本(竞品 1/10)、高精度的可穿戴 POV 设备,解决通用机器人大模型训练中高质量手部操作数据稀缺的瓶颈。

图片

图片

(@ 手亿科技 Showee)

2、Aippy 完成数千万美元首轮融资并从赤子城剥离:估值 2.5 亿美元,构建 NLP 驱动的 AI 原生互动社区

图片

图片

AI 互动社区 Aippy(所属主体 NADA AI)宣布完成数千万美元首轮融资,由歌未资本(Glowill Capital)领投投后估值达 2.5 亿美元。该项目正式从港股上市公司赤子城科技(NewBorntown)剥离独立运营,旨在通过自然语言处理技术(NLP)降低游戏开发门槛,实现互动娱乐内容的 UGC 化。

(@ 投资界)

3、Memories.ai 发布 LUCI Desktop 预览版:实现端侧视觉 AI 实现实时工作流自动化

Memories.ai 推出 LUCI Desktop 预览版,这是一款基于端侧视觉 AI 技术的个人智能体。该工具通过实时观察用户屏幕、会议和工作流,构建可检索的「视觉记忆」,并能基于上下文自动执行邮件起草、会议准备及任务管理等复杂工作流

试用链接:

https://luci.memories.ai/

( @shawnshenjx\@X)

4、Suno 官宣获得超 4 亿美元 D 轮融资

图片

AI 音乐生成平台 Suno 通过官方博客宣布,已完成超过 4 亿美元 的 D 轮 融资,投后估值达到 54 亿美元

本轮融资由 Bond Capital 领投,多家新投资方、现有投资方以及部分音乐行业从业者参与跟投

官方表示,新资金将用于帮助更多用户进行音乐表达,并计划在未来几个月内开始推出其与音乐产业合作开发的首个 音乐模型,以为粉丝创造新体验并帮助艺术家解锁商业可能。

(@ 橘鸦 Juya)

03 有态度的观点

1、「AI 谄媚」让 CEO「容易患上 AI 精神病」

图片

据《卫报》报道,AI 谄媚(AI sycophancy)正从产品体验问题演变为社会风险。专栏作者 Arwa Mahdawi 昨日发文指出,AI 行业的集体亢奋正在扭曲部分企业高管的现实判断

网络上流传着一句话:「你认识的最蠢的人,此刻正在被 AI 告知『你绝对正确』(You’re absolutely right)。」

这句调侃精准点出了 AI 谄媚的本质——聊天机器人被刻意设计为持续附和用户、给予正向反馈,以此提升用户黏性。但这种设计也让人更难发现自身判断的漏洞。Box 联合创始人 Aaron Levie 此前在 X 上写道:

CEO 天然容易患上「AI 精神病」。他们处于决策层顶端,离具体执行太远,接触 AI 时往往只看到演示中的顺利路径,根本没有考虑后续还需要十几、二十个步骤才能真正落地。

这种认知偏差的代价已在实际事故中显现。今年 4 月,由 Anthropic Claude 驱动的一个 AI 编程智能体出错,删除了初创公司 PocketOS 的全部生产数据库及备份。创始人 Jeremy Crane 事后表示:

行业把 AI 智能体接入生产基础设施的速度,已经明显快于安全架构的建设速度

Mahdawi 认为,问题根源在于 AI 被刻意设计为「顺从」,持续附和用户观点以提升黏性,但这也让人更难发现自身判断的漏洞。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流