开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、HojoAI 开源 40M/80M 小参数端侧模型,支持免 GPU 部署

HojoAI 开源了轻量级商用 TTS 模型家族 Hojo-TTS-Light,包含 80M 与 40M 两个参数版本。该系列基于 Token-LM 架构与 FSQ 技术,在极低参数量下实现了接近 0.6B 大模型的音质表现(Seed-TTS 评测集 DNSMOS 平均分大于 4.0)。模型支持原生中英双语与 ONNX 导出,允许开发者在无需 GPU 的普通 CPU 或边缘设备上,进行低延迟的本地语音合成与少样本音色克隆。

GitHub: 

https://github.com/HojoAI/Hojo-TTS-Light

Hugging Face: 

https://huggingface.co/HojoAI/Hojo-TTS-Light-40M

@Hojo 恒聚愿景)

2、阿里发布 Wan-Streamer v0.1:面向实时交互的流式端到端模型,边听、边看、边思考、边说话,并实时生成视频回应

阿里 Wan 团队发布了实时交互端到端多模态模型 Wan-Streamer v0.1。该模型通过单一 Transformer 统一建模文本、音频与视频流,实现了全双工流式输入输出,将模型侧响应延迟降至约 200ms,为高实时性音视频智能体提供了全新架构。

论文:

https://arxiv.org/html/2606.25041

项目页:

https://wan-streamer.com/

@wan-streamer

3、Together AI 联合斯坦福评测主流实时语音智能体:普遍存在「情感智能缺口」,120 次决策中 119 次忽略语音语气仅依文本行动

当来电者的话语和表达方式不一致时,实时语音系统会采信话语的内容。有个拨打 911 的来电者一直在哭泣,但坚称自己没事,而 GPT Realtime 2 却结束了这次通话。

Together AI 与斯坦福大学研究人员发表最新预印本论文,评测了 OpenAI、谷歌、阿里巴巴旗下的 4 款主流实时语音智能体在文本内容与语音语气冲突时的决策表现。研究发现,这些系统在 120 次多轮对话测试中,有 119 次完全忽略了声音中的哭泣、恐惧和反讽等关键情感特征,仅依据字面转写文本进行决策。这种感知与行动脱节的现象被研究者定义为语音人工智能的「情感智能缺口」。

论文:

https://arxiv.org/abs/2606.26083

GitHub:

https://github.com/bartelds/real-time-voice

( @BarteldsMartijn\@X@GitHub)

02 有亮点的产品

1、SpeakON 取消 10 美元/月 Pro 订阅:推行 129 美元硬件买断制,AI 语音功能全面免费

AI 语音转文字硬件厂商 SpeakON 宣布永久取消每月 10 美元的 Pro 订阅计划,向所有硬件购买者免费开放全部 AI 功能。已订阅的老用户将获得按比例退款,此举旨在解决硬件买家对「二次订阅付费」的认知失调,通过「硬件买断」降低用户激活与留存门槛

@AING 硬迹)

2、Kimba 完成 650 万美元种子轮融资:推出首款 AI 自适应闭环香氛睡眠干预设备,临床认知表现提升 21%

睡眠科技公司 Kimba 宣布完成 650 万美元种子轮融资,由 Selva Ventures 领投。本轮资金将用于其 AI 自适应香氛睡眠干预系统的商业化落地。该系统利用嗅觉通路直接连接边缘系统且无需通过丘脑中转的神经科学原理,在不唤醒大脑皮层的前提下,通过实时生理监测与算法闭环,在夜间自动释放特定气味脉冲,从而优化深层睡眠质量。

@AING 硬迹)

3、上海交大团队 Auren 推出 50g 宠物第一视角 AI 穿戴设备:自研 Always-Sensing 架构与多模态行为模型

上海交通大学团队研发的 AI 原生宠物穿戴设备 Auren 计划于今年 8 至 9 月在北美启动众筹。该设备重 50g,采用宠物第一视角 POV 进行 7×24 小时连续数据采集,通过端侧与云边端协同架构,自动过滤无用信号并生成高光行为片段与情感健康档案

(@ 后浪 new)

03 有态度的观点

1、 Anthropic 报告:越依赖 AI 自动完成任务,对职业前景越乐观

最常把任务整个交给 Claude 的用户,反而是对自身职业前景最乐观的一群人。这是 Anthropic 不久前发布的《Anthropic Economic Index》六月报告中给出的调查结论。

报告将用户的使用方式区分为「自动化」和「增强」两种模式。前者指用户倾向于一次性将完整任务交给 Claude 执行,几乎不做中间干预;后者则是人机反复迭代、共同完成任务。

报告将薪资预期、工作安全感、找到新工作的能力、工作意义、自主性和人际互动六个维度的预期变化与用户自动化使用比例交叉分析后发现,自动化使用比例越高的受访者,在这六个维度上对 AI 影响的预期均更为正面。其中,对薪资提升和找工作能力的乐观程度差距最为明显

报告还记录了另一个与「委托导致技能退化」这一常见担忧相悖的数据:重度委托用户认为自身技能市场价值上升的比例,随自动化使用比例的增加而升高;但「使用 AI 后学到更多」这一指标则在不同使用程度的人群中基本持平,未见明显差异。

Anthropic 承认,这一关联存在选择效应的可能——即本就对 AI 最积极的人,也更愿意把任务完整交出。报告在控制用户注册时长(作为早期采用者热情程度的代理变量)后,上述正向关联依然成立,但研究者表示无法完全排除这一解释。

📄 报告全文:

anthropic.com/research/economic-index-june-2026-report

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、活动推荐|当数据的头号消费者变成 Agent:七位开源 AI 数据一线决策者,北京见

这不是一场产品发布,而是一场一线技术决策者之间的对话。台上的人,分别在不同的位置上真刀真枪地解决「Agent 时代的数据底座」这个问题:

一个下午,你能一次性听到开源、企业、数据库、创业四个视角对同一个问题的不同答案。

——烦请认真完善填写,报名超出场地容量时将按匹配度筛选

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流