图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、涵盖 1 万小时语音数据:大规模川渝方言语料库 WenetSpeech-Chuan 正式开源

针对拥有约 1.2 亿母语使用者的川渝方言面临标注资源匮乏、语音技术发展受限的现状,西北工业大学音频语音与语言处理研究组联合希尔贝壳、中国电信人工智能研究院、南京大学及 Wenet 开源社区,正式发布并开源了首个大规模多维标注川渝方言语音语料库——WenetSpeech-Chuan。

该语料库填补了方言领域大规模开源数据的空白,解决了现有数据集规模小、场景覆盖有限且缺乏元数据的问题。WenetSpeech-Chuan 包含 10,000 小时的高质量语音数据,涵盖短视频、综艺、直播等 9 大真实场景。通过自主设计的 Chuan-Pipeline 处理框架,该项目实现了从原始语音到丰富注释语料的系统化构建,具体技术亮点包括:

为支持严格的系统评估,团队同步发布了全面的评测基准 WSC-Eval。其中,WSC-Eval-ASR 包含人工精标的「简单」与「困难」声学子集;WSC-Eval-TTS 则涵盖了特定词汇短句及包含俚语、绕口令的长句,用于测试语音合成的泛化能力。实验数据显示,基于该语料库训练的模型在川渝方言 ASR 与 TTS 任务中表现优异,性能超越了 FireRedASR-AED 等当前最先进系统,并在部分指标上与商业系统持平。

目前,WenetSpeech-Chuan 的数据、代码、模型及技术报告已全部在 HuggingFace 和 GitHub 开源,这也是 ASLP 实验室继开源粤语数据集 WenetSpeech-Yue 后的又一重要成果。

项目主页链接:

https://github.com/ASLP-lab/WenetSpeech-Chuan

GitHub: 

https://github.com/ASLP-lab/WenetSpeech-Chuan

(@ 音频语音与语言处理研究组)

2、Sarvam AI 将于 2 月 14 日发布 Sarvam Audio:基于 3B 参数 LLM 的全场景印度语语音模型

图片

Sarvam AI 推出基于 Sarvam 3B 语言模型扩展的音频模型「Sarvam Audio」,支持 22 种印度语言及印度英语。该模型跳出传统 ASR 框架,通过引入上下文感知与格式控制,显著降低了多语混杂场景下的字错率,性能超越 Gemini 3 Flash 与 GPT-4o Transcribe。

Sarvam Audio 将很快在 Sarvam Dashboard 上线,为构建适应印度本土需求的新一代语音应用提供基础设施。

( @Sarvam AI Blog、@pratykumar\@X)

3、面壁智能发布 MiniCPM-o 4.5:9B 参数实现全双工多模态流式交互,OCR 与视觉性能超越 GPT-4o

图片

图片

面壁智能(OpenBMB)发布 MiniCPM-o 4.5,这是其端到端多模态系列的最新进展。该模型基于 9B 参数,集成了 SigLip2、Whisper-medium、CosyVoice2 与 Qwen3-8B,首次在端侧量级实现了具备主动交互能力的「全双工」实时音视频交互体验

模型已在 Hugging Face、GitHub 与 Ollama 同步上线,支持商业闭源模型的本地化替代。

GitHub: 

https://github.com/OpenBMB/MiniCPM-o?tab=readme-ov-file#minicpm-o-45

HuggingFace: 

https://huggingface.co/openbmb/MiniCPM-o-4_5

体验链接:

https://minicpm-omni.openbmb.cn/

( @OpenBMB\@X@GitHub)


02 有亮点的产品

1、索尼降噪豆 6 曝光,有望本月发布

图片

据《The Mac Observer》报道,近日,索尼「降噪豆 6」WF‑1000XM6 的泄露信息流出,显示新款在设计、音频处理与连接稳定性方面均有不同程度的升级,同时价格也将上调至美国约 329 美元、欧洲约 299 欧元。

泄露的渲染图显示,WF-1000XM6 的外观延续 XM5 的整体风格,但改用哑光材质,并配备更小的胶囊形充电盒,耳机本体支持 IPX4 防水并标配泡沫耳塞。WF‑1000XM6 的主要功能升级包括:

报道指出,索尼预计在今年 2 月中旬开启 WF-1000XM6 的预购,并在 2 月下旬正式上市。

( @APPSO)

2、海马爸比推出首款 AI 魔法打印机:支持语音生图,进军儿童 AI 教育市场

图片

据 2 月 2 日消息,海马爸比正式推出首款 AI 魔法打印机。该产品面向 2 岁以上儿童群体,标志着该品牌从母婴 AI 看护专家向儿童 AI 教育伙伴方向进行战略拓展。

这款 AI 魔法打印机定位为「创造力启蒙工具」,核心逻辑在于「语音生图 + 即时打印」,并搭载配套工具以完成互动闭环。这一模式与海外市场获得 700 万美元投资的 Stickerbox AI 贴纸打印机类似,通过「语音描述—AI 生成—即时打印」的流程,激发儿童的想象力。海马爸比此次布局 AI 教育硬件,显示了其推动品牌从看护服务向「AI 教育伙伴」转型的计划。

在产品功能与配置方面,该设备具备以下特点:

公开资料显示,海马爸比是星巡集团旗下的智慧母婴品牌,长期深耕 0—3 岁婴儿看护领域。其核心产品智能婴儿看护器在 2022 年至 2024 年间销量位居全国第一,产品覆盖全球 50 余个国家,累计销量已突破 150 万台。

(@ 即智 Ultra)

3、Lotus Health 获 3500 万美元 A 轮融资:推出 24/7 免费「AI 医生」,由人类医生审核兜底

医疗 AI 初创公司 Lotus Health 宣布完成 3500 万美元的 A 轮融资,致力于打造能够免费为患者看病的「AI 医生」。本轮融资由 CRV 和 Kleiner Perkins 共同领投,使其融资总额达到 4100 万美元。

该公司由 KJ Dhaliwal 创立,他曾于 2019 年以 5000 万美元出售了南亚约会应用 Dil Mil。Dhaliwal 表示,自幼充当父母医疗翻译的经历让他深感美国医疗体系的低效,而大语言模型的出现提供了改善这一现状的契机。

Lotus Health 于 2024 年 5 月推出了 Lotus Health AI,这是一个免费的初级保健提供平台,支持 50 种语言,提供 24/7 全天候服务。目前,许多人已开始向 ChatGPT 等 AI 咨询健康问题,但 Lotus 不止步于聊天,而是推进到实际的医疗护理环节,包括诊断、开具处方和专科转诊。

本质上,Lotus 构建了一个像真实医疗机构一样运作的「AI 医生」,其拥有在全美 50 个州运营的执照、医疗事故保险、符合 HIPAA 标准的系统以及对患者记录的完全访问权限。

在运行机制上,Lotus 开发了一种 AI 模型,能够结合最新的循证医学研究、患者病史和临床问答来生成治疗方案。其运作特点如下:

Lotus 亦承认虚拟护理的局限性。对于紧急健康问题,平台会引导患者前往最近的急救中心;若需体检,则转诊至线下医生。在初级保健医生短缺的背景下,Lotus 声称其接诊量可达传统诊所的 10 倍。

领投方 CRV 的合伙人 Saar Gur 认为,疫情期间建立的远程医疗框架结合 AI 的突破,使 Lotus 能够克服监管和工程障碍,试图从根本上重构初级保健模式。

目前,Lotus 面临来自 Doctronic 等对手的竞争,其差异化在于提供完全免费的服务。Dhaliwal 表示,未来的商业模式可能包括赞助内容或订阅,但当前重心仍是产品开发与用户增长。

相关链接:https://lotus.ai/

( @TechCrunch)

03 有态度的观点 

1、QuestMobile:AI 成移动互联网最强增长引擎,AIGC 应用月活净增超 2 亿

图片

昨天,调研机构 QuestMobile 发表最新研报,显示 AI 已成为今年移动互联网增长的最核心驱动力,其中 AIGC APP 与插件生态贡献了最显著的增量。

AIGC 应用月活用户规模在去年实现净增超 2 亿,同比增速达到 150.4%,AI 插件月活规模则达到 6.96 亿,同比提升 37.8%,成为推动用户时长增长与生态重构的关键力量。

此外,小程序生态在微信、支付宝及百度平台持续扩张,生活服务成为三大平台的核心场景。微信平台中,生活服务类月活超千万的小程序数量达到 68 个,远高于同类 APP 的 36 个,平台流量聚合作用明显。

同时,短剧内容的持续走热推动视频类小程序快速增长,微信与抖音生态中相关小程序在 TOP100 中占比分别达到 17% 与 36%。

在整体趋势之外,报告还披露了多个行业与场景的细分变化:

@APPSO

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考​


↙↙↙阅读原文可查看相关链接,并与作者交流