图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃**

01 有话题的技术

1、Google AI Studio 推出 Gemini 2.5 Pro/Flash TTS 增强版,提升多模态交互与控制精度
****

Google AI Studio 发布了 Gemini 2.5 Flash 和 Gemini 2.5 Pro 文本转语音(TTS)预览模型的重大更新。新版本增强了模型的表现力、节奏控制和多说话人一致性,旨在满足内容创作者、开发者对高保真、精细化控制语音生成的需求。

新版 Gemini 2.5 Flash 和 2.5 Pro TTS 模型现已通过 Gemini API 在 Google AI Studio 的 Playground 中可用。

Gemini 模型链接:

https://ai.google.dev/gemini-api/docs/models

试用链接:

https://aistudio.google.com/apps

https://aistudio.google.com/generate-speech

@Google AI Studio)

#####

2、AV1 获艾美奖:Mozilla 披露下一代 AV2 将原生支持 Alpha 通道与屏幕内容优化

#####

图片

#####

当地时间 12 月 4 日,电视学院(Television Academy)正式授予 AV1 规范「技术与工程艾美奖」,标志着这一由 AOMedia 主导的免版税视频标准已从互联网领域渗透至主流广电行业。Mozilla 在回应中强调,此奖项验证了通过开源协作打破 H.264/H.265 专利授权壁垒的必要性,并正式确认了下一代编解码器 AV2 的关键技术特性。

值得注意的是 AOMedia 对 AV2 功能的定义——「屏幕内容优化」和「Alpha 通道」并非针对传统的电影播放,而是直指云游戏(Cloud Gaming)远程桌面实时合成场景。这暗示了 AOMedia 的野心已从单纯的视频流媒体,延伸至下一代实时交互基础设施。

https://blog.mozilla.org/en/mozilla/av1-video-codec-wins-emmy/

@Mozilla Blog)

3、GLM‑TTS 开源:3 秒复刻声音,从情感表达到工业级落地

今天,智谱正式上线并开源 GLM‑TTS 工业级语音合成系统。

只需 3 秒语音样本,GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音。

为实现这一能力,GLM‑TTS 在架构上采用两阶段生成,并在训练中引入基于 GRPO 的强化学习方案,在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。

值得一提的是,GLM-TTS 仅使用 10w 小时训练数据,远低于行业主流商用模型。同时,GLM-TTS 也兼顾了训练成本和效果,预训练仅需要单机 4 天即可得到开源 SOTA「发音准确度」与超高「音色还原度」,精品音色 LORA 和强化学习也仅需要单机 1 天即可完成训练,远低于行业平均水平。

另外,GLM‑TTS 还以更低的价格获得了行业领先的 MOS 分数(平均主观意见分)。

图片

智谱在主流开源社区同步开源 GLM‑TTS 相关资源(模型权重、推理脚本、示例项目等):

开发者可以基于主流推理框架,在 GPU 环境中快速部署 GLM‑TTS,并按需做二次开发。

@GLM 大模型)

4、eSIM 采用率攀升:iPhone Air 等设备推动,激活率达 30%,中国市场蓄势待发
****

图片

尽管全球 eSIM 采用率目前仍低(今年预计超 5%),但得益于苹果「iPhone Air」、谷歌「Pixel 10」等手机制造商推出 eSIM 专属设备,以及旅行市场对便捷连接的强劲需求,eSIM 的普及正在加速。分析师预计,eSIM 设备激活率将从 2024 年的 30% 增长到 2030 年的 75%,同时中国市场有望成为新的增长引擎。

图片

eSIM 技术和支持设备已广泛可用。eSIM 服务通过主流运营商及 Airalo、Holafly 等第三方应用提供,用户可按需选择。

@TechCrunch


###

02 有亮点的产品

1、企业语音 AI 客服 Recho 完成 3 亿日元 A 轮融资,加速企业级 Voice AI 平台通用化****

图片

日本 Voice AI 平台提供商株式会社 Recho 宣布完成 A 轮融资,总额 3 亿日元,由 SBI Investment 领投。本轮融资将用于加速其企业级 Voice AI 平台在多行业通用化落地,并强化技术研发和组织能力。

Recho 平台目前已在企业市场提供服务,融资将用于进一步扩大服务范围和产品通用化。

@PR TIMES)

2、Tavus 推出「Tavus PAL」AI Santa 增强版:支持视觉感知与自主动作,用户互动时长达数小时
****

图片

AI 初创公司 Tavus 发布了其 AI Santa 体验的增强版本,核心升级为「Tavus PAL」实时智能体架构。新版 AI Santa 可感知用户表情、记忆对话,并执行自主动作,实现高度个性化和沉浸式的多模态交互,吸引用户日均互动数小时。

AI Santa 体验目前已通过免费账户开放使用。

体验链接:https://santa.tavus.io/

@TechCrunch


###

03 有态度的观点 

1、何小鹏谈为何把机器人做成人形:社会都是为了人去思考、设计

#####

日前,小鹏汽车董事长何小鹏在参加极客公园创新大会 2026 上,谈到了「为何把机器人做成人形」这一热门话题。

何小鹏表示,小鹏的机器人,其希望能够真正走入到商业、工业、家庭,在未来的时间。「所以我们一直都觉得它需要拟人,一个拟人的机器人需要有人的形态、人的长相、人的肌肉、人的皮肤。」


何小鹏坦言,小鹏这一次做的机器人里面,第一次发现了以前团队人员自己研发机器人七年,却不愿意碰、拥抱这个机器人。

因为你看到这个机器人是个钢铁,你会担心它有电,你会担心它有威胁,担心它摸起来不舒服。一旦当机器人有肌肤、皮肤、血肉的时候,你会感觉到它是真正可能是你未来的伙伴。

具体来看,何小鹏认为环境适配性、数据获取、工具使用都将是解答「为何把机器人做成人形」的核心:

今年 11 月,小鹏在科技日活动上展示了最新一代人形机器人 IRON。该机器人在舞台上走「猫步」如人一样轻盈,因此引发互联网一阵猜疑,不少网友更是称「里面是真人扮演的」。

活动后,何小鹏及机器人团队不得不将机器人蒙皮、打印骨骼剪开,以此证明「真·机器人」。

@APPSO


###

04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩!上海 GDPS 2025 见!

#####

图片

https://mp.weixin.qq.com/s/IZWjSUyooM5OwGrIhBmMqw

📅 时间:12 月 13 日(周六)下午

📍 地点:GDPS 全球开发者先锋大会,上海张江科学会堂

除了沉浸式体验《Talk With》桌游,我们还特别邀请到 TEN Framework 的增长黑客 June,带来一场关于对话式 AI 产品与技术趋势的精彩分享——助你快速把握行业脉搏、洞察技术前沿。动脑又动手,玩中学、学中玩,千万别错过!

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示:个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流