开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@ 鲍勃
1、豆包语音合成模型 2.0 升级,语义理解 + 情感演绎双突破
火山引擎重磅升级豆包语音合成模型 2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型 2.0(Doubao-Seed-ICL 2.0)。此次升级基于豆包大语言模型研发语音合成新架构,让合成和复刻的声音都能解锁深度语义理解和上下文理解能力,从单纯的文本朗读进化为「理解后的精准情感表达」。
此外 2.0 模型针对教育场景专项优化,使得全科复杂公式符号的合成平均准确率高达 90% 左右。目前火山引擎已为 OPPO、Keep、美图、儿歌多多、洋葱学园、跃然创新等客户提供对话助手、情感陪伴、内容配音、教育辅助等多场景语音服务。
对话式合成让豆包语音合成模型 2.0 像是一位会思考的「演绎者」,让声音具备深度语义理解能力,并进一步将理解范围从给定文本扩大到多轮对话,理解包括:对话中的用户 Query、明确的自然语音指令,以及描述性的内心活动、背景信息、细腻情感等,让 AI 语音从「听得清」转变到「懂语义知语境」的情感式表达。
豆包声音复刻模型 1.0 仅需 5 秒即可还原用户声音核心特征,轻松实现「声似」。但随着用户对个性化声音交互的需求升级,单一的声线复刻已无法满足对「更拟人、更富情感的生动表达」的追求。豆包声音复刻模型 2.0 同样具有深度语义理解能力,在语音交互、小说配音、播客对话等场景中具备更强的声音表现力。
豆包语音合成模型 2.0 和豆包声音复刻模型 2.0 提升了学科教育场景下复杂公式符号的朗读表现,针对教育场景进行数据增广与模型优化,涵盖单位、函数、幂数、面积、化合物、复分解等上百种类,经过大量客户真实场景的复杂公式评测集测试验证,在小学至高中全学科(数学、英语、化学、物理、地理、生物)的复杂公式符号朗读任务中,平均准确率达 90% 左右。
(@ 火山引擎)
2、讯飞语音合成技术再升级:声音百变、真人感拉满
讯飞自研的语音合成大模型底座技术再次升级,不仅能够精准实现多属性的指令控制合成,让声音复刻更加灵活百变,更能支持长上下文的情感自适应合成能力,让超拟人合成更加温暖共情。
声音复刻:新增主动控制能力,只需上传一句录音,在保持原始音色的基础上,即可成多语种、多方言、多风格、多人设、多情感的合成语音 ****
超拟人合成:具备自适应情感合成能力,支持数十种特色副语言和状态,覆盖咳嗽、清嗓、打喷嚏、笑声、哭声等类人表现
基于主流开源和闭源语音合成系统的客观效果评测集,讯飞 TTS 在中文测试集上词错误率 WER 最低,取得了 SOTA 语音合成效果,超越其它多个主流模型。
新升级的声音复刻和超拟人合成 API 均已上线讯飞开放平台,开发者可登录相关产品页进行咨询和调用。
👉声音复刻:
https://www.xfyun.cn/services/quick_tts
👉超拟人合成:
https://www.xfyun.cn/services/smart-tts
(@ 讯飞开放平台)
1、加利福尼亚率先对 AI 陪伴聊天机器人实施监管
加利福尼亚州州长加文·纽森(Gavin Newsom)于签署了一项具有里程碑意义的法案,对 AI 陪伴聊天机器人进行监管,使加州成为全美第一个要求 AI 聊天机器人运营商为 AI 陪伴系统实施安全协议的州。
这项名为 SB 243 的法律旨在保护儿童和弱势用户免受使用 AI 陪伴聊天机器人可能带来的一些危害。它使公司,从 Meta 和 OpenAI 等大型实验室,到 Character AI、Replika 等专注于陪伴型聊天机器人的初创公司,在其聊天机器人未能达到法律标准时承担法律责任。
SB 243 将于2026年1月1日生效,要求公司实施某些功能,如年龄验证,以及有关社交媒体和陪伴聊天机器人的警告。该法律还对从非法深度伪造(deepfake)中获利的行为设定了更严厉的惩罚,每次违规最高可罚款 25 万美元。公司还必须建立应对自杀和自残的应急协议,并将这些方案与相关数据(如平台向用户提供危机干预中心通知的次数)一同提交给加州公共卫生部。
根据法案条文,平台还必须明确表明所有互动均为人工生成,聊天机器人不得冒充医疗专业人员。公司还需为未成年人提供休息提醒,并阻止他们查看由聊天机器人生成的色情露骨图像。
Character AI 表示,其聊天机器人包含免责声明,说明所有对话均为 AI 生成且虚构。Character AI 的一位发言人告诉 TechCrunch,公司欢迎与监管机构和立法者合作,共同制定针对这一新兴领域的规章和法律,并将遵守包括 SB 243 在内的相关法规。
SB 243 是加利福尼亚州近几周出台的第二项重要 AI 法规。9 月 29 日,纽森州长签署了 SB 53 成为法律,为大型 AI 公司制定了新的透明度要求。该法案要求大型 AI 实验室(如 OpenAI、Anthropic、Meta 和 Google DeepMind)在安全协议上保持透明,并确保这些公司的员工享有举报人保护。
其他州(如伊利诺伊州、内华达州和犹他州)也已通过法律,限制或全面禁止使用 AI 聊天机器人作为持牌心理健康护理的替代品。
近日,OpenAI CEO Sam Altman 发文宣布,ChatGPT 将会在未来几周内发布新版本,并会在 12 月推出更为全面的年龄分级,允许 ChatGPT 提供成人内容。
(@ 技术前哨)
2、Meta WhatsApp 调整 API 政策:禁止通用聊天机器人,可能影响 OpenAI、Perplexity
Meta 旗下的聊天应用 WhatsApp 本周更改了其商业 API 政策,禁止通用聊天机器人进入其平台。此举可能影响 OpenAI、Perplexity、由 Khosla Ventures 支持的 Luzia 以及由 General Catalyst 支持的 Poke 等公司的基于 WhatsApp 的助手。
该公司在其商业 API 条款中添加了一个新部分,以应对「AI 提供者」,重点针对通用聊天机器人。这些条款将于2026年1月15日生效,其中表示 Meta 不会允许 AI 模型提供者在 WhatsApp 上分发其 AI 助手。
人工智能或机器学习技术提供者和开发者,包括但不限于大型语言模型、生成式人工智能平台、通用人工智能助手或 Meta 根据其独断专行确定的类似技术(「AI 提供者」),在 Meta 根据其独断专行确定的技术是主要(而非偶然或辅助)功能时,严格禁止直接或间接访问或使用 WhatsApp 商业解决方案,以提供、交付、提供或销售此类技术。
Meta 向 TechCrunch 确认了这一举措,并指出这一举措不影响在 WhatsApp 上使用人工智能为客户服务的业务。例如,一家运营客户服务机器人的旅游公司不会被禁止使用该服务。
Meta 此举的理由是,WhatsApp Business API 是为企业服务客户而设计的,而不是作为聊天机器人分发平台。该公司表示,虽然该 API 是为企业对企业使用场景而构建的,但在最近几个月,它意外地看到了为通用聊天机器人提供服务的使用案例。
1、TEN Framework 新增人声分离能力
来自 @elliotchen100\@X
录了一个视频,TEN 语音 AI 识别多个音色
3 个人分别说一句 hello,锁定声音
然后每个人说自己喜欢吃什么
TEN 根据音色去打标签记录
这个场景实际应用中非常广泛
不仅可以识别多人对话场景
还可以锁定声音后,对周围噪音降噪
当然,还可以省 token,只传一个人的声音给 LLM
1、智元机器人高级副总裁:人形机器人不会被一两家垄断
日前,智元机器人高级副总裁王闯接受新浪财经的采访,对于如何看待国内人形机器人产业的竞争格局,王闯认为,这个产业最终会比汽车产业还要大,不可能是一两家龙头垄断。
王闯指出,人形机器人产业有几个特点:
产业规模足够大,细分领域有非常多不同的需求,每一家公司可能都有一些擅长的点;
全球每一个区域都有很多差异化的需求,如果一个公司能够比较专注于做这些差异化需求,可能做得比头部的大公司还要更好。「比如有手机厂商在非洲就活得比较好,有些车企在越野车赛道做得很好。」
同时,王闯也在采访中表示,人形机器人落地的难度是分阶梯的,而到家里干活其实是最难的场景,因为它要解决的问题非常多,比如安全问题、成本问题、同时对各种复杂任务的泛化性要高,且不能破坏家里的东西,这些问题是非常难。但在一些简单的场景,人形机器人今年就已经可以落地了。
「去年人形机器人还走不稳,今年大家能看到机器人满地跑,甚至能够跳各种花里胡哨的舞蹈」,王闯预测,「这一年的发展速度已经非常快了,在我们看来很多过去我们认为可能 3-5 年后能解决的问题,过去一年都被解决掉了。」
对于如何看待「机器人替人」这一问题,王闯指出,想让机器代替人的前提条件是有非常好的成功率,但从成本角度讲,机器还不能替代人工。「现在谈替代人工还早得很,未来五年能替代就已经很不错了。」
在王闯看来,机器人(含人形)落地的合理路线,会遵循先不做跟物理世界接触的领域,而是要先做那些能够把自己的运动能力、交互能力体现出来,且能很容易地与大语言模型、多模态模型结合的领域,是那些能给用户带来很好的体验,能带来实际价值的领域,最后再做跟物理世界接触。
(@ APPSO)
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻