AI测试 通义上线语音双模型:自然语言指令控制声音表达、音色与场景;儿童 AI 语音互动故事平台 Giant 融资 800 万美元丨日报

RTE开发者社区 · 2026年03月03日 · 62 次阅读

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、通义实验室上线语音双模型:支持自然语言指令,自由控制音色与听觉场景

图片

针对生僻字、复杂语句等容易读错的场景专项优化,生僻字读错率从 15.2% 降至 5.3%,复杂文本表现更加稳定,长文本朗读也更稳定流畅。

图片

Fun-AudioGen-VD: 整体表现稳定,Avg-APS 达到 89.25,是该组测试中语音质量最高的模型之一。

3 月 2 日消息,通义实验室正式发布两款支持 FreeStyle 指令生成的语音双模型:Fun-CosyVoice3.5 与 Fun-AudioGen-VD。传统语音生成通常依赖固定的情绪选项或风格模板,而此次技术更新的核心突破在于摆脱预设标签,允许用户通过自然语言指令直接描述并控制声音表达、音色与场景

这两款模型均支持自然语言指令,但在具体应用方向上各有侧重:

  • Fun-CosyVoice3.5:侧重于多语种复刻与精细化表达控制。该模型新增了泰语、印尼语、葡萄牙语和越南语四种小语种。在准确性与性能方面,其生僻字读错率从 15.2% 降至 5.3%;通过强化学习技术调优,提升了韵律表现与复刻音质;同时将首包延迟降低了 35%,优化了实时交互的流畅度。

  • Fun-AudioGen-VD:聚焦于声音设计与场景化音频生成,支持「人物 + 场景」的一体化塑造。该模型不仅能通过指令精细控制性别、年龄、情绪甚至复杂心理等角色音色特征,还能模拟城市喧嚣、空间回声及老式广播等设备滤镜,打造带有动态互动的沉浸式听觉环境。

指令:场景是在一家热闹的咖啡馆里。背景能听到磨豆机的嗡嗡声、瓷杯碰撞的清脆声,还有远处模糊的人声。说话人语气很松弛,就像是坐在对面跟你喝下午茶。

合成文本:哎,你尝尝他家这个新品,味道挺特别的。我刚才还想呢,咱下周要不把老李也约出来?咱三个好久没凑一块儿坐坐了。

这两款模型的上线,使语音生成从基础的功能工具升级为可编排的创作工具。在影视动画、游戏及有声书等实际场景中,创作者能够通过自然语言快速定义目标声音,从而降低录制与调试成本。

相关文档:

https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api

(@ 通义实验室)

2、Core AI 框架取代 Core ML?曝苹果 WWDC 26 开发者大会将公布多项 AI 功能

图片

3 月 1 日,彭博社记者马克·古尔曼在最新一期《Power On》通讯中表示,苹果计划在 WWDC 26 开发者大会上发布全新 Core AI 框架,取代现有的 Core ML

古尔曼表示,苹果不太可能一下子就让 Core AI 完全取代 Core ML,而且 6 月的发布会可能只是一次简单的更名,让该框架更加贴近当前的实际用途,毕竟苹果已经为 Core ML 提供大语言模型、扩散模型等集成。

并且,Core AI 框架还将帮助开发者在应用中集成第三方 AI 模型。不过目前我们并不清楚其具体实现方式,理论上来讲 MCP(模型上下文协议)是一种可行方案。

虽然此前曾有传闻称苹果 iOS 27 将类似 Mac OS X Snow Leopard 那样主打「零新功能」,以修复、提升稳定性为主。但苹果仍有可能会在 WWDC 26 上放出基于谷歌 Gemini 训练的 Apple 智能。

(@ 极客公园)

02 有亮点的产品

1、联想携两款桌面 AI 硬件亮相 MWC 2026:概念机器人与智能时钟重塑办公体验

图片

图片

3 月 2 日,2026 年世界移动通信大会(MWC)在巴塞罗那开幕。联想在现场展出了折叠游戏本、模块化笔记本等多款概念新品,并带来两款面向办公场景的 AI 硬件:桌面 AI 机器人 AI Workmate 与智能桌面时钟 AI Work Companion

这两款概念设备在形态与功能上各有侧重:

  • AI Workmate 桌面机器人:搭载英特尔酷睿 Ultra 处理器与 64GB 内存,正面配有 3.4 英寸 LCD 屏幕以显示表情。它支持语音、手势与本地 AI 处理,能扫描文档生成摘要并辅助制作 PPT。设备头部内置摄像头与微型投影模块,现场演示了投影图片、扫描纸质签名并直接发送打印的办公流程。该原型机主要探索空间与实体 AI 的应用,针对频繁语音交互可能产生的噪音问题,现场有反馈期望未来增加文字交互方式。

  • AI Work Companion 智能时钟:整体造型简约,顶部设有旋钮与自定义按键,正面屏幕主要显示日历与任务清单。它通过 USB-C 供电并可作为拓展坞为其他设备充电。其内置的 AI「思维气泡」模式支持跨设备同步日程并自动生成每日计划,同时会监测屏幕使用时间、提醒定时休息,并在周末生成任务完成报告。

联想方面表示,这两款概念产品意在展示人工智能如何自然融入日常办公环境,在提升工作效率的同时兼顾健康的办公节奏。

@AI 星球视界)

2、Timekettle 发布 W4 AI 翻译耳机,以骨传导与智能引擎攻克复杂环境拾音难题

3 月 1 日消息,人工智能翻译技术企业 Timekettle 宣布将首次亮相于 3 月 2 日至 5 日在巴塞罗那举行的 2026 年世界移动通信大会(MWC 2026)。继此前在 CES 和 IFA 等展会上展示创新成果后,Timekettle 此次重点展出了其高响应速度的 W4 AI 翻译耳机。

W4 翻译耳机搭载了全新的 Babel OS 2.0 系统,通过软硬件融合,主要解决跨语言交流中「语音拾取不清晰」和「翻译不准确」两大核心难题。其系统集成了两项关键技术:

  • AI 骨传导拾音技术(AI Bone-Conduction Pickup):传统翻译耳机依赖空气传导麦克风,在嘈杂环境中容易受干扰。W4 改为直接从用户声带捕捉振动,将语音与环境噪音隔离,确保在机场、展会或繁华街道等复杂场景下依然能精准锁定用户声音。

  • 智能 SOTA 引擎选择器(SOTA Engine Selector):该功能可实时识别语言组合,并自动分配最适合该语种的翻译引擎。每个引擎均针对特定语法结构、表达模式及语境进行过优化,使商务谈判、技术讨论或日常对话的翻译效果更贴近母语使用者的自然表达。

通过构建纯净输入、智能引擎选择与精准输出的闭环系统,W4 提升了在复杂环境下的翻译稳定性。Timekettle 此次在 MWC 2026 的展出,体现了其将前沿技术与实际场景驱动设计相结合的产品思路,进一步推动了跨语言互动的自然性与准确性。

( @PR Newswire)

3、科大讯飞推出 AI 学习机 T90 Pro,主打跨学段诊断与交互式教学

图片

RUNTO 数据显示,2025 年中国学习平板市场全渠道销量达 632.1 万台,同比增长 6.7%。在此市场需求背景下,科大讯飞推出新款 AI 学习机 T90 Pro。有别于直接输出计算结果的通用大模型,该设备侧重于学习过程的探究与启发,通过整合学情诊断、辅导教学与反馈激励环节,构建系统化的个性化学习链路。

作为垂直领域的教育硬件,该款学习机的核心功能主要围绕以下三个维度展开:

  • 跨学段学情诊断:设备内置覆盖全国 32 个省级行政区的区域化知识图谱,支持跨年级追溯并定位知识薄弱点。据测试数据,使用该功能进行同章节查漏补缺时,学习耗时可减少 64%,学会率提升 3.1 倍。

  • 交互式辅助教学:搭载名为「晓悦」的 AI 辅导模块。在处理错题时,系统不直接提供最终答案,而是先分析具体的个性化错因,随后通过板书式的互动引导,辅助学生理解相关考点。

  • 学习反馈与管理机制:结合教育心理学理论对学习反馈系统进行设计,在完成练习后提供详尽的具体评价。此外,设备配备的「小飞 AI 学伴」可协助整理错题、报听写,并提供日常的倾听与陪伴功能

该产品的底层技术壁垒依托于科大讯飞在教育领域 22 年的数据沉淀与行业经验。其业务服务覆盖全国超 5 万所学校,并与北师大、华东师大等学术团队开展了深度合作,例如设备内采用的 AI 作文批改技术即与中高考阅卷系统同源。通过将人工智能技术与教育垂直领域的专业知识相融合,科大讯飞在市场端保持了稳定的份额,数据显示其已连续五年位居高端学习机销售额与销量首位。

(@ 量子位)

4、AI 儿童故事平台 Giant 获 800 万美元融资,AI 对话时长破百万分钟

图片

图片

近日,面向儿童的 AI 互动故事平台 Giant 宣布完成 800 万美元种子轮融资。本轮融资由 Matrix、Decasonic 与 Griffin Gaming Partners 联合领投,Perceptive Ventures 等多家机构跟投。该笔资金将主要用于扩展其互动故事平台。

Giant 成立于 2025 年 5 月,由连续创业者约翰·科布斯(John Kobs)创办。科布斯表示,创办初衷是希望研发一款让孩子从内容消费者转变为创造者的产品。在当前的数字环境中,Giant 试图提供一个安全可靠的空间,用以培养孩子的想象力并塑造品格,让儿童不只是观看故事,而是亲身融入故事之中

目前,该平台主要具备以下三项核心功能:

  • 专属形象生成:可根据儿童的实际照片生成对应的专属卡通人物。

  • 个性化剧集定制:支持孩子自主创作故事情节,并观看以自己名字和兴趣为特色的专属动画。

  • 智能实时互动:支持儿童与故事中的 AI 角色展开直接对话。

运营数据方面,自上线以来,Giant 平台内儿童与 AI 角色的对话总时长已突破 100 万分钟,累计制作个性化剧集超过 20 万集。投资方认为,该产品将儿童创造力的第一性原理与人工智能技术相结合,正在定义一个由 AI 驱动的创意故事讲述新类别。

(@ 多知)

5、OpenAI 探索成人语音与文本交互:ChatGPT 试水「Naughty Chats」,需自拍验证年龄以规避合规风险

据 Android Authority 挖掘最新的 ChatGPT 安卓应用程序更新代码(版本号 v1.2026.055)发现,OpenAI 可能即将推出一项名为「Naughty Chats」的成人内容模式。此举呼应了该公司首席执行官 Sam Altman 去年 10 月关于放宽成人内容限制的预告。

根据隐藏的代码字符串显示,「此设置允许 ChatGPT 在用户提问时使用更大胆、成人主题的语言」。关于该模式的运行机制,目前透露出以下核心信息:

  • 严格的年龄门槛与验证:该功能仅面向 18 岁及以上用户开放,并要求进行强制年龄验证。OpenAI 近期引入了年龄预测工具,会通过账户活跃时长、常见使用时段、填写的年龄以及其他使用习惯来判定用户年龄的真实性。若未通过该验证,用户将被转入青少年模式。若需进一步确认,用户须通过第三方机构 Persona 上传自拍照完成验证。

  • 主动开启机制:符合 Altman 此前的表态,这种对成人内容友好的模式不会默认启用,只有在用户主动提出要求并开启后才会激活。

目前,该功能似乎仍处于开发阶段,代码中尚未提供明确的激活方式。在当前的人工智能领域,部分其他平台已允许使用成人主题的语言,但一些竞争对手(如 Grok)也曾因缺乏安全护栏、允许生成真实人物的非自愿色情图像而遭到外界批评。相较而言,OpenAI 在放宽限制的同时,正试图通过年龄验证等手段控制合规风险。

( @PCMag)

03 有态度的观点 

1、沃尔玛首席人力官莫里斯:美国劳动力需学习中国,那里 5 岁孩子都在学 DeepSeek

据《财富》杂志报道,美国企业正加速推进 AI 培训,以避免劳动力在技术变革中落后。德勤、Verizon 和沃尔玛等大型企业均已启动大规模员工培训计划。

沃尔玛首席人力官唐娜 · 莫里斯在接受《财富》采访时表示,这种趋势不仅关系到企业自身,更关系到美国整体经济竞争力:「看看中国,5 岁的孩子就开始学习 DeepSeek,显而易见,中国对能力建设有多重视。如果美国也全面推动 AI 能力建设,将对经济产生深远影响。」

中国正在系统性推进 AI 教育。北京已要求中小学每学年至少提供 8 小时 AI 课程,内容涵盖聊天机器人使用和 AI 伦理等主题。中国学生整体在校学习时间也普遍高于美国学生。

报道还指出,中国的教育投入正在转化为人才优势。保尔森研究所 2020 年研究显示,全球近三分之一顶级 AI 人才出生于中国,美国科技公司正以高薪争夺这些人才。譬如,Meta 去年 6 月成立 Superintelligence Labs 时,11 名研究人员中有 7 人出生于中国,且全部从美国境外招募。

据 IT 之家了解,美国企业界正日渐将 AI 教育视为战略重点。去年,包括微软 CEO 萨蒂亚 · 纳德拉、DoorDash CEO 徐迅以及 Airbnb CEO 布莱恩 · 切斯基在内的 400 多位企业负责人联名致信美国立法者,呼吁将计算机科学和 AI 纳入所有学生的基础课程体系。「在 AI 时代,我们必须让孩子成为 AI 创造者,而不仅是使用者。计算机科学和 AI 基础是帮助学生在技术时代取得成功的关键,否则将面临落后的风险。」

莫里斯认为,缩小 AI 人才差距的关键在于企业主动投资员工培训:「大型雇主必须积极帮助员工适应 AI 驱动和数字化的工作环境。如果所有企业共同投入培训,整体劳动力竞争力将显著提升。」

她还指出,AI 培训适用于几乎所有岗位:「AI 的独特之处在于它几乎不受岗位限制。不同岗位使用 AI 的方式可能不同,但所有人都应具备这方面的能力。」

@IT 之家)

04 有看点的活动 

1、Open Claw 碰撞场:来北京五道口,和 AI 大佬们一起「碰」出点东西

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册