AI测试通义上线语音双模型：自然语言指令控制声音表达、音色与场景；儿童 AI 语音互动故事平台 Giant 融资 800 万美元丨日报

RTE开发者社区 · 2026年03月03日 · 2182 次阅读

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 瓒 an、@ 鲍勃

01 有话题的技术

1、通义实验室上线语音双模型：支持自然语言指令，自由控制音色与听觉场景

针对生僻字、复杂语句等容易读错的场景专项优化，生僻字读错率从 15.2% 降至 5.3%，复杂文本表现更加稳定，长文本朗读也更稳定流畅。

Fun-AudioGen-VD: 整体表现稳定，Avg-APS 达到 89.25，是该组测试中语音质量最高的模型之一。

3 月 2 日消息，通义实验室正式发布两款支持 FreeStyle 指令生成的语音双模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD。传统语音生成通常依赖固定的情绪选项或风格模板，而此次技术更新的核心突破在于摆脱预设标签，允许用户通过自然语言指令直接描述并控制声音表达、音色与场景。

这两款模型均支持自然语言指令，但在具体应用方向上各有侧重：

Fun-CosyVoice3.5：侧重于多语种复刻与精细化表达控制。该模型新增了泰语、印尼语、葡萄牙语和越南语四种小语种。在准确性与性能方面，其生僻字读错率从 15.2% 降至 5.3%；通过强化学习技术调优，提升了韵律表现与复刻音质；同时将首包延迟降低了 35%，优化了实时交互的流畅度。
Fun-AudioGen-VD：聚焦于声音设计与场景化音频生成，支持「人物 + 场景」的一体化塑造。该模型不仅能通过指令精细控制性别、年龄、情绪甚至复杂心理等角色音色特征，还能模拟城市喧嚣、空间回声及老式广播等设备滤镜，打造带有动态互动的沉浸式听觉环境。

指令：场景是在一家热闹的咖啡馆里。背景能听到磨豆机的嗡嗡声、瓷杯碰撞的清脆声，还有远处模糊的人声。说话人语气很松弛，就像是坐在对面跟你喝下午茶。

合成文本：哎，你尝尝他家这个新品，味道挺特别的。我刚才还想呢，咱下周要不把老李也约出来？咱三个好久没凑一块儿坐坐了。

这两款模型的上线，使语音生成从基础的功能工具升级为可编排的创作工具。在影视动画、游戏及有声书等实际场景中，创作者能够通过自然语言快速定义目标声音，从而降低录制与调试成本。

02 有亮点的产品

1、联想携两款桌面 AI 硬件亮相 MWC 2026：概念机器人与智能时钟重塑办公体验

3 月 2 日，2026 年世界移动通信大会（MWC）在巴塞罗那开幕。联想在现场展出了折叠游戏本、模块化笔记本等多款概念新品，并带来两款面向办公场景的 AI 硬件：桌面 AI 机器人 AI Workmate 与智能桌面时钟 AI Work Companion。

这两款概念设备在形态与功能上各有侧重：

AI Workmate 桌面机器人：搭载英特尔酷睿 Ultra 处理器与 64GB 内存，正面配有 3.4 英寸 LCD 屏幕以显示表情。它支持语音、手势与本地 AI 处理，能扫描文档生成摘要并辅助制作 PPT。设备头部内置摄像头与微型投影模块，现场演示了投影图片、扫描纸质签名并直接发送打印的办公流程。该原型机主要探索空间与实体 AI 的应用，针对频繁语音交互可能产生的噪音问题，现场有反馈期望未来增加文字交互方式。
AI Work Companion 智能时钟：整体造型简约，顶部设有旋钮与自定义按键，正面屏幕主要显示日历与任务清单。它通过 USB-C 供电并可作为拓展坞为其他设备充电。其内置的 AI「思维气泡」模式支持跨设备同步日程并自动生成每日计划，同时会监测屏幕使用时间、提醒定时休息，并在周末生成任务完成报告。

联想方面表示，这两款概念产品意在展示人工智能如何自然融入日常办公环境，在提升工作效率的同时兼顾健康的办公节奏。

（@AI 星球视界）

2、Timekettle 发布 W4 AI 翻译耳机，以骨传导与智能引擎攻克复杂环境拾音难题

3 月 1 日消息，人工智能翻译技术企业 Timekettle 宣布将首次亮相于 3 月 2 日至 5 日在巴塞罗那举行的 2026 年世界移动通信大会（MWC 2026）。继此前在 CES 和 IFA 等展会上展示创新成果后，Timekettle 此次重点展出了其高响应速度的 W4 AI 翻译耳机。

W4 翻译耳机搭载了全新的 Babel OS 2.0 系统，通过软硬件融合，主要解决跨语言交流中「语音拾取不清晰」和「翻译不准确」两大核心难题。其系统集成了两项关键技术：

AI 骨传导拾音技术（AI Bone-Conduction Pickup）：传统翻译耳机依赖空气传导麦克风，在嘈杂环境中容易受干扰。W4 改为直接从用户声带捕捉振动，将语音与环境噪音隔离，确保在机场、展会或繁华街道等复杂场景下依然能精准锁定用户声音。
智能 SOTA 引擎选择器（SOTA Engine Selector）：该功能可实时识别语言组合，并自动分配最适合该语种的翻译引擎。每个引擎均针对特定语法结构、表达模式及语境进行过优化，使商务谈判、技术讨论或日常对话的翻译效果更贴近母语使用者的自然表达。

通过构建纯净输入、智能引擎选择与精准输出的闭环系统，W4 提升了在复杂环境下的翻译稳定性。Timekettle 此次在 MWC 2026 的展出，体现了其将前沿技术与实际场景驱动设计相结合的产品思路，进一步推动了跨语言互动的自然性与准确性。

( @PR Newswire)

3、科大讯飞推出 AI 学习机 T90 Pro，主打跨学段诊断与交互式教学

RUNTO 数据显示，2025 年中国学习平板市场全渠道销量达 632.1 万台，同比增长 6.7%。在此市场需求背景下，科大讯飞推出新款 AI 学习机 T90 Pro。有别于直接输出计算结果的通用大模型，该设备侧重于学习过程的探究与启发，通过整合学情诊断、辅导教学与反馈激励环节，构建系统化的个性化学习链路。

作为垂直领域的教育硬件，该款学习机的核心功能主要围绕以下三个维度展开：

跨学段学情诊断：设备内置覆盖全国 32 个省级行政区的区域化知识图谱，支持跨年级追溯并定位知识薄弱点。据测试数据，使用该功能进行同章节查漏补缺时，学习耗时可减少 64%，学会率提升 3.1 倍。
交互式辅助教学：搭载名为「晓悦」的 AI 辅导模块。在处理错题时，系统不直接提供最终答案，而是先分析具体的个性化错因，随后通过板书式的互动引导，辅助学生理解相关考点。
学习反馈与管理机制：结合教育心理学理论对学习反馈系统进行设计，在完成练习后提供详尽的具体评价。此外，设备配备的「小飞 AI 学伴」可协助整理错题、报听写，并提供日常的倾听与陪伴功能。

该产品的底层技术壁垒依托于科大讯飞在教育领域 22 年的数据沉淀与行业经验。其业务服务覆盖全国超 5 万所学校，并与北师大、华东师大等学术团队开展了深度合作，例如设备内采用的 AI 作文批改技术即与中高考阅卷系统同源。通过将人工智能技术与教育垂直领域的专业知识相融合，科大讯飞在市场端保持了稳定的份额，数据显示其已连续五年位居高端学习机销售额与销量首位。

（@ 量子位）

4、AI 儿童故事平台 Giant 获 800 万美元融资，AI 对话时长破百万分钟

近日，面向儿童的 AI 互动故事平台 Giant 宣布完成 800 万美元种子轮融资。本轮融资由 Matrix、Decasonic 与 Griffin Gaming Partners 联合领投，Perceptive Ventures 等多家机构跟投。该笔资金将主要用于扩展其互动故事平台。

Giant 成立于 2025 年 5 月，由连续创业者约翰·科布斯（John Kobs）创办。科布斯表示，创办初衷是希望研发一款让孩子从内容消费者转变为创造者的产品。在当前的数字环境中，Giant 试图提供一个安全可靠的空间，用以培养孩子的想象力并塑造品格，让儿童不只是观看故事，而是亲身融入故事之中。

目前，该平台主要具备以下三项核心功能：

专属形象生成：可根据儿童的实际照片生成对应的专属卡通人物。
个性化剧集定制：支持孩子自主创作故事情节，并观看以自己名字和兴趣为特色的专属动画。
智能实时互动：支持儿童与故事中的 AI 角色展开直接对话。

运营数据方面，自上线以来，Giant 平台内儿童与 AI 角色的对话总时长已突破 100 万分钟，累计制作个性化剧集超过 20 万集。投资方认为，该产品将儿童创造力的第一性原理与人工智能技术相结合，正在定义一个由 AI 驱动的创意故事讲述新类别。

（@ 多知）

5、OpenAI 探索成人语音与文本交互：ChatGPT 试水「Naughty Chats」，需自拍验证年龄以规避合规风险

据 Android Authority 挖掘最新的 ChatGPT 安卓应用程序更新代码（版本号 v1.2026.055）发现，OpenAI 可能即将推出一项名为「Naughty Chats」的成人内容模式。此举呼应了该公司首席执行官 Sam Altman 去年 10 月关于放宽成人内容限制的预告。

根据隐藏的代码字符串显示，「此设置允许 ChatGPT 在用户提问时使用更大胆、成人主题的语言」。关于该模式的运行机制，目前透露出以下核心信息：

严格的年龄门槛与验证：该功能仅面向 18 岁及以上用户开放，并要求进行强制年龄验证。OpenAI 近期引入了年龄预测工具，会通过账户活跃时长、常见使用时段、填写的年龄以及其他使用习惯来判定用户年龄的真实性。若未通过该验证，用户将被转入青少年模式。若需进一步确认，用户须通过第三方机构 Persona 上传自拍照完成验证。
主动开启机制：符合 Altman 此前的表态，这种对成人内容友好的模式不会默认启用，只有在用户主动提出要求并开启后才会激活。

目前，该功能似乎仍处于开发阶段，代码中尚未提供明确的激活方式。在当前的人工智能领域，部分其他平台已允许使用成人主题的语言，但一些竞争对手（如 Grok）也曾因缺乏安全护栏、允许生成真实人物的非自愿色情图像而遭到外界批评。相较而言，OpenAI 在放宽限制的同时，正试图通过年龄验证等手段控制合规风险。

( @PCMag)

03 有态度的观点

1、沃尔玛首席人力官莫里斯：美国劳动力需学习中国，那里 5 岁孩子都在学 DeepSeek

据《财富》杂志报道，美国企业正加速推进 AI 培训，以避免劳动力在技术变革中落后。德勤、Verizon 和沃尔玛等大型企业均已启动大规模员工培训计划。

沃尔玛首席人力官唐娜 · 莫里斯在接受《财富》采访时表示，这种趋势不仅关系到企业自身，更关系到美国整体经济竞争力：「看看中国，5 岁的孩子就开始学习 DeepSeek，显而易见，中国对能力建设有多重视。如果美国也全面推动 AI 能力建设，将对经济产生深远影响。」

中国正在系统性推进 AI 教育。北京已要求中小学每学年至少提供 8 小时 AI 课程，内容涵盖聊天机器人使用和 AI 伦理等主题。中国学生整体在校学习时间也普遍高于美国学生。

报道还指出，中国的教育投入正在转化为人才优势。保尔森研究所 2020 年研究显示，全球近三分之一顶级 AI 人才出生于中国，美国科技公司正以高薪争夺这些人才。譬如，Meta 去年 6 月成立 Superintelligence Labs 时，11 名研究人员中有 7 人出生于中国，且全部从美国境外招募。

据 IT 之家了解，美国企业界正日渐将 AI 教育视为战略重点。去年，包括微软 CEO 萨蒂亚 · 纳德拉、DoorDash CEO 徐迅以及 Airbnb CEO 布莱恩 · 切斯基在内的 400 多位企业负责人联名致信美国立法者，呼吁将计算机科学和 AI 纳入所有学生的基础课程体系。「在 AI 时代，我们必须让孩子成为 AI 创造者，而不仅是使用者。计算机科学和 AI 基础是帮助学生在技术时代取得成功的关键，否则将面临落后的风险。」

莫里斯认为，缩小 AI 人才差距的关键在于企业主动投资员工培训：「大型雇主必须积极帮助员工适应 AI 驱动和数字化的工作环境。如果所有企业共同投入培训，整体劳动力竞争力将显著提升。」

她还指出，AI 培训适用于几乎所有岗位：「AI 的独特之处在于它几乎不受岗位限制。不同岗位使用 AI 的方式可能不同，但所有人都应具备这方面的能力。」

（@IT 之家）