AI测试 Kyutai 开源 STT 模型，支持流式传输；AI 虚拟角色桌面设备 Dipal D1：会动、会说话、会回应你丨日报

RTE开发者社区 · 2025年06月20日 · 3465 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、Kyutai Labs 新开源 STT 模型，支持流式传输和批量推理

Kyutai Speech-To-Text 是一款开源的语音转文本模型，支持流式传输和批量推理两种模式，运行速度极快。它提供两个版本：

1、纯英语 2.6B 参数模型 - 即使作为流式模型，在基准测试中表现也优于 Whisper Large v3

2、轻量级 1B 参数双语模型 - 专为英语/法语实时语音聊天应用优化。

模型亮点：

通过语义语音活动检测实现 500 毫秒端到端延迟；
单个 H100 可处理超过 400 个并发通话；
提供英语（1B 和 2.6B）和法语版本；
使用 MLX 在 iPhone 和 Mac 上原生运行；
使用 Rust 和 PyTorch 构建的开源服务器。

02 有亮点的产品

1、AI 虚拟角色桌面设备 Dipal D1，支持语音交互、触控反馈、手势识别、眼神追踪等多种输入

Dipal D1 是一款「会动、会说话、会回应你」的 AI 虚拟角色桌面设备。

该设备的外形是一个有高清曲面屏的小显示器，有点像全息投影，用户可以设置和定制各种角色让她显示。同时她可以与用户互动，当用户触摸她，她也会有反应。并且她拥有长期记忆能力，能记住用户和她对话的的一切，并持续进化。支持语音交互、触控反馈、手势识别、眼神追踪等多种输入。

该设备配备 8 英寸曲面 OLED 显示屏，配合眼动追踪技术，能实现一种立体、有层次的视觉效果，看起来就像角色真的在面前说话和互动。

而且她还能控制家里的设备，可通过角色界面控制智能家居设备，实现如语音开灯、控制音响等功能。

该 AI 设备能识别用户的情绪、表情和语气，进行自然回应。她不是普通的视频播放设备，而是「能互动」的：

眼动识别：她能「看」用户在看哪里；
声音感应：能听用户说话并回应；
触摸互动：用户可以通过触碰与它互动；
手势识别：通过手势进行指令输入或互动反应。

目前开启了众筹，众筹地址：

https://www.kickstarter.com/projects/dipal-d1/dipal-d1-worlds-first-curved-screen-3d-ai-character-pod

官网：https://www.dipal.net/（@imxiaohu\@X）

2、HeyGen 推出 AI 广告生成工具：三步创建产品视频

HeyGen 最新推出的 Product Placement 功能，只需上传产品照片、选择一个人像、输入文案脚本，即可生成产品介绍视频。

该产品由 Avatar IV 的超逼真手势和唇同步技术驱动。无需摄影棚。无需演员。无需剪辑。现已向所有 HeyGen 用户开放。

HeyGen 官方推文：https://x.com/HeyGen_Official/status/1935702900195619312（@ 三花 AI）

3、通义 App 翻译能力重磅升级，同传翻译功能支持英语、日语、韩语、粤语等 10 大语种及多种交互模式

6 月 19 日，通义 APP 迎来重大升级，其翻译能力实现全方位跃升，覆盖文字翻译、同传翻译、文档翻译、图片翻译这四大核心场景，为个人用户和专业人士打造了一款功能强大的「最强翻译综合体」。

此次升级后的翻译功能，支持 119 种语言和方言，在准确率、专业性以及交互体验等多个维度都实现了显著提升。

在文字翻译方面，通义 APP 现已支持 119 种语言与方言的互译，涵盖了印欧语系、亚非语系、南亚语系等众多语系，语言覆盖密度在行业内处于领先地位。

同传翻译功能是本次升级的一大亮点。该功能支持英语、日语、韩语、粤语等 10 大语种，提供了分屏对照、逐句对照、纯译文展示等多种交互模式，用户可以根据不同的使用场景，如会议、旅游、视频通话等，自由选择最适合的模式。而且，通义 APP 的同传翻译不限时、不限次、完全免费。

针对跨语言文档处理的需求，通义 APP 带来了专业级的文档翻译体验。在翻译文档时，它不仅能够保持原文的排版一致，还支持对表格内容进行精准翻译处理。同时，通义 APP 会自动生成全文总结与脑图。

在图片翻译领域，通义 APP 也实现了全面升级，显著提升了图像场景下的多语言理解与生成能力。通义 APP 能够保留图片的排版结构，做到「译文即所见」，在菜单、图文海报等场景中表现尤为出色。（@AI智前沿）

4、OpenAI 开源客户服务智能体 Demo，多层级智能体支持可视化编排和对话

OpenAI 在 Github 刚开源了一个基于 Agents SDK 的客户服务智能体 Demo。

这个智能体模拟了一个航空公司客户服务 AI 机器人，能够处理各种与旅行相关的查询，并通过动态路由将请求分配给专业多层级智能体实现自动化处理。该智能体采用了 Python 后端和 Next.js 前端构建，支持可视化编排和对话。

该智能体架构主要分为两个部分：Python 后端利用 Agents SDK 处理智能体的编排工作；

Next.js 前端则提供聊天界面以及智能体转换的交互式可视化功能。这种设置使得智能体在对用户查询进行分类、响应或拒绝时，其决策和任务分配过程更加透明。

还包含多个专业的子智能体，例如，分类智能体、座位预订智能体、航班状态智能体、取消智能体和常见问题解答智能体，每个智能体都配置了专门的指令和工具来完成各自的子任务。

Agents SDK 是整个系统的编排核心。每个智能体都被定义为一个可组合的单元，具有提示模板、工具访问、委派逻辑和输出模式。SDK 通过委派连接智能体，支持实时跟踪，并允许开发者使用防护机制强制执行输入/输出约束。这个框架与 OpenAI 内部用于工具使用和推理智能体的框架相同。

开源地址：https://github.com/openai/openai-cs-agents-demo?tab=readme-ov-file（@AIGC 开放社区）

03 有态度的观点

1、OpenAI 联合创始人：Agent 是新的数字信息消费者与操作者

日前，OpenAI 联合创始人、特斯拉前 AI 负责人 Andrej Karpathy 在 Y Combinator 的 AI 创业学院活动上，进行了个人演讲。

本次演讲中，Karpathy 提出了「软件 3.0 时代」这一概念，他认为自然语言正在取代传统代码，而大型语言模型（LLM）则成为新的「万能计算机」。

Karpathy 指出，软件 3.0 时代下，自然语言（如英语）将作为「编程接口」，直接给大语言模型下达命令，让模型自己完成剩下的所有工作。Karpathy 直言，这并非一次工具迭代，而是「根本性变革」。

同时，Karpathy 还提出：大语言模型兼具公共设施、晶圆厂、操作系统这三种行业的属性。如「晶圆厂」：训练大模型的巨额算力与研发壁垒，使得少数实验室成为新的「芯片制造商」。

另外，Karpathy 还展望了 AI Agent（智能体）的未来。他表示，Agent 既非人类也非传统程序，而是新的「数字信息消费者与操作者」。其进一步解释称，「因为 Agent 需要我们重新设计文档、接口乃至网络协议，为它们提供可读、可执行的『原生』内容。」

原采访视频：https://www.youtube.com/watch?v=LCEmiRjPEtQ

04 有看点的活动

1、ElevenLabs 对话智能体在线黑客松，角逐数万美元奖金

ElevenLabs 为庆祝创建 100 万个智能体，将于 7 月 2 日星期三的下午 3 点至 5 点（UTC）举办一场构建在线对话智能体的比赛。

比赛主题：在 2 小时内构建最优秀的智能体，角逐超过 2 万美元的奖金；

时间：7 月 2 日星期三，下午 3 点至 5 点（UTC）；

形式：线上比赛，支持 Discord 直播；

平台：ElevenLabs 会话式人工智能；

活动详情链接：https://elevenlabs.io/blog/online-conversational-agent-hackathon（@elevenlabsio\@X）

更多 Voice Agent 学习笔记：

实时多模态如何重塑未来交互？我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨 Voice Agent 学习笔记

a16z 合伙人：语音交互将成为 AI 应用公司最强大的突破口之一，巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密：技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代，每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暫無回覆。

需要登录後方可回應，如果你還沒有帳號按這裡注册。