AI测试 Kyutai 开源 STT 模型,支持流式传输;AI 虚拟角色桌面设备 Dipal D1:会动、会说话、会回应你丨日报

RTE开发者社区 · 2025年06月20日 · 82 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、Kyutai Labs 新开源 STT 模型,支持流式传输和批量推理

Kyutai Speech-To-Text 是一款开源的语音转文本模型,支持流式传输和批量推理两种模式,运行速度极快。它提供两个版本:

1、纯英语 2.6B 参数模型 - 即使作为流式模型,在基准测试中表现也优于 Whisper Large v3

2、轻量级 1B 参数双语模型 - 专为英语/法语实时语音聊天应用优化。

模型亮点:

  • 通过语义语音活动检测实现 500 毫秒端到端延迟;

  • 单个 H100 可处理超过 400 个并发通话;

  • 提供英语(1B 和 2.6B)和法语版本;

  • 使用 MLX 在 iPhone 和 Mac 上原生运行;

  • 使用 Rust 和 PyTorch 构建的开源服务器。

相关链接:

https://kyutai.org/next/stt(@Tu7uruu\@X、@ 三花 AI)

2、Adobe 发布 Self Forcing:基于 Wang 2.1 的实时视频生成

Self Forcing 是 Adobe 最新推出的基于 Wang 2.1 实现的实时流式视频生成模型。该模型在单张 RTX 4090 显卡上即可实现流式视频生成。

Self Forcing 通过在训练过程中模拟推理过程,利用 KV 缓存执行自回归展开,训练自回归视频扩散模型。解决了训练与测试分布不匹配的问题,并实现了在单个 RTX 4090 上实时流式视频生成,同时匹配先进扩散模型的质量。

Self Forcing 官方项目页:

https://self-forcing.github.io/

Hugging Face 在线体验:

https://huggingface.co/spaces/multimodalart/self-forcing

(@ 三花 AI)

02 有亮点的产品

1、AI 虚拟角色桌面设备 Dipal D1,支持语音交互、触控反馈、手势识别、眼神追踪等多种输入

Dipal D1 是一款「会动、会说话、会回应你」的 AI 虚拟角色桌面设备。

该设备的外形是一个有高清曲面屏的小显示器,有点像全息投影,用户可以设置和定制各种角色让她显示。同时她可以与用户互动,当用户触摸她,她也会有反应。并且她拥有长期记忆能力,能记住用户和她对话的的一切,并持续进化。支持语音交互、触控反馈、手势识别、眼神追踪等多种输入。

该设备配备 8 英寸曲面 OLED 显示屏,配合眼动追踪技术,能实现一种立体、有层次的视觉效果,看起来就像角色真的在面前说话和互动。

而且她还能控制家里的设备,可通过角色界面控制智能家居设备,实现如语音开灯、控制音响等功能。

该 AI 设备能识别用户的情绪、表情和语气,进行自然回应。她不是普通的视频播放设备,而是「能互动」的:

  • 眼动识别:她能「看」用户在看哪里;

  • 声音感应:能听用户说话并回应;

  • 触摸互动:用户可以通过触碰与它互动;

  • 手势识别:通过手势进行指令输入或互动反应。

目前开启了众筹,众筹地址:

https://www.kickstarter.com/projects/dipal-d1/dipal-d1-worlds-first-curved-screen-3d-ai-character-pod

官网:https://www.dipal.net/(@imxiaohu\@X

2、HeyGen 推出 AI 广告生成工具:三步创建产品视频

HeyGen 最新推出的 Product Placement 功能,只需上传产品照片、选择一个人像、输入文案脚本,即可生成产品介绍视频。

该产品由 Avatar IV 的超逼真手势和唇同步技术驱动。无需摄影棚。无需演员。无需剪辑。现已向所有 HeyGen 用户开放。

HeyGen 官方推文:https://x.com/HeyGen_Official/status/1935702900195619312(@ 三花 AI)

3、通义 App 翻译能力重磅升级,同传翻译功能支持英语、日语、韩语、粤语等 10 大语种及多种交互模式

6 月 19 日,通义 APP 迎来重大升级,其翻译能力实现全方位跃升,覆盖文字翻译、同传翻译、文档翻译、图片翻译这四大核心场景,为个人用户和专业人士打造了一款功能强大的「最强翻译综合体」。

此次升级后的翻译功能,支持 119 种语言和方言,在准确率、专业性以及交互体验等多个维度都实现了显著提升。

在文字翻译方面,通义 APP 现已支持 119 种语言与方言的互译,涵盖了印欧语系、亚非语系、南亚语系等众多语系,语言覆盖密度在行业内处于领先地位。

同传翻译功能是本次升级的一大亮点。该功能支持英语、日语、韩语、粤语等 10 大语种,提供了分屏对照、逐句对照、纯译文展示等多种交互模式,用户可以根据不同的使用场景,如会议、旅游、视频通话等,自由选择最适合的模式。而且,通义 APP 的同传翻译不限时、不限次、完全免费。

针对跨语言文档处理的需求,通义 APP 带来了专业级的文档翻译体验。在翻译文档时,它不仅能够保持原文的排版一致,还支持对表格内容进行精准翻译处理。同时,通义 APP 会自动生成全文总结与脑图。

在图片翻译领域,通义 APP 也实现了全面升级,显著提升了图像场景下的多语言理解与生成能力。通义 APP 能够保留图片的排版结构,做到「译文即所见」,在菜单、图文海报等场景中表现尤为出色。(@AI智前沿)

4、OpenAI 开源客户服务智能体 Demo,多层级智能体支持可视化编排和对话

OpenAI 在 Github 刚开源了一个基于 Agents SDK 的客户服务智能体 Demo。

这个智能体模拟了一个航空公司客户服务 AI 机器人,能够处理各种与旅行相关的查询,并通过动态路由将请求分配给专业多层级智能体实现自动化处理。该智能体采用了 Python 后端和 Next.js 前端构建,支持可视化编排和对话。

该智能体架构主要分为两个部分:Python 后端利用 Agents SDK 处理智能体的编排工作;

Next.js 前端则提供聊天界面以及智能体转换的交互式可视化功能。这种设置使得智能体在对用户查询进行分类、响应或拒绝时,其决策和任务分配过程更加透明。

还包含多个专业的子智能体,例如,分类智能体、座位预订智能体、航班状态智能体、取消智能体和常见问题解答智能体,每个智能体都配置了专门的指令和工具来完成各自的子任务。

Agents SDK 是整个系统的编排核心。每个智能体都被定义为一个可组合的单元,具有提示模板、工具访问、委派逻辑和输出模式。SDK 通过委派连接智能体,支持实时跟踪,并允许开发者使用防护机制强制执行输入/输出约束。这个框架与 OpenAI 内部用于工具使用和推理智能体的框架相同。

开源地址:https://github.com/openai/openai-cs-agents-demo?tab=readme-ov-file(@AIGC 开放社区)

03 有态度的观点

1、OpenAI 联合创始人:Agent 是新的数字信息消费者与操作者

日前,OpenAI 联合创始人、特斯拉前 AI 负责人 Andrej Karpathy 在 Y Combinator 的 AI 创业学院活动上,进行了个人演讲。

本次演讲中,Karpathy 提出了「软件 3.0 时代」这一概念,他认为自然语言正在取代传统代码,而大型语言模型(LLM)则成为新的「万能计算机」。

Karpathy 指出,软件 3.0 时代下,自然语言(如英语)将作为「编程接口」,直接给大语言模型下达命令,让模型自己完成剩下的所有工作。Karpathy 直言,这并非一次工具迭代,而是「根本性变革」。

同时,Karpathy 还提出:大语言模型兼具公共设施、晶圆厂、操作系统这三种行业的属性。如「晶圆厂」:训练大模型的巨额算力与研发壁垒,使得少数实验室成为新的「芯片制造商」。

另外,Karpathy 还展望了 AI Agent(智能体)的未来。他表示,Agent 既非人类也非传统程序,而是新的「数字信息消费者与操作者」。其进一步解释称,「因为 Agent 需要我们重新设计文档、接口乃至网络协议,为它们提供可读、可执行的『原生』内容。」

原采访视频:https://www.youtube.com/watch?v=LCEmiRjPEtQ

04 有看点的活动

1、ElevenLabs 对话智能体在线黑客松,角逐数万美元奖金

ElevenLabs 为庆祝创建 100 万个智能体,将于 7 月 2 日星期三的下午 3 点至 5 点(UTC)举办一场构建在线对话智能体的比赛。

比赛主题:在 2 小时内构建最优秀的智能体,角逐超过 2 万美元的奖金;

时间:7 月 2 日星期三,下午 3 点至 5 点(UTC);

形式:线上比赛,支持 Discord 直播;

平台:ElevenLabs 会话式人工智能;

活动详情链接:https://elevenlabs.io/blog/online-conversational-agent-hackathon(@elevenlabsio\@X

更多 Voice Agent 学习笔记:

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暫無回覆。
需要 登录 後方可回應,如果你還沒有帳號按這裡 注册