AI测试 FFmpeg 8.0 将集成 Whisper,支持实时字幕和转录;DeepMind 生物声学模型从鸟类拓展到哺乳昆虫和两栖丨日报

RTE开发者社区 · August 13, 2025 · 350 hits

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、FFmpeg 8.0 将集成 Whisper,实现实时字幕和转录

备受瞩目的开源多媒体框架 FFmpeg 即将迎来其 8.0 版本。此次更新带来了诸多新特性和性能改进,将进一步拓展其在多媒体处理领域的应用能力。

核心技术亮点:

  • 新增解码器支持: FFmpeg 8.0 显著增强了对多种格式的支持,新增了 RealVideo 6.0、ADPCM IMA Xbox、G.728、Sanyo LD-ADPCM 以及三星 Advanced Professional Video(APV)的解码器。

  • 增强编码能力: 在编码端,新版本引入了对 APV 的编码支持,并支持动画 JPEG-XL 编码以及 libx265 的 alpha 层编码。此外,还增加了对 OpenHarmony 的编码与解码支持。

  • 视频加速与格式优化: 针对 Video Acceleration API(VA-API),FFmpeg 8.0 集成了 VVC/H.266 支持。同时,对 VVC 在 Matroska 容器内的处理能力也得到了增强。

  • 流媒体与容器更新: FFmpeg 的 Flash Video FLV v2 支持得到了升级,能够处理更多现代编解码器,并支持多音轨和多视频流。MP4 复用器则新增了 CENC AV1 支持。

  • 性能提升与新技术集成: FFmpeg 8.0 还包括了 AVX-512 优化、FFV1 改进、用于亚秒级延迟流媒体的 WHIP 复用器、AV1 RTP 打包/解包器、AMD AMF 解码器支持、Vulkan 视频增强以及更完善的 HDR 视频支持。

  • AI 集成展望: 一个备受关注但尚未正式合并到 FFmpeg 8.0 的功能是 OpenAI Whisper 音频滤镜的支持。若成功集成,将可能为 FFmpeg 带来 AI 驱动的实时字幕和转录功能。

FFmpeg 项目核心开发者 Michael Niedermayer 透露,FFmpeg 8.0 的代码分支工作将在未来一到两周内完成,随后的一两周内将进行最终的发布准备。预计 FFmpeg 8.0 将在 8 月底正式推出。

2、阿里开源 VLA 模型、世界理解模型与机器人上下文协议

8 月 11 日,在世界机器人大会上,阿里达摩院宣布开源自研的 VLA 模型 RynnVLA-001-7B、世界理解模型 RynnEC、以及机器人上下文协议 RynnRCP ,推动数据、模型和机器人的兼容适配,打通具身智能开发全流程。

达摩院将 MCP(Model Context Protocol)理念引入具身智能,首次提出并开源了 RCP(Robotics Context Protocol)协议以推动不同的数据、模型与本体之间的对接适配。

达摩院打造了名为 RynnRCP 的一套完整的机器人服务协议和框架,能够打通从传感器数据采集、模型推理到机器人动作执行的完整工作流,帮助用户根据自身场景轻松适配。RynnRCP 现已经支持 Pi0、GR00T N1.5 等多款热门模型以及 SO-100、SO-101 等多种机械臂,正持续拓展。

具体而言,RynnRCP 包括 RCP 框架和 RobotMotion 两个主要模块。

RCP 框架旨在建立机器人本体与传感器的连接,提供标准化能力接口,并实现不同的传输层和模型服务之间的兼容。RobotMotion 则是具身大模型与机器人本体控制之间的桥梁,能将离散的低频推理命令实时转换为高频的连续控制信号,实现平滑、符合物理约束的机器人运动。

大会上,达摩院还宣布开源两款具身智能大模型。

RynnVLA-001 是达摩院自主研发的基于视频生成和人体轨迹预训练的视觉 - 语言 - 动作模型,其特点是能够从第一人称视角的视频中学习人类的操作技能,隐式迁移到机器人手臂的操控上,从而让机械臂操控更加连贯、平滑,更接近于人类动作。

世界理解模型 RynnEC 将多模态大语言模型引入具身世界,赋予了大模型理解物理世界的能力。该模型能够从位置、功能、数量等 11 个维度全面解析场景中的物体,并在复杂的室内环境中精准定位和分割目标物体。无需 3D 模型,该模型仅靠视频序列就能建立连续的空间感知,还支持灵活交互。

视觉 - 语言 - 动作模型 RynnVLA-001:

https://github.com/alibaba-damo-academy/RynnVLA-001(@ 机器之心)

3、英伟达推出全新 Cosmos 系列世界模型与机器人基础设施

8 月 11 日,在 SIGGRAPH 大会上,英伟达发布了一系列面向机器人开发者的全新世界 AI 模型、开发库和基础设施。其中最引人关注的,是一款拥有 70 亿参数的推理型视觉语言模型——Cosmos Reason,专为物理 AI 和机器人应用打造。

除了 Cosmos Reason,英伟达还推出了 Cosmos Transfer-2,可加速从 3D 模拟场景或空间控制输入生成合成数据,并带来一款更精简、更高效的优化版本。公司介绍,这些模型可用于生成合成文本、图像和视频数据集,为机器人和 AI 智能体的训练提供支持。

据介绍,Cosmos Reason 能够让机器人和 AI 具备「推理」能力,因为它具备记忆和物理理解,可以作为规划模型来推测下一步的行动。这意味着,它不仅能用于数据筛选,还可应用在机器人路径规划和视频分析等场景。

在硬件方面,英伟达推出了适配机器人工作流的新型服务器,包括 RTX Pro Blackwell Server,可在单一架构下处理多种机器人开发任务;以及 DGX Cloud,一个云端管理平台,方便开发者远程调度和管理工作负载。(@ AI 星球视界)

4、谷歌 DeepMind 发布 Perch 2.0,刷新生物声学分类检测 SOTA

近日,谷歌 DeepMind 正式发布并开源了全新的生物声学模型 Perch 2.0。这是继 Perch 1.0 之后的又一次重要迭代,不仅在训练数据范围、模型结构、训练方法上全面升级,还在多个生物声学基准测试中刷新了当前最佳成绩。

更为重要的是,这一版本不再局限于鸟类识别,而是扩展到包括海洋哺乳动物、昆虫、两栖类等在内的多物种声学分析任务,显著增强了跨物种、跨领域的迁移能力。

该研究为模型训练整合了 4 个带标签音频数据集——Xeno-Canto、iNaturalist、Tierstimmenarchiv 和 FSD50K,这四类数据共包含 14,795 个类别,其中 14,597 个为物种,其余 198 个为非物种声音事件。丰富的类别覆盖既保证了对生物声学信号的深度学习,又通过非鸟类声音数据拓展了模型的适用范围。

功能亮点:

  • 直接分类:能够为数千种鸟类及其他动物的发声提供即用型分类分数;

  • 特征提取:生成高质量嵌入(embeddings),便于下游的聚类、相似度检索、少样本分类以及行为模式分析;

  • 敏捷建模:与 Google Research 提出的「Agile Modeling」流程结合,可通过少量样本和高效向量检索,在数十分钟到一小时内构建出新物种或新行为的识别器;

  • 低门槛部署:模型体积小、推理高效,可在消费级硬件运行,降低生态机构与保护组织的技术成本。

相关链接:

https://deepmind.google/discover/blog/how-ai-is-helping-advance-the-science-of-bioacoustics-to-save-endangered-species(@ 本原智数、@ HyperAI 超神经)


02 有亮点的产品

1、法国初创公司 Mistral 将融资 10 亿美元

据《金融时报》报道,援引知情人士消息,法国人工智能初创公司 Mistral 正与风投公司以及 MGX(阿联酋政府主导的科技投资基金)进行洽谈,计划融资 10 亿美元。此次融资将加速 Mistral 旗下聊天机器人 Le Chat 的商业化推广,并支持其大规模语言模型的持续开发。

融资完成后,Mistral 公司估值将达 100 亿美元。

Mistral 核心团队均出身于 DeepMind 和 Meta 等科技巨头。Mistral AI 在大型语言模型和生成 AI 的构建、培训和应用方面与 OpenAI 和谷歌等公司竞争,开发生成式人工智能基础设施。

Mistral AI 旗下产品有旗舰模型 Mistral Large——在 MMLU 基准测试超越了 Claude 2、Gemini Pro。此外,还有对标 Chat GPT 的聊天机器人 Le Chat 等。

目前,Mistral 的投资者包括英伟达、Andreessen Horowitz 以及 Lightspeed Venture Partners 等知名风投机构。

今年 7 月,Mistral 推出了首个开源音频模型家族 Voxtral。(@ 光电链接)

2、FOLOTOY 固件升级,支持端到端级别的对话以及玩具间互动

8 月 12 日,FOLOTOY 正式宣布固件升级。

FOLOTOY 新品「猫馆长」和 AI 太阳花高级版「小葵」已完成固件升级,并且小葵还支持「小葵小葵」语音唤醒,并且保留了原有的「对讲机模式」,用户可以根据自己的喜好自由选择。

升级亮点:

  • 玩具表演:如果拥有 2 个玩具,就可以欣赏玩具之间的聊天互动

  • 解放双手:只需开口说话,玩具立即回应,再也不用每次对话都要按。

  • 连续对话:一次激活,多轮畅聊,就像和朋友坐在一起闲聊

  • 端到端级别的对话:识别更快、理解更深、回应更聪明,真正做到有温度的交流。(@ Folo Toy)

3、nFactorial AI:深度模拟顶尖专家以视频通话形式提供 AI 个性化教学

一款通过 AI 深度模拟顶尖专家(如马斯克、巴菲特)的思维模式与表达风格,以视频通话形式提供个性化教学的产品。

近日,由 Arman 创立的 nFactorial AI 公司宣布推出一款名为「MasterClass」的 AI 产品。该产品通过 AI 深度模拟顶尖专家(如马斯克、巴菲特)的思维模式与表达风格,以视频通话形式提供个性化教学的产品。

这款产品旨在构建一个包含 100,000 多位世界级大师的庞大知识库,涵盖各个行业、地域和语言,为用户带来高度个性化的学习体验。创始人 Arman 认为,在许多专业领域,人类顶尖专家的思维和经验仍然优于目前的 AI 模型,因此将这些顶尖人士的思想与 AI 相结合,能够生成更高质量的输出。

核心技术亮点:

  • 高度拟真的个性化辅导:AI 导师不仅模仿传奇人物的声音、面部表情和词汇,更重要的是,其思维和推理方式也基于他们大量的公开资料进行深度训练。例如,Paul Graham 的 AI 导师在回答问题时会像他本人一样进行思考和论证。

  • 沉浸式视频通话体验:产品通过模拟实时视频通话和屏幕分享,为用户提供身临其境的教学体验。AI 导师会像真人一样展示带幻灯片的讲座,并能根据用户需求生成新的课程。

  • 庞大的知识基础:每位 AI 导师都基于其公开的 3800 多篇帖子、文章、书籍和访谈进行深度学习,确保知识内容的权威性和一致性。

官网链接:

https://nfactorialai.com/legends (@ ProductHunt、@ ProductHuntDaily)

4、离线 AI 笔记应用 Hyprnote

Hyprnote 是一款以隐私为先的 AI 记事本,专为会议设计。不仅可以快速记录笔记,它还能在本地转录和总结所有内容——任何信息都不会离开用户的设备。无论是在客户通话、团队同步还是敏感简报中,Hyprnote 都能在无需依赖云端的情况下捕捉关键信息。非常适合处于安全或隐私环境中的专业领域和团队。

产品核心功能:
  • 完全离线工作:Hyprnote 的所有转录和摘要处理都在本地进行,无需将任何音频或文本数据发送至云端服务器;

  • 无缝笔记体验:通过本地监听麦克风和扬声器,它能准确记录会议内容,并基于用户笔记生成简洁、高质量的会议摘要;

  • 隐私与安全:强调「隐私优先」的原则,不对数据进行任何形式的外传,尤其适合对数据安全有严格要求的团队和个人;

  • 开源与透明:作为一款开源产品,Hyprnote 的代码公开透明,为用户提供了额外的信任保障。

目前,Hyprnote 已在 hyprnote.com 官网及 GitHub 上提供下载。

相关链接:

https://hyprnote.com/ (@ Product Hunt)


03 有态度的观点 

1、纽约时报:计算机科学毕业生正在成为现失业率最高的专业

日前,《纽约时报》发表文章,揭示了计算机科学应届生面临的严峻现实:过去被视为通向高薪、稳定职业的「编程入门」如今变成了许多人职业前途的噩梦。

文中指出,根据纽约联邦储备银行的数据,计算机科学和计算机工程专业的毕业生失业率分别达到 6.1% 和 7.5%,远高于生物学和艺术历史专业的 3%。而曾被宣传为「保证进入高科技公司、六位数起薪」的梦想正逐渐破碎。

应《纽约时报》的提问,超过 150 名大学生和应届毕业生分享了他们的经历。其中一些人表示,他们申请了数百个,在某些情况下甚至数千个科技公司的、非营利组织和政府机构的职位。

而不少毕业生表示,长达数月的求职过程往往以强烈的失望告终,甚至更糟:公司直接无视他们。一些人指责科技行业,称他们感觉自己的职业前景被「欺骗」。甚至有人描述他们的求职经历是「黯淡」「令人沮丧」。

值得一提的是,文章提到,求职过程中形成了一种「AI 恐惧循环」:学生借助 AI 大量提交申请,企业则通过 AI 自动筛选、快速拒绝。

另外,计算机专业的毕业生们正感到尤为紧张,因为科技公司正在采用人工智能编程助手,减少了一些公司对初级软件工程师的需求。

牛津经济预测公司美国高级经济学家 Matthew Martin 表示:「目前最不幸的情况是,对于最近毕业的大学生来说,那些最有可能被自动化的职位,恰恰是他们寻求的入门级职位。」(@ APPSO)

2、王兴兴:具身智能的 ChatGPT 时刻还没有诞生

宇树科技 CEO 王兴兴日前在接受媒体采访时,就公司人形机器人降价策略、AI 技术发展以及行业前景等话题进行了深入探讨。

谈及公司人形机器人从 9.9 万元降至 3.99 万元起的定价策略,王兴兴表示,降价的根本目的是希望通过更有竞争力的价格吸引更多用户采购使用。

王兴兴认为,当机器人真正能够承担大量工作后,整个社会对机器人的认知将发生根本性改变。他甚至设想,未来国家可以对每台出厂的机器人征税,让机器人创造的价值直接贡献给国家财政。

「比如企业可以派机器人去开荒,产出的一部分直接上交国家。」他举例说。不过他也强调,这一切的前提是机器人能像人一样完成各种任务,预计快则 2-3 年,慢则 3-5 年会看到明显变化。

在 AI 技术方面,王兴兴坦言目前具身智能 AI 模型还远远不够成熟。他认为真正的突破点应该是机器人能够理解并执行日常指令,比如「帮我去买东西」这样的简单任务。「类似 ChatGPT 的关键性时刻,在具身智能领域目前还没有诞生。」他说。

不过,对于机器人的 ChatGPT 时刻,王兴兴表示,快的话,可能未来的一两年或者两到三年还是很有可能实现的。「最慢的话我估计 3 到 5 年也是很大概率能实现这个概念。」

谈到机器人参与各种运动表演,王兴兴认为这是当前技术条件下更容易落地的应用场景。他将现阶段比作早期电脑发展时期,需要开发者先在平台上开发各种软件,积累到一定程度后普通用户才能真正使用起来。(@ APPSO)

04 社区黑板报 

1、播客/音频相关 AI 技术与产品方向 SEAMATE 闭门研讨会

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

来自「出海同学会」的投稿:

北京时间 8 月 16 日(周六)上午,硅谷时间 8 月 15 日(周五)晚,本年度第 30 次出海同学会 SEAMATE 闭门会。主题是「播客/音频相关 AI 技术与产品方向研讨」。


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

https://www.rtecommunity.dev/

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up