开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@ 鲍勃

01 有话题的技术

Google 近日宣布将旗下用于展示设备端 AI 能力的「Google AI Edge Gallery」应用正式上架 Google Play Store,并为「Gemma 3n」模型及整个 Google AI Edge 技术栈新增了音频模态支持。这意味着开发者和用户现在可以更容易地体验和构建基于私密、强大的设备端生成式 AI 应用,从而赋能高品质的离线语音转文本和多语言翻译功能,进一步推动边缘 AI 的普及和创新。

关键亮点

发布计划

「Google AI Edge Gallery」应用已在 Google Play Store 上架开放 Beta 版本,其代码持续在 GitHub 开源。「Gemma 3n」的音频能力通过「MediaPipe LLM Inference API」为 Android 和 Web 平台提供,目前支持最长 30 秒的音频批处理推理。

Google 计划在未来数月内将应用推广至 iOS 用户,展示更多基于「Google AI Edge Generative AI Tasks」(如 RAG 和设备端函数调用)的示例,并计划将应用从「MediaPipe LLM Inference API」迁移至全新的完全开源 LLM 运行时「LiteRT-LM」。

相关链接:

https://developers.googleblog.com/en/google-ai-edge-gallery-now-with-audio-and-on-google-play/

Github:

https://github.com/google-ai-edge/gallery/releases( @Google AI Blog)

2、JHU CLSP 推出 mmBERT:超越 XLM-R,解锁 1800+ 语言的 SOTA 编码器

约翰霍普金斯大学计算语言处理中心(JHU CLSP)近日发布了「mmBERT」,一款最先进的大规模多语言编码器模型。该模型在超过 1800 种语言的 3T+ tokens 文本数据上进行训练,首次在性能上超越了「XLM-R」,并在效率上实现了显著提升。此外,「mmBERT」还创新性地提出了有效学习低资源语言的新策略,为多语言自然语言处理(NLP)领域树立了新标杆。

关键亮点

「mmBERT」提供了两种尺寸的模型:

相关链接:

https://huggingface.co/blog/mmbert

Github:

https://github.com/JHU-CLSP/mmBERT

( @JHU CLSP)

3、ElevenLabs v0 Podcast Generator Starter 上线

ElevenLabs Developers 推出了 v0 Podcast Generator Starter

相关链接:

https://x.com/elevenlabsio/status/1965326679758524499(@elevenlabsio)


02 有亮点的产品

1、Mistral AI 完成 17 亿欧元融资

Mistral AI 宣布完成 17 亿欧元的 C 轮融资,由荷兰半导体公司 ASML 领投,投资额为 13 亿欧元,获得 11% 的股份并取得董事会席位。这家 2013 年由前 DeepMind 和 Meta 研究人员创立的法国 AI 初创公司,计划利用这笔资金推动前沿 AI 研究,特别是在芯片制造等关键产业领域。ASML 作为全球领先的光刻设备供应商,其参与体现了双方在技术上的协同潜力。这轮融资标志着 Mistral 在 AI 领域的重要进展,旨在解决战略性行业的核心挑战。

此前,Mistral 推出了首个开源音频模型家族 Voxtral。Voxtral 最长可转录 30 分钟的音频内容。由于集成了 Mistral Small 3.1 大模型,它还能理解长达 40 分钟的语音。这意味着 Voxtral 不仅仅是转录,还能深入理解语音内容,甚至能回答相关问题、支持直接针对音频内容生成结构化摘要,无需串联独立的自动语音识别(ASR)和语言模型。

相关推文:

https://x.com/MistralAI/status/1965311339368444003(@ Mistral AI)

2、Nuance Labs 获千万美元融资,打造首个情感 AI(Emotional AI)

由两名前 Apple Vision Pro 团队博士创立的初创公司「Nuance Labs」,已完成由 Accel 领投的 1000 万美元种子轮融资。他们正在构建一个新型 AI 模型,旨在通过实现实时、富有情感的视频互动,解决当前 AI 交互中的「僵硬感」和「延迟」问题,创造出真正自然的 AI 伴侣。

关键亮点

目前,Nuance Labs 仍处于早期研发阶段,团队正在积极利用新资金招聘研究人员。公司计划在未来一年内发布一个面向公众的互动式 Demo。

详细访谈:

https://www.upstartsmedia.com/p/nuance-labs-emotional-ai-model( @Upstarts Media)

3、Apple AirPods Pro 3:AI 实时语音翻译功能

今天凌晨的苹果秋季新品发布会,率先登场的是全新的 AirPods Pro 3。作为苹果这些年开创的最成功的硬件品类,AirPods Pro 系列一直都有良好的用户口碑。不过这一次,苹果在 AirPods Pro 3 上带来的一些新特性,似乎预示着这款产品已经不再只是一款单纯的「TWS 耳机」了。

这次 AirPods Pro 3 主要的升级点首先是音质和降噪。

本体采用了新的多孔声学架构,官方表示能够让低音更沉、音场更广。这主要是因为新的声学结构可以更精准地控制气流,通过直指耳道的内向式麦克风传送声音,带来更深沉的低音和清晰生动的人声表现。

AirPodsPro 3 还具备新一代自适应均衡功能,可根据你的耳形和佩戴贴合度,适应声音效果。个性化音量功能则会运用机器学习技术,了解你的聆听习惯,然后逐渐匹配你的偏好。

为了提升主动降噪效果,苹果还采用了新的耳塞设计,其内旋设计能够让佩戴更稳更贴合。苹果还在耳塞材料上新增了泡沫材料微粒填充层。AirPods Pro 3 这次还提供了多达 5 种尺寸的耳塞可供选择,包括 XXS 号,能够更好满足更多人群的佩戴需求。

全新的设计配合苹果先进的计算音频技术,AirPods Pro 3 能够消除更多的环境噪声,带来更强悍的主动降噪能力。官方表示,主动降噪对比上一代效果提升了 1 倍,比初代则提升了 3 倍。

与此同时,AirPods Pro 3 这次还升级了防尘防水的能力,首次支持 IP57 级别防水标准。这意味着它可以轻松应对日常生活中的泼溅、雨淋,甚至意外掉入水盆、马桶等短暂浸泡情况。不管是大汗淋漓的训练,还是突如其来的大雨,都没有问题。

健康功能的加入是 AirPods Pro 3 这次最大的亮点。

苹果在 AirPods Pro 3 上加入了全新心率传感功能,耳机可在你锻炼时,帮你测量心率和卡路里消耗。只需 AirPods Pro 3 和 iPhone 搭配,就能在健身 App 中开启全新的运动体验。借助每秒 256 次非可见光脉冲的 LED ,以及基于多个加速感应器的传感器融合技术,AirPods Pro 3 可为你的各类体能训练提供精准的测量数据,健身 App 中的 50 多种项目都适用。

这是之前盛传了多年的 AirPods 功能,如今终于落地。

海外版本的 AirPods Pro 3 还加入了 AI 翻译功能。

借助 Apple intelligence 的能力,AirPods Pro 3 搭载了 AI 实时语音翻译功能,耳机可以将听到的声音实时翻译为其他语言。用户可以使用一个手势激活实时翻译,说话人的声音会变得更小,翻译的声音会更大,甚至短语的意思也会被翻译。(@ 电脑报)


03 有态度的观点

1、The Verge:AI 编程最有用的是理解代码

日前,《The Verge》发布了一篇名为《Is AI the end of software engineering or the next step in its evolution?》(人工智能是软件工程的终结还是其进化的下一步?)文章,分析了当下热门的 AI 编程、「Vibe Coding」(氛围编程)发展方向。

作者 Sheon Han 在文中直言,这些 AI 辅助工具让其觉得最有用的不是编写代码,而是理解代码。Sheon 举例:当自己遇到一个陌生的代码库时,AI 能够为自己解释主要组件是怎么组合在一起,并且能够节省摸索陌生代码的时间。

据悉,时下火热的「Vibe Coding」(氛围编程)是一种新兴的软件开发实践,它能够让 AI 根据用户给出的自然语言提示词进行代码生成,并号称「加快开发速度,让应用构建变得更加容易」。

而 Sheon 进一步指出,氛围编程固然能够减轻写代码的负担,但它会如同「建筑师没见过施工现场」一样,只能观察到 AI 交付的结果,却浑然不知里面的结构如何。

同时,Sheon 还提到了软件结构的「品味」:「优秀的软件架构并非一蹴而就,而是由无数合理且具品味的微观决策逐渐形成,这是模型无法零样本学习的。」

关于「AI 辅助编程是否能真正提高工作效率」这一话题,Sheon 认为「会减慢效率,但 AI 也需要成为生产力方程式中的真正代表」。同时其也指出,我们要养成一种快速区分并脱离依赖 AI 的心:要适度使用 AI 以克服障碍,然后切换回运用我们的大脑。否则,你将失去理解任务目的核心要义的能力。(@ APPSO)


04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、社区项目分享:3 Times Meet 告别跑题会议

3 Times Meet 是一款 AI 驱动的会议辅助工具,主要目的在于帮助会议保持节奏,不偏离主题,有效避免时间浪费。它提供实时语音引导、会议进度控制,以及即时资源检索等功能 。

X 自我介绍强调:这可能是「全球首个 AI 会议促成者」,主打 real-time voice guidance(实时语音指导)、live resource retrieval(实时资源获取)、和 meeting pace control(会议节奏控制)。

3 Times Meet 已集成 Google Workspace、Zoom、Perplexity,并在 200+ 场会议中测试。

功能亮点

官网链接:https://3xmeet.net/

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流