AI测试 谷歌重新定位 Gemini AI :超越对话,让 AI 贯穿系统且主动;Nexa AI 发布 NPU x 端侧 AI 方案丨日报

RTE开发者社区 · August 22, 2025 · 98 hits

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、全球首款 NPU x 端侧 AI Nexa AI,处理音频速度提升 9 倍
Nexa AI 公司宣布正式推出其端侧 AI 解决方案,该方案由首个 NPU 原生端侧多模态大模型 OmniNeural-4B 和专为 NPU 设计的 AI 推理引擎 nexaML 组成。

Nexa AI 团队指出,与 CPU 相比,NPU 的推理速度提升 1.5 倍;与 GPU 相比,推理速度提升 4 倍,同时能效比提升 2 至 8 倍,确保了端侧 AI 产品在后台运行时不影响其他应用性能。

NPU 原生多模态大模型 OmniNeural-4B 技术亮点:

  • 首创 NPU 原生设计:该模型并非简单地将云端模型压缩到设备上,而是从底层为 NPU 架构量身打造,确保性能最大化;

  • 多模态理解能力:能同时理解文本、图像和音频信息,实现跨模态的智能交互;

  • 卓越性能:处理音频速度提升 9 倍,图像处理速度提升 3.5 倍,同时具备稳定的低延迟和全离线运行能力;

推理引擎 nexaML 技术亮点:

  • 专为 NPU 优化:作为端侧 AI 推理引擎新基建,nexaML 的 NPU 利用率超过 95%,性能优于高通自家的 GENIE 引擎;

  • 开发者友好:支持一行命令部署,且与 OpenAI API 兼容;

  • 广泛模型支持:首批支持 Qwen3、YOLOv12、PaddleOCR v4 等主流模型。

目前,OmniNeural-4B 模型已在 Hugging Face 上免费提供给开发者试用,nexaML 引擎也已开放。

相关链接:

https://nexa.ai/blogs/omnineural-4b

HuggingFace: 

https://huggingface.co/NexaAI/OmniNeural-4B(@ Nexa AI )

2、LongVie 框架:超长视频生成的可控性突破****

上海人工智能实验室联合多机构推出的 LongVie 框架,系统性解决了超长视频生成中的时序不一致和视觉退化问题。通过控制信号全局归一化策略,模型统一整个视频段的控制信号(如深度图),避免片段间的尺度漂移;统一噪声初始化则确保各片段共享同一初始噪声,从源头减少视觉漂移。

针对视觉退化,LongVie 采用多模态精细控制,融合密集信号(深度图)与稀疏信号(关键点),并引入退化感知训练动态平衡模态贡献,使生成视频在超过一分钟的时长内保持高分辨率和细节保真度。(@ 喜爱谱 CAIP)


02 有亮点的产品

1、Meta 上线 AI 语音翻译功能,率先支持英语与西班牙语

Meta 宣布,将在全球范围内向 Facebook 和 Instagram 创作者推出一项全新的 AI 语音翻译功能。这项功能能够自动将视频内容翻译成另一种语言,并保留创作者本人的声音音色和语气,让译制后的作品更加自然真实。

在实际使用中,创作者在发布 Reels 短视频前,可以选择「使用 Meta AI 翻译语音」选项,开启自动翻译,同时决定是否启用唇形同步。

目前,功能已支持英语和西班牙语的双向翻译,未来将逐步扩展到更多语言。开放对象包括全球拥有 1000 名以上粉丝的 Facebook 创作者以及所有公开的 Instagram 账号。

Meta 还在「数据洞察」中新增了「按语言观看量」指标,方便创作者了解不同语言观众的分布和反馈。此外,Facebook 创作者还能在 Meta Business Suite 中为 Reels 上传多达 20 条自制配音,以覆盖更广泛的用户群体。

相关链接:

https://creators.facebook.com/blog/meta-ai-translations(@ AI 星球视界)

2、谷歌新智能硬件深度集成 Gemini,定位为超越机器人和语音助手的智能平台

美东时间 8 月 20 日周三,谷歌在年度硬件发布盛会 Made by Google 2025 上推出全新的消费设备阵容,包括的新一代的智能手机以及新一代智能手表和无线耳机,进一步将旗下硬件与先进的人工智能(AI)技术融合。

新系列的智能手机均搭载 Tensor G5 处理器,且谷歌在其中深度整合旗下 Gemini AI 助手,推出 Magic Cue 和 Camera Coach 等创新 AI 功能。

谷歌将 Gemini AI 定位为超越传统聊天机器人或语音助手的智能平台。在 Pixel 10 系列中,AI 功能贯穿整个系统,设计更加主动智能。两项核心新功能 Magic Cue 和 Camera Coach 在所有四款机型上均可使用。

Magic Cue 旨在适当时机提供有用的上下文建议。例如,当用户致电已预订的酒店时,电话应用会自动显示预订详情;朋友询问晚餐地点时,信息应用会从 Gmail、谷歌日历等应用提取信息,自动建议回复;有人要求分享旅行照片时,Magic Cue 会在谷歌相册中自动找到相关图片。

Camera Coach 为相机应用带来最大规模的 AI 整合。该功能可提供不同拍摄构图建议,并使用生成式 AI 实时预览各种拍摄效果。建议会根据场景或主体实时变化,拍摄美食时推荐俯拍角度,室内拍摄城市景观或日落时提醒避开窗框等干扰元素。还可以根据随口哼唱的音调生成歌曲。

值得一提的是,谷歌即将推出新的模型更新,来提升 Gemini Live 在语音对话方面的能力,包括语调、节奏和音高的控制,从而让对话更自然流畅,同时更富有表现力。

比如如果谈论一个比较紧张的话题,Gemini 的语气可能会更平静、克制;也可以让 Gemini 说话慢一点,方便做笔记;还可以让 Gemini 用有趣的口音来活跃气氛,或者让 Gemini 讲故事的时候模拟其中一个角色的来讲述。

更新后的 Gemini Live 在原本只能语音对话的基础上,增加了通过手机摄像头识别并主动框选关键信息的能力。

在通话方面,AI 的「留言」功能可以提供未接或拒接来电的实时文字转录,AI 还会根据收到的信息自动识别下一步行动。

在发布会的后半段,Jimmy Fallon 串场,展示了 Gemini 在电话通话中的实时翻译功能——并非简单的文本翻译、机械音朗读,而是由 Gemini 自动识别和模拟讲话人的音色和语气,讲出一段「比你更像你自己」的外语。

Gemini 的拟声翻译无论是速度还是准确性,在现场展示中都达到了非常可用的水平。

在 AI 音乐生成方面,你可以通过录制歌声,并选择偏好的音乐风格,来让 AI 创作出契合你心情的曲子。

相关链接:

https://x.com/op7418/status/1958342801231593696(@ 美股 IPO、@ 智东西、@ 爱范儿、@op7418\@X

3、Character.ai 用户粘性惊人,用户平均每天与 AI 虚拟角色聊天 80 分钟

根据 Character.ai 首席执行官 Karandeep Anand 的最新披露,用户平均每天在与其平台上的 AI 虚拟角色聊天上花费惊人的 80 分钟。

这一数据使其成为时间消耗上的一个新巨头,直逼 TikTok(95 分钟)和 YouTube(84 分钟),并远超 Instagram(70 分钟)。这一现象也为 Meta 首席执行官马克·扎克伯格为何将个性化聊天机器人作为其核心战略提供了有力佐证。

Character.ai 目前拥有每月 2000 万活跃用户,其中一半为女性,且用户群以新世代及更年轻群体为主。

Character.AI 集成了图片功能,AI 不仅能生成图片,也能看懂你发的图。支持了虚拟形象,给 AI 角色配上了脸和身体,结合 AR/VR 技术,Ai 形象可以和你「面对面」聊天。

据知情人士透露,该公司目前预计到年底年化收入将达到 5000 万美元,较上月的约 3000 万美元有所增长。10 亿美元的估值相当于其近期收入的 33 倍,与其他 AI 应用的估值水平大致相当。

新一轮融资或出售给资金雄厚的买家将有助于这家初创企业承担运营聊天机器人的成本。自创始人和关键技术团队离职后,Character 已停止开发自有模型,转而使用 DeepSeek、Meta 等公司的开源模型。虽然这一转变降低了模型开发相关成本,但公司每月仍需自行支付约数百万美元来运行这些模型。

官网地址:

https://character.ai/(@ 小栈 AI、@Z Potentials)

4、AI 虚拟伴侣项目 Project AIRI,支持自然的语音交流

Project AIRI 是一个开源项目,旨在创建可以陪伴用户聊天、玩游戏的 AI 虚拟伴侣。该项目支持 Live2D 和 VRM 虚拟形象。

角色模型(Live 2 D/VRM)支持自动眨眼、视线跟踪,比如你移动鼠标时它会「看」向你。还能与用户一起玩 Minecraft 和 Factorio 等游戏,成为真实的 AI 游戏伙伴。这些形象并非固定,而是可以根据用户需求自由更换和定制。

此外,AIRI 集成了语音识别和合成技术,通过 WebAudio 和 WebRTC 实现低延迟语音对话,麦克风输入可直接转为文本指令,兼容 30 多种大型语言模型(LLM)服务,包括 OpenAI 和 Claude。

内置 DuckDB-WASM 数据库存储对话历史,启用 RAG(检索增强生成)后,AI 能记住你的偏好(比如喜欢的游戏或聊天话题)。

用户可以通过 Discord、Telegram 等社交平台与 AI 互动,且该项目基于 Web 技术,无论是桌面、移动还是浏览器环境,都能保持流畅运行。为了保证隐私安全,还提供了 TOTP 双重认证 选项。

在本地部署上,操作非常简单:克隆代码后执行 pnpm dev 即可运行。对于不想自己搭建的用户,作者也提供了在线 Demo,可以直接上手体验。同时,项目文档清晰,便于二次开发和定制扩展。

子项目如 unspeech(语音处理)、xsai(LLM 接口层)可独立使用,方便集成到其他应用。

项目目前仍在迭代(GitHub 活跃),部分功能如视觉识别还在开发。

项目链接:

https://github.com/moeru-ai/airi

延伸阅读:

Project AIRI 作者 Neko 回顾构建 AIRI 的故事(@ 万能码栗、@ GeekClub 极客)

5、智能穿戴设备 Sein:支持识别关键情绪信号和提供共情力的智能建议与回应方式

Sein 是全球首款无感佩戴、以隐私为核心的个人穿戴式 AI,以「感官延伸」为设计理念,将云端人工智能转化为贴身的生活洞察助手。其核心能力在于:聆听内容、感知语境、洞察真实需求。

其产品配备了双麦克风和一颗 500 万像素微型摄像头,支持听觉与视觉的多模态感知,无需手动启动录音,能够实时捕捉周围声音与环境画面,自动感知并记录对话要点,进而理解分析日常生活中的互动场景。

同时,在 ChatGPT、Claude、DeepSeek 和 Gemini 等 AI 的加持下, Sein 能够智能识别关键情绪信号,结合具体语境,提供更具有共情力的智能建议与回应方式。此外,Sein 还支持拍照与录像,用户只需挥手或说出「Catch」即可开启。

Sein 将使用场景拓展到用户情绪的捕捉,通过收集语音、图像与环境声音,甚至是用户的运动数据,尝试让 AI 理解用户在当下的所思所想。通过对情境的实时分析,帮助用户更好理解他人的情绪变化并辅助解决问题。

Sein 以「情绪陪伴」为切入点,尝试在亲密关系、孕期支持、家庭育儿,以及更广泛的日常生活场景中提供个性化辅助的功能。

相关链接:

https://www.kickstarter.com/projects/sein/sein-bring-ai-into-your-life/rewards(@ 新智慧独角兽)


03 有态度的观点 

1、OpenAI 科学家谈 AGI:AI 正加速推进科学研究自动化

在最新一期 OpenAI 播客中,该公司首席科学家雅库布·帕乔基与高级研究员西蒙·西多尔深入探讨了 AGI 的发展现状与未来的发展方向。

当被问及如何定义 AGI 时,帕乔基坦言,两年前,AI 模型甚至无法正确计算两个四位数的乘积,而现在它们在奥赛题中展现出的是创造性思维而非死板的公式套用。

不过,帕乔基认为这种点状的衡量方式已不够充分,因此他们开始关注 AI 对世界的实际影响。在他看来,AI 要真正对世界产生有意义的影响,关键在于它能否推动新技术的发现与生产实现自动化。

在讨论 AI 能力评估时,帕乔基表示,目前在基准测试方面确实面临一些问题,其中最明显的就是饱和现象,即模型在许多标准化的智能或能力测试中已达到人类水平。

另一个问题在于,该领域已经出现了许多更高效的数据训练方法,它们可以针对特定能力进行优化,进而训练出在某一方面远超其他方面的模型。这样的模型往往在特定基准测试中表现突出,但这并不意味着它们具备更高的整体智能水平。

在规划 OpenAI 的研究项目进程中,帕乔基强调他们将创造具有高度通用性的智能视作核心使命。他们优先致力于打造能够实现自动化研究的 AI 系统,而非将技术狭隘地限定在特定领域的应用上。(@ APPSO)

2、OpenAI 奥尔特曼:现有手机与电脑难以发挥 AI 潜力,需新硬件载体

OpenAI 首席执行官萨姆・奥尔特曼在最新访谈中表示,当前智能手机和电脑的硬件形态存在根本性缺陷,无法满足未来 AI 发展的需求。

他指出现有设备非开即关的「二进制特性」限制了 AI 的情境感知与主动处理能力,理想设备应具备持续运作的智能提醒和前瞻性辅助功能。

奥尔特曼透露其团队正联合前苹果设计师乔尼・艾维探索新型硬件,包括智能眼镜、可穿戴设备及桌面终端,旨在打造具备环境感知能力的下一代 AI 载体。(@ IT 之家)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up