开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、阶跃星辰端到端语音模型 Step-Audio 2,支持对情绪、副语言、音乐等非文字信号精细理解
Step-Audio 2 是业内首个将语音理解、音频推理与生成统一建模的架构,打通了「听得懂、想得明白、说得自然」的完整交互链路。模型基于千万小时真实语音数据训练,具备实时对话、语音翻译、工具调用等关键能力。在端到端语音模型中首创任意音色切换和深度思考能力,能对情感场景等副语言信息、声音音乐等非语言信息进行精细理解与推理,达到 SOTA 级语音理解与表达水平。
与此同时,我们还发布了 StepEval-Audio-Paralinguistic 和 StepEval-Audio-ToolCall 两项行业新评测基准。分别衡量语音模型在副语言信息理解与工具调用两大能力维度的表现, 填补了领域空白,进一步完善语音模型的评估体系。
Step-Audio 2 主要通过三个技术实现:
真端到端多模态架构:Step-Audio 2 的架构「真」端到端,直接处理原始音频,保证对副语言信息和非人声信息的有效理解。一改传统的 ASR + LLM + TTS 三级结构,实现原始音频输入→语音响应输出的直接转换;这样架构更简单,能够有效减少时延。此外,技术上采用了连续输入 + 离散输出范式,能直接处理原始音频波形,避免特征提取造成的信息损失,还能通过离散音频 token 保证声音合成稳定性。最后,在语言建模层,Step-Audio 2 实现了文本与语音 token 的 固定比例交错排列,确保文本 - 语音模态高度对齐,显著提升模型的智商上限。
CoT 推理结合强化学习:团队首创了端到端语音模型中的深度推理能力,能对情绪、副语言、音乐等非文字信号进行精细理解、推理,实现高情商回复。
多模态知识检索增强:模型支持调用 web 搜索,有助于模型解决幻觉问题,同时支持音频检索,让模型可以通过任意自然语言描述来无缝切换音色风格,实现百变音色。
相关链接:https://github.com/stepfun-ai/Step-Audio2(@ 阶跃星辰开放平台)
2、ElevenLabs 对话式 AI 现已添加 WebRTC 支持
ElevenLabs 对话式 AI 中现已添加 WebRTC 支持,旨在为 AI 智能体提供同类最佳的回声消除和背景噪音消除功能。
WebRTC 能够带来:
通过先进的回声消除和噪声去除,实现卓越的音频质量;
无需插件或下载,实现无缝浏览器集成;
具备生产级可靠性,支持自动网络适应。
相关链接:https://elevenlabs.io/docs/conversational-ai/libraries/react(@elevenlabsio\@X)
3、字节跳动开源 Coze 双核:Studio 可视化开发平台 + Loop 全生命周期管理
字节跳动正式开源其 AI Agent 开发平台扣子(Coze)的核心项目 Coze Studio 和 Coze Loop,采用非常宽松的 Apache-2.0 开源协议,诚意十足。
Coze Studio 提供 Prompt 工程、RAG(检索增强生成)、Plugin 开发、Workflow 编排等关键技术模块。开发者可以通过零代码或低代码的可视化界面,快速构建、调试和部署智能体、应用和工作流。技术栈方面,后端采用 Golang 开发,前端使用 React 框架。开源版本支持接入 OpenAI、火山方舟等主流模型服务,并提供了完整的对话 API 和工作流 SDK。
Coze Loop 则专注于 AI Agent 的全生命周期管理,覆盖从开发、调试、评估到监控的完整流程。其特色功能包括:支持实时交互测试的 Prompt 开发环境、智能版本管理系统、多维度自动化评测工具,以及全链路执行过程的可视化观测面板。
Coze 开源组织: https://github.com/coze-dev
Coze Studio GitHub 仓库: https://github.com/coze-dev/coze-studio
Coze Loop GitHub 仓库:https://github.com/coze-dev/cozeloop(@ 三花 AI)
4、前 Meta 团队创立的 AI 研究实验室 Memories.ai,正式宣布完成 800 万美元种子轮融资
由前 Meta Reality Labs 顶尖科学家团队创立的 AI 研究实验室 Memories.ai,正式宣布完成 800 万美元种子轮融资。本轮融资由 Susa Ventures 领投,三星风投(Samsung Next)、Fusion Fund 等知名机构跟投。
Memories.ai 团队已经在大模型领域完成了一项重大的突破成果,剑指 AI 系统的「记忆缺失」问题,为视觉模型创造了强大的「记忆大脑」。
Memories.ai 通过其核心创新 —— 大视觉记忆模型(LVMM),为 AI 系统引入了一个革命性的视觉记忆层。
该模型突破了传统 AI 在视频处理中仅限于片段式分析的范式,转而能够持续捕获、存储和结构化海量的视觉数据,从而使 AI 模型能够:
永久保留上下文信息: 从孤立的帧转向对事件因果链的深度理解;
精准识别时序模式: 实现对人脸、物体和行为在时间轴上的持续追踪和识别;
智能对比分析: 快速对比新旧视觉信息,有效识别变化和异常。
该平台把原始视频转化成可搜索、带上下文关联的数据库,让 AI 系统具备类似人类的持续学习能力,给 AI 系统配备了无限视觉记忆的「最强大脑」。该团队已将核心技术通过 API 接口全面开放,并同步推出直观、可交互的网页应用。用户可以便捷地上传视频或接入现有视频库,实现快速、精准的内容检索与深度分析。相关链接:https://memories.ai(@ 机器之心)
1、前百川智能联合创始人焦可启动新 AI 语音播客产品「来福」,支持语音交互
前百川智能联合创始人焦可已正式启动其在 AI 语音方向的创业项目,产品名为「来福」。目前该产品已已经能在 App Store 搜索下载。
知情人士透露,「来福」由焦可创立的新公司「北京耳朵时间科技有限公司」推出,该公司成立于2025年2月17日,注册资本为 100 万元,法人为焦可本人,目前已获得知名美元资本的投资青睐。
产品「来福」定位为一款 AI 驱动的语音电台应用,支持一定程度的实时语音互动,整体形式更像是一种 AI 语音陪伴或社交类产品,探索更日常化、更情绪化的声音交互场景。
但「来福」尚未开放公众注册,仅支持部分邀请码用户进入测试。产品是否会开放邀请机制,何时进行公测上线,还未有官方表态。(@AI 科技评论)
2、NotebookLM 即将推出视频概览
Google 泄漏了即将推出的功能:视频概览,旨在为 NotebookLM 内容自动创建带有解说的简短视频摘要。
据悉,视频概览功能将以带有文本、图片和其他视觉元素的视频幻灯片形式出现,由女性声音旁白。
今年七月,Google 发布了共享笔记本,这是一项新功能,允许用户浏览精选的预制笔记本,与底层资源进行对话,并访问预生成的音频概览。
目前,Google 已经在共享笔记本环境中生成了一些视频概览文件。具体来说,至少有两个主题存在视频概览:「黄石公园」和「人类衰老」。这些文件普通用户无法访问,需具备内部权限才能查看。
视频本身遵循一致的格式:一系列带有文本、图表和静态图像的幻灯片,背景为白色,配有旁白,但没有动画或动态效果。每个视频都带有 NotebookLM 水印,并配备基本的播放控制,用于导航和分享。
相关链接:https://www.testingcatalog.com/first-look-at-video-overviews-in-googles-notebooklm/(@testingcatalog\@X)
3、快手可灵 AI 升级:解决视频生成痛点
快手可灵 AI 在 2025 世界人工智能大会(WAIC)上,正式发布两项重磅更新:一是全新创意工作台「灵动画布」,二是全面升级的「多图参考」功能。
据悉,「灵动画布」支持最多 5 人在同一画布内协同创作,素材共享、实时联动、一键导出,打造出更流畅的创作闭环。
而全面升级的「多图参考」视频生成功能,经过盲测,新模型的效果比之前提升了整整 102%,尤其是在角色、主体和场景一致性、动态质量、画风保持等维度,几乎打通了日常创作最容易翻车的几道关口。
用户只需要上传 1-4 张参考图、框选需要的元素(人物、动物、物品、场景都行)、输入提示词描述它们的互动、点击生成,就能坐等视频生成。现在功能升级后,生成的视频内容中,人物角色更自然、主体一致性大幅提升。
此次升级还新增了局部参考功能。该功能解决了「AI 把参考图所有元素都考虑进去,不想要的背景反而抢戏」这一难题。现在用户可以自己圈定参考范围,生成结果更可控,也更符合创作者预期。(@APPSO)
1、阿里宋刚:AI 眼镜成下一个重要移动入口,是阿里 AI TO C 战略延伸
7 月 26 日,一年一度的 2025 世界人工智能大会(WAIC)开幕,阿里发布了业界期待的首款自研 AI 眼镜「夸克 AI 眼镜」技术研发进展。据悉,该款 AI 眼镜已完成研发,预计将于年内正式发布。
「AI 眼镜有可能会是未来想象力最大的一个入口。」WAIC2025 期间,阿里巴巴智能信息事业群终端业务负责人宋刚表示。
在宋刚看来,AI 眼镜作为智能穿戴领域的核心产品,将扮演人类另一双「眼睛」和「耳朵」。作为下一代人机交互的「感官中枢」,AI 眼镜将会催生个人数据量的急剧爆发,有望成为继智能手机之后最重要的个人移动入口,阿里做 AI 眼镜,不仅解决行业面临的痛点,还希望将这款 AI 眼镜转变为用户的贴身助手以及连接未来的超级入口。
宋刚表示,「我们入局 AI 眼镜不算太早,里面的玩家主要有初创企业、手机行业玩家、互联网科技企业三类。我们觉得它的重要性比较高,在阿里 AI TO C 的战略里也处在一个非常重要的位置,所以我们就切入进来。」
但正如宋刚所说,选择入局 AI 眼镜,背后是阿里的能力支撑,从硬件到基础模型、应用模型到生态和用户能够形成自身的闭环。
「目前的 AI 眼镜,生态是目前最大的弊点。」宋刚坦言。
去年云栖大会上,阿里巴巴集团 CEO 吴泳铭曾表示:AI 最大的想象力,绝不是在手机屏幕上做一两个新的超级 APP,而是接管数字世界,改变物理世界。(@ 科创板日报)
2、GPT-4 幕后功臣成为 Meta AI 首席科学家
7 月 26 日,Meta 宣布,清华校友赵晟佳(Shengjia Zhao)将正式担任其超级智能实验室( MSL)首席科学家。
「我很高兴地宣布,赵晟佳将担任 Meta 超级智能实验室的首席科学家,」扎克伯格在内部信中写道,「赵晟佳是新实验室的联合创始人,从一开始就是我们的首席科学家。现在我们的招聘进展顺利,团队逐渐成型,我们决定正式确立他的领导角色。」
另外,Meta 超级智能实验室负责人 Alexandr Wang、英伟达机器人部门主管兼杰出科学家 Jim Fan 也在社交平台上纷纷发文祝贺。
值得注意的是,尽管 FAIR 团队在 Meta 的整体战略中逐渐边缘化,65 岁的图灵奖得主 Yann LeCun 的职位未发生变化。扎克伯格也特别强调,Yann LeCun 将继续担任 FAIR 的首席科学家。与 MSL 不同,FAIR 专注于长期 AI 研究——即可能在五到十年后使用的技术。
据了解,赵晟佳于 2016 年本科毕业于清华大学计算机系,曾在美国莱斯大学交换,后于斯坦福大学攻读计算机科学博士学位,专注于大模型架构、多模态推理和对齐方向的研究。
2022 年,赵晟佳加入 OpenAI,担任核心研发成员,深度参与 GPT-4 和 GPT-4o 的系统设计工作,曾主导 ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的研发工作,还曾领导 OpenAI 合成数据团队。
其中,赵晟佳曾作为主要作者之一参与撰写《GPT-4 技术报告》(2023),该论文截至目前已获得超过 1.7 万次引用,是当代 AI 领域被引用最多的技术文献之一。(@APPSO)
更多 Voice Agent 学习笔记:
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?
视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻