AI测试 语音客服公司驯鹿 AI 获数千万 A+ 轮融资;扎克伯格:眼镜将成为用户与 AI 交互的主要方式丨日报

RTE开发者社区 · 2025年07月31日 · 146 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、豆包·同声传译模型升级,支持全双工语音理解和 0 样本声音复刻

在 FORCE Link AI 创新巡展· 厦门站,火山引擎发布豆包·图像编辑模型 3.0、豆包·同声传译模型 2.0,豆包大模型 1.6 系列全新升级,以及开源扣子核心能力,并发布企业自有模型托管方案、Responses API 等多个模型服务和工具产品。具体来看:

  • 豆包·同声传译模型 2.0:支持全双工语音理解和生成框架,将传统机器同传的语音延迟降低到 2-3 秒,实现文本与语音的同步生成;无需提前录制,一边说话一边采样,实现 0 样本声音复刻。

  • 豆包·图像编辑模型 3.0:具备更强的指令遵循能力、图像保持能力和更强的图像生成质量。用户只需通过自然语言指令,即可完成多种操作;同时,豆包·图像编辑模型 3.0 具备对风格、结构与语义的精准控制力。

  • 豆包大模型 1.6 系列升级:此次,极速版 Doubao-Seed-1.6-flash 模型在保持出色的视觉理解能力,升级了代码、推理、数学等大语言模型能力。值得一提的是,该模型具有业界领先的极低延迟,TPOT 仅 10ms。价格也是一大亮点:每百万 tokens 输入仅需 0.15 元,输出仅 1.5 元。

  • 本次开源覆盖扣子平台最核心的两个项目: 扣子开发平台(Coze Studio)、 扣子罗盘(Coze Loop),并采用没有任何附加条件的 Apache 2.0 许可证开源,用户可在 GitHub 下载。

Responses API 上线:具备原生上下文管理能力,支持多轮对话的链式管理,可以无缝衔接文本、图像、混合模态数据;此外,Responses API 支持自主选择调用工具。(@ APPSO)

2、理想的司机大模型 VLA(视觉 - 语言 - 动作模型)与 i8 同步发布

理想的 VLA(视觉 - 语言 - 动作模型)与 i8 同步发布,让 i8 成了第一款搭载 VLA 司机大模型的理想车型。8 月份,VLA 就会在 i8 上交付。

VLA 的全称是 Vision-Language-Action,是视觉 - 语言 - 动作模型。在 VLA 模型中,V 承担着空间感知的职责,通过摄像头、导航等多种输入,构建出对周围环境的理解;L 则把这种感知翻译成清晰的语言;A 指的是根据对场景的编码,生成行为策略,也就是模型该怎么开车。

VLA 能力的提升,集中体现在三点:更懂语义、更擅长推理、更接近人类驾驶直觉。具体表现在:

行驶中能听懂「靠边停一下」「往前走 50 米」「快一点」这类自然语言指令,并据此完成操作;可以根据过往记忆设定特定路段的速度;能根据语音指令找到目的地,比如「帮我找到最近的星巴克」;在复杂路况下,它也能判断通行风险、选对道路,主动规避障碍。

在理想看来,VLA 带来的不再只是更好用的辅助驾驶,更是换了一个能听懂人话、会动脑子的「司机」。(@ 42 号车库)

3、Meta 的研究者提出通用视频世界模型 DINO-world,用于预测未来帧

Meta 提出了 DINO-World,一种基于潜在空间的通用视频世界模型。它在冻结的视觉编码器(如 DINOv2)基础上训练,大幅降低计算开销。该模型在约 6000 万条未经清洗的网络视频上预训练,具备良好的跨领域迁移能力。

实验表明,在预测未来 0.5 秒的场景时,DINO-World 在 VSPW 数据集上的 mIoU 提升了 6.3%,优于现有模型。在物理理解任务和动作条件规划任务中也表现出色,验证了大规模无监督预训练的有效性。相比参数高达 120 亿的生成模型,DINO-World 参数量不到 10 亿,显著提升了效率。

论文地址:https://arxiv.org/pdf/2507.19468v1

相关链接:https://aitntnews.com/newDetail.html?newId=16696(@ 新智讯、@ 机器之心)

02 有亮点的产品

1、Grok 即将推出了「Imagine」功能,支持生成带音频的视频

Grok 即将推出了「Imagine」视频功能,马斯克表示正在修复相关的 bug。

据报道,xAI 即将为 Grok iOS 应用推出全新图像视频生成功能「Imagine」:

  • 支持带音频的视频生成(类似谷歌 Veo 3)

  • 可一次性生成 4 段视频

  • 生成速度显著提升

据悉,Grok 的生成模型 Aurora 已经升级。

从早期泄露的信息来看,Imagine 将在 Grok 的应用和网页版中拥有独立的标签页,与原有的文字对话功能并列。

Grok 届时将提供两个主要入口:「Ask」用于文字问答,「Imagine」则专注于图像与视频生成,用户可以在两者之间自由切换,使用更便捷。

在 Imagine 页面中,除了展示一些预先生成的图像和视频供用户探索外,还提供完整的创作自由。你可以手动输入 Prompt(提示词)生成内容,也可以通过语音方式来描述想要创作的画面或场景。

每次生成后,系统会给出 4 个不同版本的视频供你挑选,每段视频都配有不同的背景音效。

生成结果会附带一些实用按钮,例如收藏、下载、在线分享,还可以点击「Redo」重新生成内容。

同时,Imagine 还提供多种预设模式可选,包括 Spicy(火辣)、Fun(风趣)和 Normal(常规)。

此外,Imagine 页面还支持无限浏览推荐内容,用户可以持续向下滑动,探索更多图像与视频变体。

相关链接:https://www.eonmsk.com/2025/07/28/xai-grok-imagine-feature/(@ 新智元)

2、NotebookLM 上线视频概览 Video Overviews 的新功能

Google 最近又更新了它的 AI 笔记工具 NotebookLM,这次带来了一个叫「视频概览(Video Overviews)」的新功能。

这个功能可以把用户上传的笔记、PDF、图片,自动生成一段结构清晰、图文并茂的视频。

目前,这项新功能已经开始面向所有英文用户开放,后续会支持更多语言。 同时,NotebookLM 的 Studio 面板也升级了:

  • 用户现在可以在一个笔记本里保存多个不同版本的输出内容;

  • 面板上新增了四个快捷按钮,分别对应音频、视频、思维导图和报告,一键生成;

  • 多任务也不是问题,比如用户可以一边听 AI 播客,一边浏览思维导图或学习指南。

新闻来源:https://techcrunch.com/2025/07/29/googles-notebooklm-rolls-out-video-overviews/(@ AI 星球视界)

3、驯鹿 AI 获数千万 A+ 轮融资,其语音客服机器人可独立完成从打招呼到解决问题的全过程

据 36 氪报道,北京驯鹿智能科技(以下简称「驯鹿 AI」)近日成功完成数千万人民币 A+ 轮融资,本轮融资由坤言资本和 IDG 领投,万世资本和源合资本担任专业顾问。融资资金主要用于进一步加速公司在智能销售与客服机器人领域的技术研发和市场拓展,助力更多企业实现全流程智能化服务,提升业务运营效率。

驯鹿 AI 是一家成立于 2021 年的科技公司,专注于用 AI 机器人全面替代人工销售和客服工作。公司近日完成数千万人民币 A+ 轮融资,将用于技术研发和市场拓展。

据悉,驯鹿 AI 自研的 AI 算法与多 Agent 协作架构有效解决了传统机器人的「幻觉」问题,这一技术突破使得驯鹿 AI 的机器人在处理多种形式的输入(如文字、图片、语音等)时,能够准确理解客户需求,并提供高效、精确的解决方案。

此外,驯鹿 AI 在语音识别与自然语言处理(NLP)领域也取得了显著突破。机器人的语音识别能力不仅准确,而且能够理解语境、情感和语气,使得对话更加自然流畅,这让客户获得更高质量的语音服务体验。

机器人通过对客户语音的分析,快速判断客户的主要需求,自动调取企业 SOP(标准操作程序)和知识库,选择合适的处理流程。

相关链接:https://aitntnews.com/newDetail.html?newId=16697

体验链接:https://www.xunluai.com/(@ 新智讯、@ 驯鹿 AI)

4、Sesame 新增支持中日韩等七门语言

AI 语音技术公司 Sesame 宣布提升其语音模型的多语言支持能力。新版本增强了对包括西班牙语、法语、德语、意大利语、中文、日语和韩语在内的七种主流语言的支持。

体验: http://sesame.com/voicedemo

Sesame 核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。为此,Sesame 团队专注于几个关键的组成部分,包括情感智能、对话动态、上下文意识和一致的人格特征。(@ sesame\@X

03 有态度的观点

1、扎克伯格写信暗示:Meta 或加入闭源行列

Meta CEO 扎克伯格发布一份名为《个人超级智能》(Personal Superintelligence)的信件,透露了 Meta 将目标定在了打造超级智能,同时也在文中暗示,Meta 或会走向闭源行列。

扎克伯格表示,过去数月中,大家看到了 AI 系统自我提升的端倪,但目前的提升还很缓慢,而开发超级智能的任务已经近在眼前。其指出,人类会将超级智能引向何处仍是一个悬而未决的问题。

扎克伯格坦言,自己对超级智能帮助人类加速进步持积极乐观态度,但更重要的是,超级智能有望开启个人赋权的新纪元——人们将拥有更大的自主权,按照自己选择的方向来改变世界。

而扎克伯格也在文中进一步透露了 Meta 在超级智能上的目标选择——与部分业内主张的观点(将超级智能集中起来)不同,Meta 希望超级智能走向每个人,让每个人能够自己掌握这股力量。

值得一提的是,扎克伯格在文中强调,超级智能的收益尽可能广泛地与全世界分享,但潜在的、新的安全也需要关切。同时他还提到:

我们需要以严格的态度去降低这些风险,并谨慎对待我们选择开源的内容。(@ APPSO)

2、机构:夸克 AI 搜索产品性能第一

近日,国际数据公司(IDC)正式发布了《AI 搜索产品评估,2025》研究报告。报告从用户数据、产品性能、技术能力三个维度,对通用搜索产品进行评测。在产品性能方面,阿里巴巴旗下应用夸克以 4.8 分位列第一。

评测报告显示,夸克不仅在复杂搜索推理能力上展现出强大实力,在搜索结果的专业性和准确率方面,也都拿下了满分。这是通用搜索行业首次迎来新领跑者。

IDC 报告认为,在 AI 搜索技术迭代与市场需求升级的双重驱动下,行业竞争格局正加速重构。值得一提的是,在 RAG 技术普及与用户需求转变的背景下,2025 年中国 AI 搜索市场正从「技术军备竞赛」转向「场景价值攻坚阶段」。

报告指出,AI 搜索真正的竞争壁垒在于「场景中的不可替代性」,包括独家数据源、定制化算法、场景化服务延伸。因为,用户需求正从「泛化信息获取」转向「精准场景解决」。据悉,夸克在多场景下均推出了出色的成果项目:

  • 在高考场景中,夸克研发了「高考知识库」和「高考志愿大模型」,推出国内首个「志愿报告 Agent」,累计生成超 1200 万份专业志愿报告。

  • 在健康领域,「夸克健康大模型」成功通过中国 12 门核心学科的主任医师笔试评测,其构建出的「慢思考能力」在面对复杂医疗问题时,能分阶段、层层深入地推导出最终回答。(@ APPSO)

3、扎克伯格断言:未来几年,眼镜将成为用户与人工智能交互的主要方式

Meta CEO Mark Zuckerberg 在公司第二季度财报电话会议上再次强调了他对 AI 眼镜的雄心。他向投资者表示,眼镜将成为未来用户与 AI 交互的主要方式,而那些不使用 AI 眼镜的人,未来可能会面临「显著的认知劣势」。

Zuckerberg 解释说:「眼镜将是 AI 的理想载体,因为它能让 AI 看到你所见、听到你所闻,并与你对话。」他认为,为眼镜配备显示屏将进一步释放其价值,无论是像 Meta 下一代 Orion AR 眼镜那样提供宽广的全息视野,还是在日常 AI 眼镜中集成一个小型显示屏。

核心技术愿景与亮点

Zuckerberg 的构想基于以下几个核心技术判断:

理想的交互形态: AI 眼镜能实时获取用户的视觉与听觉信息,实现对物理世界的高度情境感知,从而提供最无缝、最自然的 AI 交互体验。

显示技术的价值: 为眼镜增加显示功能是关键一步。这不仅能用于信息提示,更能通过先进的 AR 技术(如 Orion 项目)实现虚拟信息与现实世界的深度融合。

加速「元宇宙」实现: AI 眼镜被视为连接物理世界与数字世界的理想桥梁。Zuckerberg 相信,AI 的发展将极大地加速其「元宇宙(Metaverse)」愿景的实现。

市场现状与未来规划

现有产品与市场反响: Meta 已推出 Ray-Ban Meta 和 Oakley Meta 智能眼镜,允许用户听音乐、拍照录像,并与 Meta AI 进行语音问答。据眼镜巨 EssilorLuxottica 透露,Ray-Ban Meta 眼镜的销售收入同比增长超过两倍,已成为市场上的一个惊喜。

高昂的研发投入: 实现这一愿景的代价不菲。负责研发的 Reality Labs 部门在第二季度运营亏损高达 45.3 亿美元,自 2020 年以来累计亏损已近 700 亿美元。Zuckerberg 的这番言论,也是在向投资者阐明这项长期投入的战略价值。

行业竞争格局: 尽管 Zuckerberg 对眼镜形态充满信心,但 AI 硬件的未来形态远未确定。OpenAI 已收购前苹果高管 Jony Ive 的初创公司,旨在打造全新的 AI 消费设备。同时,市场上也出现了如 Humane 的 AI Pin 和 Limitless 的吊坠等其他形态的探索。

尽管如此,Zuckerberg 坚信眼镜将是最终的赢家,它不仅是 AI 的载体,更是融合数字与现实的关键。(@ Techcrunch)

更多 Voice Agent 学习笔记:

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册