AI测试 Vercel 发布 AI SDK 5，引入语音 API；Ollama 新版本支持多模态交互丨日报

RTE开发者社区 · 2025年08月01日 · 3401 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、Veo 3 Fast 即将登陆 Google AI Studio，支持生成具有期望动作、叙事和音效的动态视频

7 月 30 日，Google 宣布为其视频生成模型系列增添新成员 Veo 3 Fast，并为 Veo 3 和 Veo 3 Fast 增加了图像到视频的生成能力。这些更新现已通过 Gemini API 以付费预览形式提供。

Veo 3 Fast 是 Veo 3 模型的一个优化版本，专为追求速度和成本效益的开发者设计，使其能够更快地进行创意迭代。该模型支持文本到视频和图像到视频两种模式，非常适用于程序化广告、快速创意原型设计和大规模社交媒体内容生成等场景。Veo 3 Fast 的定价为每秒视频（含音频）0.40 美元。

新增的图像到视频功能允许开发者使用 Veo 3 和 Veo 3 Fast 从静态输入图像生成带有声音的高质量视频片段。

Veo 3 可实现音画一体、一步生成。用户只需提供一张图片和相应的文本提示，即可引导模型生成具有期望动作、叙事和音效的动态视频，并能保持与初始图像的风格一致性。该功能在 Veo 3 上的定价与文本到视频相同，为每秒视频（含音频）0.75 美元。

此外，有消息称 Veo 3 Fast 可能很快也会登陆 Google AI Studio，并提供配额。

相关链接：https://developers.googleblog.com/en/veo-3-fast-image-to-video-capabilities-now-available-gemini-api/（@ 橘鸭 Juya、@WebEye 云服务）

2、Vercel 发布 AI SDK 5，引入语音 API 和增强工具调用等功能

Vercel 发布了其广受欢迎的开源 AI 应用工具包 AI SDK 的第五个主要版本。AI SDK 5 周下载量已超过 200 万，新版本为 TypeScript 和 JavaScript 带来了类型安全的聊天功能、Agentic 循环控制、语音生成与转录、工具增强等多项重大更新。

新版本对聊天功能进行了彻底重建，核心是引入了两种不同的消息类型来解决开发者在状态管理和聊天历史持久化方面的挑战。UIMessage 作为应用程序状态的「真实来源」，包含所有消息、元数据和工具结果，推荐用于持久化存储。

新版本还将统一的提供商抽象扩展到了语音领域，为 OpenAI、ElevenLabs、DeepGram 等提供商的语音生成和转录服务提供了统一、类型安全的接口。工具调用功能也得到全面增强，支持动态工具、提供商执行的工具（如 OpenAI 的网页搜索）以及更精细的生命周期钩子。

其他重要更新包括：将 SSE 作为标准的流媒体协议；引入全局提供商（默认为 Vercel AI Gateway），简化模型 ID 的使用；支持访问原始请求和响应数据以增强调试和控制能力；并增加了对 Zod 4 的支持。为帮助用户平滑迁移，Vercel 提供了自动化的代码修改工具（@codemods）。

相关链接：https://vercel.com/blog/ai-sdk-5（aisdk\@X、橘鸭 Juya）

02 有亮点的产品

1、Manus 上线「广泛研究」

7 月 29 日晚，Manus 正式推出一项新功能，能够通过协调数十个 AI 智能体进行同时工作，以实现广泛研究，并命名为「Wide Research」（广泛研究）。

官方介绍，Wide Research 的关键不仅仅在于拥有更多的智能体——而是它们如何协作。与传统的基于预定义角色（如「管理者」「编程者」「设计师」）的多智能体系统不同，Wide Research 中的每个子智能体都是一个功能完备的、通用的 Manus 实例。

据悉，在 Wide Research 加持下，Manus 解锁了一种强大的新方式，让用户能够处理需要获取数百个项目信息的复杂、大规模任务。「无论您是在探索财富 500 强企业，比较顶尖 MBA 项目，还是深入研究 GenAI 工具，Wide Research 都使深入、大量的研究变得毫不费力。」

Wide Research 即日起正式向 Pro 用户推出，并计划逐步向 Plus 和 Basic 层级用户开放。

体验地址：https://manus.im/app（@APPSO）

2、Moonvalley 推出 Sketch-to-Video 功能：手绘草图一键生成电影级视频

AI 视频生成初创公司 Moonvalley 日前宣布，其旗舰模型 Marey 正式支持 Sketch-to-Video（手绘草图转视频）功能。这意味着用户只需绘制草图，即可让系统迅速生成具备影视感的动态画面。

该功能是 Marey「混合创作」理念的重要延展。不同于传统只接受文字提示的生成方式，用户可以通过手绘框架快速定义场景结构、姿势或构图，再借助 Marey 模型转化为具体镜头。这种体验更符合导演视觉创作流程，帮助创作者将创意更快落地。

Moonvalley 强调，这项功能为专业级创作者提供更多交互控制。例如，通过草图定义人物动作或摄像机运动路径后，系统能自动生成连贯视频片段，支持细致的后期调整。模型支持 1080p\@24fps 输出，保证画面清晰度与流畅性。

这一步骤标志着 AI 视频制作从「黑盒生成」逐渐走向「导演式控制」，使 Marey 成为更符合影视工作流程的专业工具。Moonvalley CEO Naeem Talukdar 表示：「我们希望工具能与导演的创作方式有机融合，而不是简单替代。」

目前，Sketch‑to‑Video 功能已通过 Marey 平台向订阅用户开放，订阅价格起步为 14.99 美元／月，用户还可选择按需购买渲染积分。Moonvalley 正与多家影视机构和广告团队合作试用，探索其在商业制作流程中的应用价值。

相关链接：https://techcrunch.com/2025/07/08/moonvalleys-ethical-ai-video-model-for-filmmakers-is-now-publicly-available/（@AI 星球视界）

3、Ollama 0.10.1 版本正式上线可视化图形界面，支持下载模型和多模态交互

Ollama 0.10.1 版本正式上线可视化图形界面，同步支持 Mac 和 Windows 端。

功能介绍：

更简单的对话界面：新版本 Ollama 中提供了全新的对话界面，不仅支持普通的对话，还支持下载模型；
与文件对话：新版本 Ollama 也支持了与 PDF、文档进行对话；对于比较大的文档，可以在设置中增加 Ollama 的上下文长度，可能会更消耗电脑内容；
支持多模态对话：新版本 Ollama 内置新的多模态引擎，支持发送图片给大语言模型，前提需要模型支持多模态，比如 Gemma 3 等，国内模型也有，比如 Qwen2.5vl 等；
文档编写：新版本 Ollama 支持添加代码文件，然后让大语言模型进行理解，编写新的文档。

Ollama 官网：https://ollama.com/

下载地址：https://ollama.com/download（@AI 工具派）

4、生成式媒体平台 fal 宣布完成由 Meritech Capital 领投的 1.25 亿美元 C 轮融资

今天，fal 宣布完成由 Meritech Capital 领投的 1.25 亿美元 C 轮融资，Salesforce Ventures、Shopify Ventures 和 Google AI Futures Fund 也加入了本轮投资。值得一提的是，该公司在 12 个月内成功完成了三轮融资，现公司估值达 15 亿美元。

fal 是一家总部位于旧金山的公司，致力于打造全球首个面向开发者的生成式媒体平台

fal 的生成媒体云（Generative Media Cloud）现已支持数以万计的应用，服务超过两百万开发者和三百多家企业客户。

仅在过去一年里，该公司月均增长率达 40%。通过这轮最新融资，fal 计划将大幅扩展工程、支持、销售和市场团队，以跟上社区用户日益增长的需求和热情。

fal 提出了发展愿景：打造一个生成式媒体平台，轻松创建涵盖视频、音频、图像和 3D 的动态实时内容。

相关链接：https://fal.ai/careers（@FAL\@X）

5、AI 语音输入 app Willow 支持模仿用户风格转写

8 月 1 日，AI 语音输入 app Willow 更新个性化功能，支持模仿用户风格转写。

通过个性化功能，用户只需进行少量编辑，Willow 就能模仿用户的编辑风格、语言、语调等，并以用户的个性化风格转写。

上个月 Willow 刚完成了 420 万美元的筹资。

体验链接：willowvoice.com（@WillowVoiceAI\@X）

6、扣子新增智能体发布渠道，支持将智能体一键发布至小米应用商店