AI测试 Vercel 发布 AI SDK 5,引入语音 API;Ollama 新版本支持多模态交互 丨日报

RTE开发者社区 · August 01, 2025 · 441 hits

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、Veo 3 Fast 即将登陆 Google AI Studio,支持生成具有期望动作、叙事和音效的动态视频

7 月 30 日,Google 宣布为其视频生成模型系列增添新成员 Veo 3 Fast,并为 Veo 3 和 Veo 3 Fast 增加了图像到视频的生成能力。这些更新现已通过 Gemini API 以付费预览形式提供。

Veo 3 Fast 是 Veo 3 模型的一个优化版本,专为追求速度和成本效益的开发者设计,使其能够更快地进行创意迭代。该模型支持文本到视频和图像到视频两种模式,非常适用于程序化广告、快速创意原型设计和大规模社交媒体内容生成等场景。Veo 3 Fast 的定价为每秒视频(含音频)0.40 美元。

新增的图像到视频功能允许开发者使用 Veo 3 和 Veo 3 Fast 从静态输入图像生成带有声音的高质量视频片段。

Veo 3 可实现音画一体、一步生成。用户只需提供一张图片和相应的文本提示,即可引导模型生成具有期望动作、叙事和音效的动态视频,并能保持与初始图像的风格一致性。该功能在 Veo 3 上的定价与文本到视频相同,为每秒视频(含音频)0.75 美元。

此外,有消息称 Veo 3 Fast 可能很快也会登陆 Google AI Studio,并提供配额。

相关链接:https://developers.googleblog.com/en/veo-3-fast-image-to-video-capabilities-now-available-gemini-api/(@ 橘鸭 Juya、@WebEye 云服务)

2、Vercel 发布 AI SDK 5,引入语音 API 和增强工具调用等功能

Vercel 发布了其广受欢迎的开源 AI 应用工具包 AI SDK 的第五个主要版本。AI SDK 5 周下载量已超过 200 万,新版本为 TypeScript 和 JavaScript 带来了类型安全的聊天功能、Agentic 循环控制、语音生成与转录、工具增强等多项重大更新。

新版本对聊天功能进行了彻底重建,核心是引入了两种不同的消息类型来解决开发者在状态管理和聊天历史持久化方面的挑战。UIMessage 作为应用程序状态的「真实来源」,包含所有消息、元数据和工具结果,推荐用于持久化存储。

新版本还将统一的提供商抽象扩展到了语音领域,为 OpenAI、ElevenLabs、DeepGram 等提供商的语音生成和转录服务提供了统一、类型安全的接口。工具调用功能也得到全面增强,支持动态工具、提供商执行的工具(如 OpenAI 的网页搜索)以及更精细的生命周期钩子。

其他重要更新包括:将 SSE 作为标准的流媒体协议;引入全局提供商(默认为 Vercel AI Gateway),简化模型 ID 的使用;支持访问原始请求和响应数据以增强调试和控制能力;并增加了对 Zod 4 的支持。为帮助用户平滑迁移,Vercel 提供了自动化的代码修改工具(@codemods)。

相关链接:https://vercel.com/blog/ai-sdk-5(aisdk\@X、橘鸭 Juya)

02 有亮点的产品

1、Manus 上线「广泛研究」

7 月 29 日晚,Manus 正式推出一项新功能,能够通过协调数十个 AI 智能体进行同时工作,以实现广泛研究,并命名为「Wide Research」(广泛研究)。

官方介绍,Wide Research 的关键不仅仅在于拥有更多的智能体——而是它们如何协作。与传统的基于预定义角色(如「管理者」「编程者」「设计师」)的多智能体系统不同,Wide Research 中的每个子智能体都是一个功能完备的、通用的 Manus 实例。

据悉,在 Wide Research 加持下,Manus 解锁了一种强大的新方式,让用户能够处理需要获取数百个项目信息的复杂、大规模任务。「无论您是在探索财富 500 强企业,比较顶尖 MBA 项目,还是深入研究 GenAI 工具,Wide Research 都使深入、大量的研究变得毫不费力。」

Wide Research 即日起正式向 Pro 用户推出,并计划逐步向 Plus 和 Basic 层级用户开放。

体验地址:https://manus.im/app(@APPSO

2、Moonvalley 推出 Sketch-to-Video 功能:手绘草图一键生成电影级视频

AI 视频生成初创公司 Moonvalley 日前宣布,其旗舰模型 Marey 正式支持 Sketch-to-Video(手绘草图转视频)功能。这意味着用户只需绘制草图,即可让系统迅速生成具备影视感的动态画面。

该功能是 Marey「混合创作」理念的重要延展。不同于传统只接受文字提示的生成方式,用户可以通过手绘框架快速定义场景结构、姿势或构图,再借助 Marey 模型转化为具体镜头。这种体验更符合导演视觉创作流程,帮助创作者将创意更快落地。

Moonvalley 强调,这项功能为专业级创作者提供更多交互控制。例如,通过草图定义人物动作或摄像机运动路径后,系统能自动生成连贯视频片段,支持细致的后期调整。模型支持 1080p\@24fps 输出,保证画面清晰度与流畅性。

这一步骤标志着 AI 视频制作从「黑盒生成」逐渐走向「导演式控制」,使 Marey 成为更符合影视工作流程的专业工具。Moonvalley CEO Naeem Talukdar 表示:「我们希望工具能与导演的创作方式有机融合,而不是简单替代。」

目前,Sketch‑to‑Video 功能已通过 Marey 平台向订阅用户开放,订阅价格起步为 14.99 美元/月,用户还可选择按需购买渲染积分。Moonvalley 正与多家影视机构和广告团队合作试用,探索其在商业制作流程中的应用价值。

相关链接:https://techcrunch.com/2025/07/08/moonvalleys-ethical-ai-video-model-for-filmmakers-is-now-publicly-available/(@AI 星球视界)

3、Ollama 0.10.1 版本正式上线可视化图形界面,支持下载模型和多模态交互

Ollama 0.10.1 版本正式上线可视化图形界面,同步支持 Mac 和 Windows 端。

功能介绍:

  • 更简单的对话界面:新版本 Ollama 中提供了全新的对话界面,不仅支持普通的对话,还支持下载模型;

  • 与文件对话:新版本 Ollama 也支持了与 PDF、文档进行对话;对于比较大的文档,可以在设置中增加 Ollama 的上下文长度,可能会更消耗电脑内容;

  • 支持多模态对话:新版本 Ollama 内置新的多模态引擎,支持发送图片给大语言模型,前提需要模型支持多模态,比如 Gemma 3 等,国内模型也有,比如 Qwen2.5vl 等;

  • 文档编写:新版本 Ollama 支持添加代码文件,然后让大语言模型进行理解,编写新的文档。

Ollama 官网:https://ollama.com/

下载地址:https://ollama.com/download(@AI 工具派)

4、生成式媒体平台 fal 宣布完成由 Meritech Capital 领投的 1.25 亿美元 C 轮融资

今天,fal 宣布完成由 Meritech Capital 领投的 1.25 亿美元 C 轮融资,Salesforce Ventures、Shopify Ventures 和 Google AI Futures Fund 也加入了本轮投资。值得一提的是,该公司在 12 个月内成功完成了三轮融资,现公司估值达 15 亿美元。

fal 是一家总部位于旧金山的公司,致力于打造全球首个面向开发者的生成式媒体平台

fal 的生成媒体云(Generative Media Cloud)现已支持数以万计的应用,服务超过两百万开发者和三百多家企业客户。

仅在过去一年里,该公司月均增长率达 40%。通过这轮最新融资,fal 计划将大幅扩展工程、支持、销售和市场团队,以跟上社区用户日益增长的需求和热情。

fal 提出了发展愿景:打造一个生成式媒体平台,轻松创建涵盖视频、音频、图像和 3D 的动态实时内容。

相关链接:https://fal.ai/careers(@FAL\@X

5、AI 语音输入 app Willow 支持模仿用户风格转写

8 月 1 日,AI 语音输入 app Willow 更新个性化功能,支持模仿用户风格转写。

通过个性化功能,用户只需进行少量编辑,Willow 就能模仿用户的编辑风格、语言、语调等,并以用户的个性化风格转写。

上个月 Willow 刚完成了 420 万美元的筹资。

体验链接:willowvoice.com(@WillowVoiceAI\@X

6、扣子新增智能体发布渠道,支持将智能体一键发布至小米应用商店

8 月 1 日起,扣子开发平台与小米应用商店正式打通,新增发布渠道——能够实现将智能体一键发布至小米应用商店,加速智能创意的落地与传播。

通过小米应用商店审核后,智能体将在小米应用商店上架。可通过小米应用商店搜索栏被用户搜索到,或在小米应用商店【AI 智能体专区】查看,并调用智能体服务,即点即用,无需下载、无需跳端,数亿小米终端瞬间成为你的新流量池。

相关链接:https://www.coze.cn/home(@ 扣子 Coze)

03 Real-Time AI Demo

1、 Odyssey:机器梦境视频模型

来自 X 上 Odyssey 的创始人@olivercameron:如果有一个模型能够实时「梦见」视频,视频可播放且个性化定制给观众,并且有调节旋钮让它变得有趣、宁静或史诗般震撼,你觉得怎么样?距离我们下一代产品发布还有一到两周时间。

04 有态度的观点

1、腾讯研究院圆桌实录:AI 发展下,人的想象力却变成最后的独特优势

日前,腾讯研究院发布最新一期《仲夏六日谈》,主题为《AI 时代如何把想象力变成一种竞争优势?》. 本次对话嘉宾拥有多位 AI 创企的创始人,大家分别讨论了 AI 时代下,想象力与竞争的相互转化。

主持人、腾讯研究院资深专家袁晓辉指出,在 AI 越来越具备行动力的时代,人的想象力反而可能成为最后的独特优势。围绕对未来 3 到 5 年的展望:

  • 捏 Ta CEO 胡修涵预测会有个人创作者用智能体 IP 打造「一人公司」;

  • 井英科技创始人朱江强调 AI 让人人都能表达内心的故事并与内容更深互动;

  • 特赞科技 CEO 范凌则认为智能体将从辅助工具进化为可独立交付结果的「数字员工」,而工具公司也将向结果导向型智能体平台转型;

  • 可触未来联合创始人游威则聚焦在用户习惯与 AI 产品形态的协同演进上,指出真正的机会不在模型能力本身,而在如何将其融入具体使用场景并形成用户协作新习惯。

对于「AI 是否会取代人类的主体性」这一更深层的议题,嘉宾们持有清醒的判断和复杂的情感:

  • 朱江认为 AI 娱乐的终极形态可能是一种更具沉浸感的内容体验,而创作和消费在未来将趋于合一。

  • 胡修涵坦言,其担忧技术过于强大会削弱文化领域的平等性,尤其是当 AI 不仅承担创作也承担评判角色时,人的创作欲望和评论权也许会被稀释。

  • 范凌从历史中找到信心:就像照相机的诞生没有终结艺术,反而开启了抽象、装置、摄影等新艺术形式,AI 也未必是人类想象力的终点,而是另一个起点。( @APPSO)

更多 Voice Agent 学习笔记:

引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨 Voice Agent 学习笔记

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up