开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、腾讯混元 Custom: 多主题一致性参考视频生成
HunyuanCustom 是一款由腾讯团队开源的新 AI 多模态定制视频生成框架,在支持图像、音频、视频和文本条件的同时,强调主题一致性。
基于 HunyuanVideo 基础下 HunyuanCustom 模型首先通过引入一个基于 LLaVA 的图像 - 文本融合模块来解决图像 - 文本条件生成任务,以增强多模态理解,以及一个利用时间拼接来增强帧间身份特征的图像 ID 增强模块;
为了实现音频和视频条件生成,HunyuanCustom 进一步提出了针对特定模态的条件注入机制:一个 AudioNet 模块通过空间交叉注意力实现层级对齐,一个视频驱动注入模块通过基于补丁的特征对齐网络集成潜在压缩的条件视频。
研发团队通过对单一和多主题场景的广泛实验表明,HunyuanCustom 在身份一致性、真实感和文本 - 视频对齐方面显著优于现有的最先进开放源代码和闭源方法。此外,还验证了它在下游任务中的鲁棒性,包括音频和视频驱动的定制视频生成。实验结果结果能够突显了多模态条件和身份保留策略在推进可控视频生成方面的有效性。
GitHub: https://github.com/Tencent/HunyuanCustom
项目主页:https://hunyuancustom.github.io/ (@ 破狼)
2、阿里 QwenChat 推出 WebDev 功能:网页生成新利器
(图片来源:Qwen@X)
5 月 11 日,阿里巴巴推出全新 AI 工具「Web Dev」,支持用户通过一句话指令生成网页应用,类似 Claude 的 Artifacts,目前专注网页生成。该工具集成 HTML、CSS、JavaScript 三大前端核心技术,并统一采用 React 框架实现,可在数秒内创建结构完整、视觉美观的动态页面。用户仅需稍作修改即可部署至 GitHub Pages 完成发布。
阿里巴巴官方在社交平台展示了该工具的能力,包括通过指令复刻知名平台界面,精准还原布局细节。例如输入「水果电商平台」或「防晒产品介绍页」,即可生成带动画效果的交互页面;进一步描述需求(如垂直排列字段的客服表单)可细化设计。
该工具默认使用 React 框架(即使用户要求更换也无法更改),并预设 Tailwind CSS 设计规范与编码最佳实践。系统提示词中要求所有代码写入单一静态。jsx 文件,确保代码一致性。启用「深度思考」模式后,生成质量显著提升,但输出时间相应延长。
有开发者指出,该工具不仅能实现文本到像素级渲染,还能快速构建项目基础框架,使团队可专注于功能优化而非重复开发。此外,其高阶功能支持分析现有网页并生成对应结构,进一步提升开发效率。
QwenChat WebDev 功能体验页:
https://chat.qwen.ai/? inputFeature=web_dev(@ 老马那些事、@ 三花 AI)
3、Apple 新推出 FastVLM 视觉模型:有效处理视觉信息并响应有关图像的自然语言提示
FastVLM 是苹果公司开发的一种高效视觉语言模型(VLM)编码器系统。
它专注于将高分辨率图像高效转换为 LLM 可处理的视觉 token,从而大幅提升图文理解的速度与效能。该模型可以有效地处理视觉信息并响应有关图像的自然语言提示。该系统擅长处理高分辨率图像,同时保持低延迟,适合部署在包括移动平台在内的各种设备上。
Qwen2-7B 在 FastVLM 中作为基础语言模型组件,负责理解视觉编码器提起的图像特征并生成文本响应。
与其他视觉语言模型相比,FastVLM 的主要优化是:
高效的视觉编码: FastViTHD 编码器只生成 256 个视觉 token,数量远少于其他模型,每个 token 维度为 3072;
高效的多模态投影:视觉特征通过多模态投影器处理后才与 Qwen2-7B 语言模型集成;
单一视觉编码器:与使用多个编码器的模型不同,FastVLM 只使用一个编码器。
这种架构设计使得即使使用功能强大的 Qwen2-7B 作为语言模型,FastVLM 仍能实现比同类模型如 Cambrian-1-8B 快 7.9 倍的首 token 生成时间(TTFT)。并且 7.9 倍的提升也特指的是 FastVLM 的 7B 变体。
该模型能够兼容主流 LLM 并轻松适配 iOS/Mac 生态,特别适合落地在边缘设备、端侧 AI 应用和实时图文任务场景。
GitHub:https://github.com/apple/ml-fastvlm (@ 零点认知 AI、@imxiaohu@X)
4、字节开源全新 Deep Research 项目——DeerFlow
5 月 11 日,字节跳动技术团队宣布,基于 LangStack 的全新 Deep Research 项目——DeerFlow 正式开源。
据官方介绍,DeerFlow 支持包括深度研究、MCP 集成、报告 AI 增强编辑以及播客生成等功能。值得一提的是,DeerFlow 支持时下流行的 Replay 模式(即将与大模型的多轮流式交互过程以快速回放的形式进行还原)。
DeerFlow 采用全新的 Multi-Agent 架构设计,拥有独家设计的 Research Team 机制,支持多轮对话、多轮决策和多轮任务执行。
同时,DeerFlow 支持从报告生成双人主持的播客,借助火山引擎的语音技术,以及丰富的音色,可以生成非常自然的播客音频内容。另外,DeerFlow 还支持从报告生成 PPT,并且支持生成文字版的 PPT。
目前,DeerFlow 已上架官网(https://deerflow.tech/)和字节跳动 GitHub 仓库(https://github.com/bytedance/deer-flow)。官方推荐使用豆包 1.5 Pro 运行 DeerFlow。(@APPSO)
1、微软更新 Copilot:与 AI 实时分享讨论屏幕内容
微软刚刚发布了一个令人印象深刻的更新,Windows 上的 Copilot 现在可以实时查看并讨论您屏幕上的任何内容,能够实时提供指导,理解屏幕上的任何内容,更快学习等。
会议结束后,即可获得文字版会议记录。
基本上是带视觉功能的 ChatGPT 高级语音模式。
该功能免费使用,只需要完成以下流程即可使用:
打开 Copilot
点击新的视觉图标
选择要共享的软件
开始对话! ( @itsPaulAi@X)
2、Willow Voice:智能语音转写工具,适配多应用程序
Willow Voice 是一款由人工智能驱动的语音转写工具,速度快、准确,且适用于任何应用程序。
高收录率:Willow 能识别轻声细语或耳语。适用于在办公室和其他安静的地方使用 Willow,不会打扰其它人;
安全性:Willow 不会存储录音和转录内容。相关内容仅保存在本地设备。
智能转写识别:说「破折号」、「换行」或「项目符号」等,Willow 会智能识别并自动格式化。
高适配性:Willow 支持 Gmail、Slack、Notion、iMessage、浏览器以及电脑上的任何地方使用。
体验链接:https://willowvoice.com/ (@ycombinator@X、@willowvoice 官网)
1、 手势和颜色板引导的情绪戒指:雕琢句子中的词语温度和能量
一个由 LLM 驱动的单词情绪戒指 ,能够通过颜色板引导,将句子中词语的温度和能量手工雕琢出来。
右下角(亮黄色):愉快,充满活力;
左下角(薰衣草色):不愉快,充满活力;
左上角(蓝色):不愉快,平静;
右上角(栗色):愉快,平静。(@poetengineer__@X)
1、英伟达的创始人:你失去工作不是因为 AI,而是因为使用 AI 的人
5 月 11 日,英伟达的创始人兼总裁黄仁勋在米尔肯研究所会议上谈及劳动力市场状况,他表示原因「你失去工作不是因为 AI,而是因为那些使用 AI 的人。」他还补充道:「我建议大家百分百地利用 AI 的优势,不要做忽视它的人。」
黄仁勋建议那些不了解 AI 或刚刚开始接触 AI 的人,使用基于 AI 的解决方案,比如 Perplexity、谷歌的 Gemini Pro 以及 OpenAI 的 ChatGPT,同时朝着这个方向学习,了解更多在生活的各个领域使用 AI 的方式。
黄仁勋解释说,他自己每天都会使用 AI,主要是把它当作在未知领域的导师或向导。「在我不熟悉的新领域,我会问聊天机器人:『像给 12 岁的孩子讲解一样给我解释某些东西。』 最后我会让它按照专家的水平给我讲解。」黄仁勋说道。(@ 网易科技)
2、阿里董事会主席:所有业务都应以 AI 为驱动
据《科创板日报》消息,阿里巴巴集团董事会主席蔡崇信在 510 阿里日亲友见面会上表示,公司聚焦两大核心战略方向「电商、云 + AI」,并提到了闲鱼、夸克、高德、钉钉、1688 等创新业务。
蔡崇信称,阿里要把 AI 融入每一块业务、每一块环节,未来三到五年,所有业务都应以 AI 为驱动。其强调,电商的业务并不占领对互联网的入口,因为电商是一个垂类,有更多其他的互联网公司占取了对用户的入口。
蔡崇信表示,如果集团能聚焦在 AI 上的话,能够对整个入口的突破,也许阿里可以把新的入口用 AI 的方式做出来,让产品增加更多的用户。
今年 2 月,阿里巴巴集团 CEO 吴泳铭曾宣布,未来三年,阿里将投入超过 3,800 亿元,用于建设云和 AI 硬件基础设施,总额超过去十年总和。
吴泳铭表示,AI 爆发远超预期,国内科技产业方兴未艾,潜力巨大,同时他强调,阿里巴巴将不遗余力加速云和 AI 硬件基础设施建设,助推全行业生态发展。(@APPSO)
更多 Voice Agent 学习笔记:
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻