开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
1、字节 Seaweed:7B 模型实现 20 秒 2K 视频生成
字节最新发布的 Seaweed-7B 是一款仅 7B 参数的视频生成模型,它支持文生视频、图生视频、角色参考等多样化的生成方式,还能同时生成配套音频。
原生支持生成 20 秒时长的单镜头视频,并支持通过超分辨率技术达到 2K 画质。
该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1。
据官方介绍,Seaweed-7B 结合了变分自编码器(VAE)和潜在扩散变换器(DiT)。其中,VAE 负责高效的训练和推理,而 DiT 则通过扩散模型生成图像和视频,显著提高了生成的质量与效率。(@APPSO)
2、谷歌 Veo 2 视频生成模型入驻 Gemini,用户可创建 8 秒 720p 视频
Gemini Advanced 的用户可以在谷歌 Gemini 应用程序的模型下拉菜单中选择 Veo 2。用户能够通过该模型创建 8 秒钟、720p 分辨率、16:9 宽高比的视频片段,并通过 Gemini 的「分享」按钮将这些视频上传至 TikTok、YouTube 等平台。此外,Veo 2 生成的视频还可以下载为带有谷歌 SynthID 技术水印的 MP4 文件。
谷歌还在其 Google Labs 的实验性功能 Whisk 中整合了 Veo 2。Whisk 允许用户使用图片作为 Gemini 的提示词来生成新图片,而新增的 Whisk Animate 功能则可将用户生成的图片转化为由 Veo 2 生成的 8 秒视频。(@AI 小讯)
3、字节正式推出 Seedream 3.0
字节正式推出 Seedream 3.0,一款原生高分辨率的中英双语图像生成基础模型。Seedream 3.0 综合能力显著增强:支持原生 2K 分辨率输出;响应速度更快;小字更准,文本排版效果增强;美感&结构提升,保真度和细节表现较好,在多项评估中排名领先。
在数据层面,通过一种新型的视觉语义二维协同的采样策略(基于图像聚类分布与文本语义连贯性两个正交维度),将数据集规模扩展了约 100%。
在预训练阶段,我们相比 2.0 版本进行了多项改进以实现更好的扩展性、泛化能力和视觉 - 语言对齐:i)混合分辨率训练;ii)跨模态旋转位置编码(RoPE);iii)表征对齐损失;iv)分辨率感知的时间步采样。
在后训练阶段,我们利用多样化的美学描述文本和基于视觉语言模型的奖励模型,进一步提升模型的综合能力。
在模型加速阶段,我们采用一致噪声期望来提升采样过程的平稳性,在保证生成质量无损的条件下大幅减少采样步数。(@AI 小小将)
4、ElevenLabs 正式进军亚太市场,在东京设立首家海外子公司
全球领先的 AI 语音技术公司 ElevenLabs 近日宣布在东京成立其首个海外子公司「ElevenLabs G.K。」这是该公司首个海外子公司,将作为其亚太地区业务的枢纽。此举是在公司完成 1.8 亿美元 C 轮融资后的重要战略扩张。
已有的战略合作
DOCOMO Innovations:NTT DOCOMO 的硅谷研发子公司
TBS:日本主要私营广播公司之一
MBC C&I:韩国主要广播公司 MBC 的子公司
LLSOLLU:拥有专有翻译和本地化技术的韩国科技公司
选择日本的战略理由
应用案例
TBS 利用 ElevenLabs 的配音技术使其 KASSO 节目提供多语言版本,面向国际观众
MBC C&I 使用其 TTS 和 SFX 技术创建 AI 视频内容,包括在韩国国际 AI 电影节获得大奖的 Mateo 和在叙事类别获得第一名的 Art In the World。(@meng shao@X)
1、可灵 2.0 视频生成,以及可图 2.0 文生图模型
2025年4月15日,快手旗下 AI 产品「可灵 AI」迎来升级,推出「可灵 2.0 视频生成」以及「可图 2.0 文生图模型」。本次更新亮点:
可灵、可图模型层面更新, 快手结合多项自研技术创新,画面美学、语义响应和动态质量大幅度提升。2.0 全面升级了训练和推理策略,尤其是强化了对于复杂运动主体交互滤镜、构图术语等专业的表达和理解响应。
精准微调功能。可灵新增新增「多模态编辑」功能,支持在一段 5s 的视频的基础上,输入图片/文字,对视频进行灵活、精准的修改和再创作。可图新增「图片编辑」及「风格转绘」功能。
AI 音效生成,根据影像内容结合文字 prompt,生成适配的音效片段。
据悉,可灵这次打造一种全新的交互「语言」—— MVL(Multi-modal Visual Language)。MVL 拥有 TXT 语义骨架和 MMW 多模态描述子,即通过文本 + 动作描述文件,生成精细的视频成片。这套语言形成了可灵 2.0 中新增的「多模态编辑」功能,包括三种模式:替换、增加和删除。
目前,可灵 AI 全系 2.0 模型已在网页端和 App 端全量上线。(@APPSO、LitGate)
2、小红书首次为独立开发者颁奖,体感与健身智能硬件 Action&Link 获大奖
小红书首届「独立开发大赛」设置宝藏 APP 和最佳 AI 项目两个赛道,共有 1355 个项目报名,包含 APP、网站、硬件等多个领域。小红书的官方数据显示,这里活跃着超过 5 万名独立开发者,独立开发相关内容发布较去年增长 146%,相关话题阅读量超过 5 亿次。
4 月 15 日,小红书首届「独立开发大赛」最终获奖名单如下:
独立游戏《雨天》、AI 播客应用 Podwise、运动记录应用 Peak Watch 获宝藏 APP 奖项;
AI 二维码产品 QRBTF、AI 知识应用 nooka、AI 饮食应用《胃之书》获最佳 AI 项目;
全场大奖由智能硬件 Action&Link 斩获。
值得注意的是体感与健身智能硬件 Action&Link:它通过外设硬件 +AI 姿态识别算法,将传统键鼠操作转化为全身动作指令,让《原神》《黑神话:悟空》等硬核游戏变身「健身游戏」。其核心价值在于破解体感游戏的内容荒,无需等待厂商适配,直接让绝大多数的 PC/Switch 游戏支持体感操作。(@APPSO)
3、Whyser:AI 驱动的智能用户研究平台
Whyser 是一款定性研究平台,它利用 AI 技术革新用户访谈体验,帮助您通过 AI 主持的语音访谈,大规模发掘有价值的客户洞察。(@producthunt)
4、EverTutor Live :融合语音交互与自适应课程系统的 AI 导师平台
EverTutor Live 是一款基于 AI 语音交互的个性化在线辅导工具,通过模拟实时视频会议的教学场景提供自适应学习服务。其核心价值主张在于将人工智能导师的个性化指导与实时语音互动相结合,解决传统在线教育中缺乏即时反馈、教学方式僵化及高成本家教服务可及性差等痛点。
产品以高度自然的话术交互、动态知识图谱驱动的自适应课程系统(根据学习表现实时调整难度)及 Zoom 式界面设计(降低新用户学习成本)为核心功能。标准版/专业版的分层订阅模式满足不同学习强度需求。(@Z Potentials)
5、Sherlock:远程面试作弊检测 AI 工具
Sherlock 致力于解决远程面试中因人工智能滥用而引发的诚信问题。其核心价值在于利用视觉、听觉和推理能力,有效检测 AI 辅助作弊行为,从而帮助招聘方专注于进行高质量的对话。Sherlock 的目标用户群体主要包括招聘经理、人力资源团队,以及希望高效筛选候选人的企业,特别是那些依赖远程面试进行全球化招聘的组织。
Sherlock 的核心功能亮点包括:
多模态 AI 检测: 综合分析视频、音频及行为数据,精准识别异常行为。
实时警告系统: 在面试过程中即时提示可疑活动,防患于未然。
详细分析报告: 提供全面的面试完整性评估,助力招聘决策。
Sherlock 的差异化优势体现在其先进的 AI 推理能力与无缝集成的工作流设计,使用户能够快速部署并获得可靠的检测结果。(@Z Potentials)
1、江苏科技大学教授:可靠的照护机器人至少还需 10 年
近日,荷兰阿姆斯特丹自由大学高级研究员,江苏科技大学客座教授黄智生接受人民日报采访,其谈及了 AI 照护机器人的相关话题,表示 AI 照护机器人应该以人类安全为原则。
教授表示,AI 照护机器人是人类技术文明发展的必然方向:以后每个人都会需要这样的机器人完成家务工作以及心理陪护,甚至会成为亲密伴侣。目前其所看到的 AI 照护机器人的开发和应用的发展也是非常迅猛的, 但是这都是在理想的应用环境下实现的。
对于 AI 照护机器人的安全性问题,黄智生教授则认为,目前现有的条件还很难完成所有特殊环境和场景的测试。因此黄智生教授预测,至少还需要十年的时间。
黄智生教授还强调,当机器人具备超越人类知识和能力的时候,人类就无法绝对避免出现机器人想操控这个世界想奴役人类的想法。教授建议,人类在这方面宁可放慢脚步,也要以人类安全作为至高无上的原则来考虑。(@APPSO)
2、马云发声:未来不是让 AI 取代人类,而是让 AI 解放人类
近日,阿里云新财年启动会在杭州云谷园区举行,马云到场发表演讲。他表示,高科技绝不仅是征服星辰大海,更应该呵护人间烟火。科技人员的责任,不是让 AI 取代人类,而是让 AI 更懂人类、更好地服务人类。
马云说,今天阿里云的资源和技术人才,既是发展云计算和 AI 的信心所在,更是责任所在。
「科技的意义是要让人类活得更好、活得更有意义,是让所有的普通人从中受益。」
他表示「科技要给每一个普通人的生活带来变革,让每一个人有尊严。希望我们所有人、阿里同事们,大家一起持续努力,把这个世界带入一个善良的高科技时代。」
他说:「我们不是追求让机器像人,而是让机器理解人类,像人类一样去思考,做人类做不到的事情。」他表示,未来不是让 AI 取代人类,而是应该让 AI 解放人类,更懂人类、服务好人类。(@ 中国基金报)
更多 Voice Agent 学习笔记:
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布