开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@ 鲍勃

01 有话题的技术

1、Google Gemini 2.0 Flash 引入原生图像生成功能

昨日,Google 发文宣布,Google Gemini 2.0 Flash 正式引入原生图像生成功能。据官方介绍,Gemini 2.0 Flash 结合多模态输入、增强版推理以及自然语言理解来进行图像生成。Gemini 2.0 Flash 支持文字理解并生成图像,并能够理解上下文保持角色和图像场景的一致性;同时 Gemini 2.0 Flash 还支持自然语言对话的理解,以及利用现实世界的内容和增强版推理来生成图像,Google 官方指出,这对绘制食谱等精准类的内容将会有很大帮助。

值得关注的是,Gemini 2.0 Flash 能够对长文本进行精准绘制。从官方发布的样张显示,Gemini 2.0 Flash 能够准确生成出正确的文字内容,减少生成出扭曲的「抽象」字体。

但据网友实测,目前 Gemini 2.0 Flash 对于过长的提示词文本依然没有能力处理好。Gemini 团队的研究员 Kaushik Shivakumar 也现身回复上述情况称,未来团队将会改进,目前如果需要输入较长的提示词,建议先让模型以文本形式思考,从而更好地生成图像。目前,Google 已将上述功能提供给 Google AI Studio 的开发者,开发者可以通过 Gemini API 进行体验测试。(@APPSO)

2、Sesame Labs 发布了 CSM(对话语音模型)采用 Apache 2.0 许可协议

Sesame Labs 发布了 CSM(对话语音模型),采用 Apache 2.0 许可协议。该模型基于 100 万小时数据训练,具备情境感知和情感智能语音功能,支持语音克隆和水印技术,并能实现超快速、实时语音合成。模型架构基于 llama,并使用类似 Mimi 的解码器。权重文件已在 HF Model Hub 上提供。

Sesame 近日发布了超真实的 AI 语音产品的 demo,核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。为此,Sesame 团队专注于几个关键的组成部分,包括情感智能、对话动态、上下文意识和一致的人格特征。(@Vaibhav (VB) Srivastav@X)

3、Google 推出新 AI 模型,Gemini Robotics 可实现多硬件机器人语音操控

(图片来源:Google)

Google DeepMind,谷歌的人工智能研究实验室,于 3 月 12 日宣布推出名为 Gemini Robotics 的新 AI 模型,旨在使现实世界的机器能够与物体互动、导航环境等。

DeepMind 发布了一系列演示视频,展示了配备 Gemini Robotics 的机器人根据语音指令执行折叠纸张、将眼镜放入眼镜盒等任务。

据实验室介绍,Gemini Robotics 经过训练,能够在一系列不同的机器人硬件上推广应用,并将机器人「看到」的物品与可能采取的行动联系起来。

DeepMind 声称,在测试中,Gemini Robotics 使机器人能够在训练数据未涵盖的环境中表现出色。

该实验室已发布了一个精简版模型 Gemini Robotics-ER,研究人员可用来训练自己的机器人控制模型,同时还推出了一个名为 Asimov 的基准,用于评估 AI 驱动机器人的风险。 (@Z Potentials)

4、字节音效生成模型来了,一键生成大片感音效!已上线即梦

字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。 相关功能「AI 音效」已在即梦上线 ,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。

SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。(@ 机器之心)

5、阿里通义实验室语音团队负责人鄢志杰离职,系达摩院十三位「扫地僧」成员

Tech 星球独家获悉,阿里通义实验室语音团队负责人鄢志杰已于近期离职,离职时间为 2 月 15 日,按照以前的 P 序列(原阿里内部职级体系)比照,其职级为 P10。

鄢志杰是智能语音领域的技术大牛。公开资料显示,2003 年,鄢志杰大学本科毕业,升入中科大语音实验室,攻读博士学位,师从语音领域专家王仁华教授(科大讯飞创始人之一,曾任科大讯飞公司董事长)。

2008 年在中国科学技术大学语音实验室获博士学位之后,至 2015 年在微软亚洲研究院语音组任主管研究员。研究领域主要包括语音识别、语音合成、声纹、语音交互、手写及光学字符识别等。

鄢志杰曾在语音及文本识别领域顶级学术期刊及会议发表多篇论文,长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及 PCT 专利。

随着 2023 年大模型的时代到来,鄢志杰开始担任通义听悟技术负责人,负责聚焦音视频内容的工作学习 AI 助手「听悟」,这款产品也成为阿里在国内首个开放公测的大模型应用产品。2024 年,鄢志杰以通义实验室语音团队负责人的身份出席外界活动。(@Tech 星球)

02 有亮点的产品

1、苹果计划在 AirPods 上配备实时对话翻译功能

知情人士透露,苹果公司正在计划推出一项新的 AirPods 功能,可以让耳机将面对面的对话实时翻译成另一种语言。由于事未公开而要求匿名的知情人士说,这项功能将作为今年晚些时候 AirPods 软件升级的一部分推出,将与即将推出的苹果移动设备操作系统 iOS 19 捆绑在一起。(@ 新浪财经)

2、MiniMax 计划收购 AI 视频初创公司鹿影科技

智东西 3 月 13 日消息,据蓝鲸新闻今日报道,多位知情人士称,上海大模型独角兽 MiniMax 将收购深圳 AI 视频生成创企鹿影科技(Avolution.ai),双方目前已经敲定收购意向,相关流程还在持续进行。2024 年,鹿影科技在天使轮融资时的估值水平约在 1 亿人民币左右。

知情人士称,去年以来(据相关报道应为去年 8 月左右),鹿影科技一直在持续寻求第二轮融资,但过程中并不顺利,团队本身在 AI 视频生成领域方面有一定的经验,最终选择和 MiniMax 合作属于共赢。鹿影科技成立于 2023 年 9 月,从事 AI 视频生成技术的研发,他们采用基于自研的 LCM 视觉模型打造 AI 视频生成创作平台 YoYo,主要面向二次元创作者,提供了文生视频与图生视频两种选择。(@ 智东西)

3、YC 孵化的公司 Vogent 利用强化学习改善语音通话

YC 孵化的公司 Vogent 利用强化学习改善语音通话: 自我设计和改进的 AI 代理,从真实失败案例中学习,无需提示工程。不再需要数百次提示迭代,或浪费 GPU(和人力)时间在无效的微调上。

他们利用强化学习方法,如 Deepseek 和其他研究实验室所使用的,其语音代理能够根据通话录音自行设计,并通过评估每一次拨号和纠正不良行为来提升自己。( @Y Combinator)

03 有态度的观点

1、Anthropic CEO:未来各领域都能有诺贝尔奖得主一样聪明的模型

近日,Anthropic CEO 兼联合创始人 Dario Amodei 在 The CEO Speaker series 论坛接受采访,深入探讨了 AI 未来方向、AI 对社会的影响,以及 AI 对未来的发展。采访中,Dario Amodei 透露出对于 AI 的发展抱有很大的憧憬。他通过这几年 AI 呈指数级增长分析,认为未来 AI 能够很自然地融入人类生活中。同时 Dario Amodei 预测,如果时间再向前推进两三年,甚至是四年,人类将拥有在各个领域都与诺贝尔奖获得者一样聪明的模型。「AI 是否会冲击就业」这一问题上,Dario Amodei 认为有好有坏:一方面,他认为比较优势仍然是一个强大的工具,并且总有 AI 无法替代人类的领域,也正因如此,AI 始终是帮助人类提升生产力的「好帮手」;另一方面,Dario Amodei 认为 AI 或将会令一部分人感到沮丧,甚至情绪陷入自身的怀疑。但 Dario Amodei 表示,人是可以多样性的,并且成就感会远比结果来得更加具有实在感。因此 Dario Amodei 也建议,人类在 AI 的帮助下,更应该建立一个有意义的世界,而在这个世界里人类也许可以在 AI 的帮助下,或者与 AI 合作,并创造出真正伟大的成就。(@APPSO)

更多 Voice Agent 学习笔记:

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流