AI测试 语音生成模型 PlayDialog:可生成对话播客、旁白;小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

RTE开发者社区 · 2024年11月14日 · 1675 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@ 鲍勃

01 有话题的新闻

1、对标谷歌 NotebookLM!语音生成模型 PlayDialog:可生成对话播客、旁白

近日,Play AI 正式推出其最具雄心的产品 ——PlayDialog beta 版本,能生成对话式的播客音频。

这款端到端的 AI 语音模型,利用对话的历史上下文,能够调控语调、情感和语速,以实现更自然的语音合成,标志着人机对话的新高度。PlayDialog 特别适合于制作真实的对话体验,例如旁白、语音配音、合成播客等,也能在商业环境中提供沉浸式的一对一语音交流体验,效果类似谷歌的 NotebookLM。

与此同时,Play AI 还推出了 PlayNote,这是一款可以将多种媒体文件(如 PDF、文本、视频等)转化为对话体验的工具。用户可以在几分钟内生成播客、简报、旁白,甚至是儿童故事,并享受到 PlayDialog 所带来的流畅、自然的语音效果。PlayNote 的独特之处在于,它也提供 API 接口,使得用户可以不依赖用户界面,轻松实现音频内容的程序化生成。

PlayDialog beta 经过数亿次真实对话的训练,模型规模约为 Play AI3.0mini 的十倍,能够在语调(如语音的抑扬顿挫、语速)上与人类的语音表现相匹配。在盲测中,PlayDialog beta 的表现比市场上领先的竞争模型高出两倍,特别是在表达力方面得分最高。

不同于以往的语音模型,PlayDialog beta 可以理解整段对话的上下文,进而影响语音生成的效果。Play AI 构建了一种被称为「自适应语音上下文化器」(ASC)的新架构,使得模型能够利用完整的对话历史进行回应,从而让每一句话都不是孤立的输出,而是丰富的具备合适的语调、情感和语气,使得合成的播客仿佛让听众感受到演讲者在同一空间内进行交流。

无论是充满活力的讨论,还是需要同理心的敏感话题,PlayDialog 都能无缝适应,让互动显得更加自然和人性化。

用户可以通过 PlayNote 体验这一切,使用它制作强有力、自然的旁白、播客、简报等,只需几分钟就能完成。PlayNote 也可以通过 API 接口使用,允许开发者以大规模程序化方式生成引人入胜的内容。(@ 小夏聊 AIGC)

2、生数科技 Vidu 大模型迎来 1.5 新版本

(图源:Vidu)

昨日,生数科技官方公众号宣布,Vidu 大模型迎来 1.5 版本。官方表示,Vidu 的技术突破主要在以下三个方面:

复杂主体的精准控制:无论是细节丰富的角色,还是复杂的物体,Vidu 都能保证其在多个不同视角下的一致性。

人物面部特征和动态表情的自然一致:在人物特写镜头中,Vidu 能够自然且流畅地保持人物面部特征和表情的连贯性,避免了面部僵硬或失真的现象。

多主体一致性:Vidu 允许用户上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。

官方表示,Vidu 1.5 的推出,揭示了一个重要现象:视觉模型与语言模型一样,经过充分的训练,模型能够展现出对上下文的深刻理解、记忆等能力。(@ APPSO)

3、AI 试衣技术 Fashion-VDM 颠覆传统 网购衣服再也不怕踩雷了!

Google Research 团队最新研发的 Fashion-VDM 技术,让人足不出户就能体验试穿各种漂亮衣服的快感。

Fashion-VDM 是一个视频扩散模型,只要你提供一件衣服的照片和一段你自己的视频,它就能生成一段你穿着这件衣服的视频,而且效果超级逼真!

市面上的虚拟试衣软件大多是基于图像的,只能生成静态图片,而且效果经常惨不忍睹,衣服穿在你身上就像贴纸一样,毫无真实感可言。Fashion-VDM 则完全不同,它生成的是动态视频,不仅能展示衣服在不同角度的穿着效果,还能模拟衣服的动态变化,比如褶皱、摆动等等,简直和真人试穿一模一样。

Fashion-VDM 的秘诀在于它采用了分离式无分类器引导技术(split-CFG),这项技术可以更精确地控制人物和服装的信息,确保生成的视频既保留了你本人的特征,又完美地展现了衣服的细节。

为了让视频更加流畅自然,Fashion-VDM 还采用了一种渐进式时间训练策略,先用大量的图片数据训练模型,然后再逐步增加视频数据的训练时长,最终生成长达 64 帧的超长视频,彻底告别画面卡顿和闪烁!

更厉害的是,Fashion-VDM 还结合了图像和视频数据进行联合训练,这意味着它不仅能从图片中学习服装的细节,还能从视频中学习人物的动作和服装的动态变化,最终生成更加真实、更具说服力的试衣视频。

当然,Fashion-VDM 目前还有一些局限性,比如在处理遮挡的服装区域时,细节可能不够准确,人物体型也可能出现轻微变形。(@AIbase 基地)

4、报道称小米 AI 眼镜将于明年 Q2 发布

据「智能涌现」独家报道,小米正计划推出新一代 AI 眼镜,数月前已与歌尔合作,该产品预计于 2025 年 Q2 发布。

有知情人士表示,小米 AI 眼镜将「全面对标 Meta Ray-ban」,搭载 AI 功能、音频耳机模块、摄像头模块,并将以小米自有品牌形式发布。

据称对于这款产品的出货量,雷军的预期「在三十万台往上」。

报道还指出,OPPO、vivo、华为、腾讯、字节近期也都在评估 AI 眼镜项目;苹果也被外媒曝光已组织团队重点评估 AI 眼镜市场。

财联社记者以投资者身份致电歌尔股份,相关人士回应称,公司对具体客户信息及项目内容不予透露。公司 AI 眼镜业务现阶段尚未量产,主要产品可应用于 AI 眼镜等终端产品。(@ APPSO)

5、传苹果将推出 AI 智能家居中控屏

据彭博社的 Mark Gurman 报道,苹果公司正在开发一款新的智能家居产品——一款壁挂式显示屏,拥有控制家电、与 Siri 互动和视频会议等功能。

显示屏看起来像一个方形的 iPad,拥有大约 6 英寸的屏幕,顶部配有摄像头,内置扬声器和可充电电池。其已开发三年,可能会在明年 3 月正式宣布。

这款设备在功能上与 Google Home Hub 和亚马逊的 Echo Show 相似,但苹果的智能家居控制中心的独特之处可能是苹果 AI,包括 10 月下旬开始向用户推出的 Apple Intelligence 以及即将到来的 App Intents 系统,该系统可使用 AI 控制软件程序。

此外,苹果还在开发一款带有机械臂的版本,能够移动平板设备。这表明苹果可能不仅仅是在开发一个智能设备控制面板,而是在寻求更先进的智能家居解决方案。(@ APPSO)

02 有态度的观点

1、Glean 创始人:AI 创业者应从用户出发

在红杉资本的深度访谈中,Glean 的创始人 Arvind Jain 分享了企业搜索和 AI 应用在企业内部落地的挑战与机遇。

他强调,为了构建有效的 AI 应用,必须先建立强大的数据基础设施,包括深入集成企业系统、健全的安全和权限框架,以及理解人与内容、上下文之间关系的复杂知识图谱。

Jain 表示企业搜索的难点在于数据的私有性、基于权限的访问和深刻的上下文依赖性,因此,理解组织结构、用户角色和访问权限至关重要。

Jain 还指出,AI 创业者应从用户出发,先通过关键功能为用户提供清晰的价值,再扩展到更多的 AI 功能,这有助于建立企业信任并为高级功能提供所需的数据基础。

他预见 AI 助手将在未来主动帮助用户完成工作,改变工作方式,使得每个人都能拥有强大的 AI 助手来提升工作效率。

此外,Jain 建议创业者应专注于解决业务问题,而不是单纯追求 AI 技术,因为 AI 只是解决问题的工具之一。(@ APPSO)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册