AI测试语音生成模型 PlayDialog：可生成对话播客、旁白；小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

RTE开发者社区 · 2024年11月14日 · 4253 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@ 鲍勃

01 有话题的新闻

1、对标谷歌 NotebookLM！语音生成模型 PlayDialog：可生成对话播客、旁白

近日，Play AI 正式推出其最具雄心的产品 ——PlayDialog beta 版本，能生成对话式的播客音频。

这款端到端的 AI 语音模型，利用对话的历史上下文，能够调控语调、情感和语速，以实现更自然的语音合成，标志着人机对话的新高度。PlayDialog 特别适合于制作真实的对话体验，例如旁白、语音配音、合成播客等，也能在商业环境中提供沉浸式的一对一语音交流体验，效果类似谷歌的 NotebookLM。

与此同时，Play AI 还推出了 PlayNote，这是一款可以将多种媒体文件（如 PDF、文本、视频等）转化为对话体验的工具。用户可以在几分钟内生成播客、简报、旁白，甚至是儿童故事，并享受到 PlayDialog 所带来的流畅、自然的语音效果。PlayNote 的独特之处在于，它也提供 API 接口，使得用户可以不依赖用户界面，轻松实现音频内容的程序化生成。

PlayDialog beta 经过数亿次真实对话的训练，模型规模约为 Play AI3.0mini 的十倍，能够在语调（如语音的抑扬顿挫、语速）上与人类的语音表现相匹配。在盲测中，PlayDialog beta 的表现比市场上领先的竞争模型高出两倍，特别是在表达力方面得分最高。

不同于以往的语音模型，PlayDialog beta 可以理解整段对话的上下文，进而影响语音生成的效果。Play AI 构建了一种被称为「自适应语音上下文化器」（ASC）的新架构，使得模型能够利用完整的对话历史进行回应，从而让每一句话都不是孤立的输出，而是丰富的具备合适的语调、情感和语气，使得合成的播客仿佛让听众感受到演讲者在同一空间内进行交流。

无论是充满活力的讨论，还是需要同理心的敏感话题，PlayDialog 都能无缝适应，让互动显得更加自然和人性化。

用户可以通过 PlayNote 体验这一切，使用它制作强有力、自然的旁白、播客、简报等，只需几分钟就能完成。PlayNote 也可以通过 API 接口使用，允许开发者以大规模程序化方式生成引人入胜的内容。（@ 小夏聊 AIGC）

2、生数科技 Vidu 大模型迎来 1.5 新版本

（图源：Vidu）

昨日，生数科技官方公众号宣布，Vidu 大模型迎来 1.5 版本。官方表示，Vidu 的技术突破主要在以下三个方面：

复杂主体的精准控制：无论是细节丰富的角色，还是复杂的物体，Vidu 都能保证其在多个不同视角下的一致性。

人物面部特征和动态表情的自然一致：在人物特写镜头中，Vidu 能够自然且流畅地保持人物面部特征和表情的连贯性，避免了面部僵硬或失真的现象。

多主体一致性：Vidu 允许用户上传多个主体图像，包括人物角色、道具物体、环境背景等，并在视频生成中实现这些元素的交互。

官方表示，Vidu 1.5 的推出，揭示了一个重要现象：视觉模型与语言模型一样，经过充分的训练，模型能够展现出对上下文的深刻理解、记忆等能力。(@ APPSO)

3、AI 试衣技术 Fashion-VDM 颠覆传统网购衣服再也不怕踩雷了！

Google Research 团队最新研发的 Fashion-VDM 技术，让人足不出户就能体验试穿各种漂亮衣服的快感。

Fashion-VDM 是一个视频扩散模型，只要你提供一件衣服的照片和一段你自己的视频，它就能生成一段你穿着这件衣服的视频，而且效果超级逼真！

市面上的虚拟试衣软件大多是基于图像的，只能生成静态图片，而且效果经常惨不忍睹，衣服穿在你身上就像贴纸一样，毫无真实感可言。Fashion-VDM 则完全不同，它生成的是动态视频，不仅能展示衣服在不同角度的穿着效果，还能模拟衣服的动态变化，比如褶皱、摆动等等，简直和真人试穿一模一样。

Fashion-VDM 的秘诀在于它采用了分离式无分类器引导技术（split-CFG），这项技术可以更精确地控制人物和服装的信息，确保生成的视频既保留了你本人的特征，又完美地展现了衣服的细节。

为了让视频更加流畅自然，Fashion-VDM 还采用了一种渐进式时间训练策略，先用大量的图片数据训练模型，然后再逐步增加视频数据的训练时长，最终生成长达 64 帧的超长视频，彻底告别画面卡顿和闪烁！

更厉害的是，Fashion-VDM 还结合了图像和视频数据进行联合训练，这意味着它不仅能从图片中学习服装的细节，还能从视频中学习人物的动作和服装的动态变化，最终生成更加真实、更具说服力的试衣视频。

当然，Fashion-VDM 目前还有一些局限性，比如在处理遮挡的服装区域时，细节可能不够准确，人物体型也可能出现轻微变形。（@AIbase 基地）

4、报道称小米 AI 眼镜将于明年 Q2 发布

据「智能涌现」独家报道，小米正计划推出新一代 AI 眼镜，数月前已与歌尔合作，该产品预计于 2025 年 Q2 发布。

有知情人士表示，小米 AI 眼镜将「全面对标 Meta Ray-ban」，搭载 AI 功能、音频耳机模块、摄像头模块，并将以小米自有品牌形式发布。

据称对于这款产品的出货量，雷军的预期「在三十万台往上」。

报道还指出，OPPO、vivo、华为、腾讯、字节近期也都在评估 AI 眼镜项目；苹果也被外媒曝光已组织团队重点评估 AI 眼镜市场。

财联社记者以投资者身份致电歌尔股份，相关人士回应称，公司对具体客户信息及项目内容不予透露。公司 AI 眼镜业务现阶段尚未量产，主要产品可应用于 AI 眼镜等终端产品。(@ APPSO)

5、传苹果将推出 AI 智能家居中控屏

据彭博社的 Mark Gurman 报道，苹果公司正在开发一款新的智能家居产品——一款壁挂式显示屏，拥有控制家电、与 Siri 互动和视频会议等功能。

显示屏看起来像一个方形的 iPad，拥有大约 6 英寸的屏幕，顶部配有摄像头，内置扬声器和可充电电池。其已开发三年，可能会在明年 3 月正式宣布。

这款设备在功能上与 Google Home Hub 和亚马逊的 Echo Show 相似，但苹果的智能家居控制中心的独特之处可能是苹果 AI，包括 10 月下旬开始向用户推出的 Apple Intelligence 以及即将到来的 App Intents 系统，该系统可使用 AI 控制软件程序。

此外，苹果还在开发一款带有机械臂的版本，能够移动平板设备。这表明苹果可能不仅仅是在开发一个智能设备控制面板，而是在寻求更先进的智能家居解决方案。(@ APPSO)

02 有态度的观点

1、Glean 创始人：AI 创业者应从用户出发

在红杉资本的深度访谈中，Glean 的创始人 Arvind Jain 分享了企业搜索和 AI 应用在企业内部落地的挑战与机遇。

他强调，为了构建有效的 AI 应用，必须先建立强大的数据基础设施，包括深入集成企业系统、健全的安全和权限框架，以及理解人与内容、上下文之间关系的复杂知识图谱。

Jain 表示企业搜索的难点在于数据的私有性、基于权限的访问和深刻的上下文依赖性，因此，理解组织结构、用户角色和访问权限至关重要。

Jain 还指出，AI 创业者应从用户出发，先通过关键功能为用户提供清晰的价值，再扩展到更多的 AI 功能，这有助于建立企业信任并为高级功能提供所需的数据基础。

他预见 AI 助手将在未来主动帮助用户完成工作，改变工作方式，使得每个人都能拥有强大的 AI 助手来提升工作效率。

此外，Jain 建议创业者应专注于解决业务问题，而不是单纯追求 AI 技术，因为 AI 只是解决问题的工具之一。(@ APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

AI测试 语音生成模型 PlayDialog：可生成对话播客、旁白；小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

AI测试 语音生成模型 PlayDialog：可生成对话播客、旁白；小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

01 有话题的新闻

02 有态度的观点

AI测试语音生成模型 PlayDialog：可生成对话播客、旁白；小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

AI测试语音生成模型 PlayDialog：可生成对话播客、旁白；小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报