AI测试微软 Azure 推出文本到语音虚拟人；英伟达发布 8B 小语言模型，可在 RTX 工作站部署丨 RTE 开发者日报

RTE开发者社区 · 2024年08月23日 · 4238 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@ 鲍勃

01 有话题的新闻

1、英伟达发布 80 亿参数新 AI 模型：精度、效率高，可在 RTX 工作站上部署

英伟达发布了 Mistral-NeMo-Minitron 8B 小语言 AI 模型，共 80 亿个参数，具备精度高、计算效率高等优点，可在 GPU 加速的数据中心、云和搭载英伟达 RTX 显卡的工作站上运行。

英伟达表示通过宽度剪枝（width-pruning）Mistral NeMo 12B，并知识蒸馏（knowledge distillation）轻度重新训练后获得 Mistral-NeMo-Minitron 8B，相关成果发表在《Compact Language Models via Pruning and Knowledge Distillation》论文中。

剪枝通过去除对准确率贡献最小的模型权重来缩小神经网络。在「蒸馏」过程中，研究小组在一个小型数据集上重新训练剪枝后的模型，以显著提高通过剪枝过程而降低的准确率。

就其规模而言，Mistral-NeMo-Minitron 8B 在语言模型的九项流行基准测试中遥遥领先。这些基准涵盖了各种任务，包括语言理解、常识推理、数学推理、总结、编码和生成真实答案的能力。（@IT 之家）

2、微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。

8 月 22 日，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。

Text to Speech Avatar 具有以下功能：

将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自然的声音。
提供不同的人物预设形象。
形象的声音由 Azure AI 文本转语音生成。
使用批量合成 API 异步或实时合成文本到语音人像视频。
在 Speech Studio 中提供内容创建工具，无需编码即可创建视频内容。
通过 Speech Studio 中的实时聊天头像工具启用实时人像对话。

定价方面，文本转视频服务的收费将根据视频输出的长度计算并按秒收费。该服务现已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区推出。（@IT 之家）

3、Ideogram 发布 2.0 全新版本，写实风格显著提升，接近真实照片，还能生成网页设计页面

Ideogram 发布 Ideogram 2.0 版本，这是一款功能强大的文字转图像模型，具有行业领先的生成真实图像、平面设计、排版等能力。

Ideogram 2.0 具有以下主要功能特点：

多种图像风格选择：

现实主义风格：能够生成高度逼真的图像，纹理和细节（如皮肤和头发）都非常接近真实照片
设计风格：强化了文本的准确性，非常适合制作带有长文本的图形设计，如贺卡、海报和社交媒体内容
3D 风格：支持生成三维立体感较强的图像
动漫风格：专为生成动画或卡通风格的图像而设计

灵活的图像生成：

任意宽高比：支持各种宽高比的图像生成，包括 3:1 和 1:3 等非传统比例
颜色调控：用户可以指定颜色调色板，以便在生成的图像中保持一致的视觉风格，适用于艺术控制和品牌一致性

高级图像生成工具：

Magic Prompt: 自动生成创意性的提示词，帮助用户更轻松地开始创作
Describe 功能：根据已有图像生成详细的文本提示，以此为基础创建新的图像

API 与移动端支持：

Ideogram API: 开发者可以通过 API 将 Ideogram 的图像生成能力集成到他们的应用中，并且相比其他同类产品，价格更具竞争力
iOS 应用：提供了移动端应用程序，用户可以随时随地生成图像（Android 版本将在稍后推出）

庞大的图像库搜索：

用户可以通过文本搜索访问超过 10 亿张公开生成的图像，找到灵感并探索他人的创作

（@ 小互 AI）

4、马斯克点赞可灵 AI

8 月 20 日，AI 插画艺术爱好者 Déborah 在推特上发布了一段由可灵 AI 完成、时长为五秒钟的视频。这条视频获得了埃隆·马斯克的关注，并且他在评论区回复「AI Entertainment is happening fast」。

可灵 AI 作为快手自研的视频生成大模型，自今年 6 月初发布以来便受到了国内外的广泛关注和好评。市场分析机构摩根士丹利公开评论：「可灵 AI 的表现要比抖音和腾讯过往发布的视频生成模型都更加优秀。」

从视频生成效果本身来看，可灵 AI 不仅能够模拟物理世界特性，还具备了强大的概念组合能力和想象力，生成的视频分辨率高达 1080p，时长最高可达 2 分钟。

6 月 21 日，可灵 AI 正式推出图生视频功能，支持用任意静态图像生成 5s 视频，并且可搭配不同的文本内容，实现丰富的视觉叙事。马斯克点赞的视频，也是出自可灵 AI 这一核心爆款功能。在海外，快手的图生视频得到了广泛的使用。被点赞视频的作者 Déborah 也多次用可灵 AI 制作视频。

7 月 6 日，在上海举行的 2024 世界人工智能大会上，可灵 AI 正式上线了网页端，推出了更加清晰的高画质版，在视频处理的精细度上有了大幅提升。其中，首尾帧控制、镜头控制等新功能也一起上线，并且创作者单次生成的文生视频时长也增加至 10 秒。

7 月底，可灵 AI 大模型全面开放内测，并正式面向全球上线会员体系，针对不同类别的会员，提供相应的专属功能服务。（@AI 科技评论）

5、原 Character.AI CEO 诺姆・沙泽尔将任谷歌 Gemini 联合技术负责人

根据谷歌发送给员工的消息，本月重返谷歌的 Character.AI 联合创始人兼原 CEO 诺姆・沙泽尔（Noam Shazeer）将担任谷歌 AI 项目 Gemini 的联合技术负责人。

沙泽尔将与谷歌长期从事人工智能研究的杰夫・迪恩（Jeff Dean）和奥里奥尔・维尼亚尔斯（Oriol Vinyals）一起开发 Gemini，其目标是与 OpenAI 的大语言模型 GPT 竞争。

本月初，初创公司 Character.AI 宣布，该公司已与谷歌母公司 Alphabet 签署了一项协议，授予这家搜索引擎巨头非独家使用其大型语言模型的许可。Character.AI 联合创始人诺姆・沙泽尔和丹尼尔・德・弗雷塔斯将重返谷歌，谷歌发言人曾宣布沙泽尔将加入 DeepMind 研究团队。（@IT 之家）

02 有态度的观点

1、Rippleing 创始人：你的公司 AI washing 了吗？

Rippling 创始人 Parker Conrad 对于 AI 技术的实际应用持怀疑态度，认为许多软件公司在产品中添加了新颖但不实用的 AI 功能。他指出，目前 AI 世界中存在大量无关紧要的东西，尽管 AI 有潜力带来变革，但他对目前所见的 AI 功能并不印象深刻。

Conrad 理解为什么公司会声称其产品具有 AI 功能，因为这可以提高公司的市场估值。数据显示，AI 公司在美国的投资中占有重要比重，超过 40% 的新独角兽企业是 AI 初创企业。Parkway Venture Capital 的管理合伙人 Nekeshia Woods 认为 AI 正在成为企业自动化日常任务的方式，并预计 AI 助手和通用机器人将在未来出现。
Conrad 认为 AI 的强大在于其能力在处理大量非结构化信息，帮助公司更好地了解其业务。尽管存在 AI 疲劳现象，但人们对 AI 的问题正在增加，投资者和创始人开始关注对人工智能的大量投资何时能获得回报。Conrad 对 AI 的未来保持观望态度。（@AI 科技评论）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

AI测试 微软 Azure 推出文本到语音虚拟人；英伟达发布 8B 小语言模型，可在 RTX 工作站部署丨 RTE 开发者日报

AI测试 微软 Azure 推出文本到语音虚拟人；英伟达发布 8B 小语言模型，可在 RTX 工作站部署丨 RTE 开发者日报

01 有话题的新闻

02 有态度的观点

AI测试微软 Azure 推出文本到语音虚拟人；英伟达发布 8B 小语言模型，可在 RTX 工作站部署丨 RTE 开发者日报

AI测试微软 Azure 推出文本到语音虚拟人；英伟达发布 8B 小语言模型，可在 RTX 工作站部署丨 RTE 开发者日报