开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。
我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@ 鲍勃
1、Fish Speech 1.4 发布:开源 TTS 模型迎来多语言突破
Fish Speech 1.4 版本的发布标志着这款开源文本转语音(TTS)模型在多语言支持和性能方面取得了重大突破。作为一个致力于提供高质量、自然流畅语音合成体验的创新解决方案,Fish Speech 在这次更新中展现了其强大的技术实力和广阔的应用前景。
本次 Fish Speech 的更新主要有以下亮点:
2、元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B
元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B。
该模型总参数 255B,激活参数 36B,官方号称效果能「大致达到」超过 100B 大模型的「跨级」性能跃升,同时训练时间减少 30%,推理性能提升 100%,使每 token 成本大幅下降。
MoE(Mixture of Experts)混合专家模型架构,将多个细分领域的专家模型组合成一个超级模型,在扩大模型规模的同时,保持模型性能最大化,甚至还能降低训练和推理的计算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、马斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。
在多个评测中,元象 MoE 超过多个同类模型,包括国内千亿 MoE 模型 Skywork-MoE、传统 MoE 霸主 Mixtral-8x22B 以及 3140 亿参数的 MoE 开源模型 Grok-1-A86B 等。(@IT 之家)
3、Roblox 宣布全新 AI 工具,可以用文本直接生成 3D 游戏世界
在 2024 年 Roblox 开发者大会(RDC)上,首席执行官 David Baszucki 宣布了 Roblox 的一项重大创新——AI 驱动的「3D 基础模型」。该工具旨在通过文本、视频和 3D 提示创建 3D 资产,实现与游戏玩法直接集成的实时世界构建。
Roblox 一直在将生成式 AI 技术逐步融入其创作者开发工具中,如:
然而,Baszucki 强调,这些工具仅仅是初步尝试,Roblox 计划将 AI 技术提升到一个新高度,使 AI 不仅能够帮助开发者生成单一元素,还能够动态生成完整的 3D 世界场景。
Roblox 正在开发一个 3D 基础模型,该模型能够根据多种输入(如文本、视频或 3D 提示)生成复杂的 3D 环境和物体。演示展示了以下功能:
从文本到 3D 的实时转换:通过简单的文本提示(例如描述一个沙漠),AI 可以自动生成 3D 场景。开发者随后又用一个简单的指令将沙漠转换为森林场景。这种基于提示符的生成能力,使得创建复杂的 3D 环境变得更加便捷。
多模态输入:除了文本,用户还可以通过视频或 3D 提示符来引导 AI 生成所需的场景或物体。这意味着未来开发者可以更加直观地与 AI 合作完成项目。
该 AI 工具的真正创新之处在于其可以实时创建 3D 内容并与游戏玩法深度集成。这一功能将赋予玩家和开发者更大的创造自由,尤其是在开放世界和沙盒类游戏中。未来的 Roblox 体验将有可能是一个完全由 AI 生成、玩家实时影响的动态世界。Baszucki 描绘了一个设想的场景:例如在一个虚拟的 D&D 游戏中,游戏世界可以随着地牢主的描述而即时生成,玩家的每一个行动都能实时影响环境的变化。
尽管功能看起来十分令人兴奋,但 Baszucki 也提到,这项技术仍处于早期研发阶段,目前大约有 40 名员工专门从事这个项目的开发。尽管如此,短短三个月的开发已经展示了初步的效果。虽然目前展示的能力是在舞台上预录的演示,实际应用中的效果如何还需进一步验证。(@ 小互 AI)
4、夸克 AI 写作助手 CueMe,不仅能写长文还能模仿风格
CueMe 是夸克基于大模型自主研发的全新智能对话助手,AI 写作能力突出,支持不同体裁、不同篇幅的内容生成,最长可生成 2 万字的内容,用户现可通过 cueme.cn 或夸克 App 使用。
夸克表示,CueMe 针对不同细分体裁进行了充分的语料预训练,可支持上千种不同体裁的写作需求,包括研究报告、日常写作、课程论文、新媒体文案等等,并且还在持续扩展中。
此外,CueMe 还支持文风定制,用户可选择根据平台风格、语言风格或个人文章风格生成符合其个性化需求的内容。
据夸克官方介绍,CueMe 实现了三项关键技术突破 —— 长文本理解与生成、专业知识检索与增强、以及复杂多轮文创指令遵循。在此基础上,CueMe 从三个方向进行内容深度优化。
5、腾讯 GameGen-O 生成开放世界游戏的视频模型
来自香港和中国大陆大学的研究人员与腾讯一起开发了 GameGen-O,这是一种可以模拟开放世界视频游戏的人工智能模型。据研究小组称,GameGen-O 可以生成各种游戏元素,包括角色、环境、动作和事件。该模型还为研究人员所谓的 “游戏模拟” 提供了交互式控制。
这些并不是完全可玩的游戏,而是开发者可以用来快速创建原型并测试不同游戏元素的工具,而无需从头开始创建它们。
为了创建 GameGen-O,研究人员首先建立了一个名为 “OGameData” 的大型数据集,其中包括来自 100 多款现代开放世界游戏的处理数据。然后,他们分两个阶段训练模型:首先,它学会基于 OGameData 生成各种游戏内容。接下来,他们添加了一个 “InstructNet” 组件,以实现对生成内容的交互式控制。
研究人员认为,GameGen-O 是利用人工智能制作开放世界电子游戏的重要一步。通过结合 “创造性生成与交互能力”,它展示了作为传统渲染技术替代品的潜力。
根据该团队的说法,GameGen-O 可以成为研究人员和开发人员的宝贵资源。它允许探索各种应用程序,例如为视频游戏,交互式控制和沉浸式虚拟环境开发人工智能。
最近,来自谷歌研究院、谷歌 DeepMind 和特拉维夫大学的研究人员展示了 GameNGen,这是一种人工智能系统,可以以每秒超过 20 帧的速度完全模拟和实时播放经典游戏《毁灭战士》。(@ 大模型 Daliy)
6、OpenAI o1 比博士还「聪明」,全球 11 位 AI 大咖怎么看?
「好评」阵营:
「中差评」阵营:
1、Sam Altman:对 AI 大量的审查是有必要的
近日,OpenAI CEO Sam Altman 接受了美国著名主持人 Oprah Winfrey 采访,谈到了为何可以信任 AI 技术。
Sam Altman 称,AI 技术的标准非常高,OpenAI 能做到最好的事情就是把这个技术交到人们手中,谈论它能或者不能做什么,将会发生什么,并向社会建议如何使用大模型,或者解释为何不发布一些技术,随着时间的推移建立起社会对 AI 的信任。
Sam Altman 认为,对 AI 技术大量的审查是非常有必要的。他也声称「每隔几天」就会和政府进行沟通,建立技术护栏,并让政府开始研究如何对 AI 系统进行安全测试。
Altman 也表示,他对 AI 将带来的好处感到非常兴奋,认为这是令人难以置信的,但也会带来一些坏处,因此 OpenAI 会尽可能减轻影响。他提醒 AI 技术会被滥用,每个人都需要认识到这点,不过他坚信 AI 带来的好处更多。( @APPSO)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻