AI测试 开源 TTS 模型「Fish Speech」1.4 发布;GameGen-O :生成开放世界游戏视频模型丨 RTE 开发者日报

RTE开发者社区 · 2024年09月13日 · 1653 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@ 鲍勃

01 有话题的新闻

1、OpenAI o1 模型问世:开启 AI 通用复杂推理新篇章,模拟人类思考、处理问题

OpenAI 传闻中的「草莓」(Strawberry)AI 模型现已面世,正式名称为「o1」,是该公司首款具备「推理」能力的模型。

OpenAI 表示对该模型进行特殊训练,能够比人类更快地回答更复杂的问题。与之同时发布的还有 o1-mini,一个更小、成本更低的版本。

OpenAI 表示 o1 模型的发布,是其迈向类人 AI 宏伟目标的关键一步。该模型目前处于「预览」阶段,官方强调该模型相关开发尚处于初期阶段,相比较 GPT-4o 模型,使用成本更高且速度更慢,但在编写代码和解决多步骤问题方面表现更为优秀。

  • 价格

OpenAI 公司表示从今天起,ChatGPT Plus 和 Team 用户将可访问 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用户则将在下周初获得访问权限。

OpenAI 表示计划将 o1-mini 的访问权限扩展至所有 ChatGPT 免费用户,但尚未确定发布日期。

开发者获取 o1 的访问权限成本相当高昂:如果调用 API,o1-preview 的输入词元(tokens)费用为每百万个成本 15 美元(当前约 107 元人民币),输出词元费用为每百万个 60 美元(当前约 427 元人民币)。

相比之下,GPT-4o 的输入词元费用为每百万个 5 美元(当前约 35.6 元人民币),输出词元费用为每百万个 15 美元(当前约 107 元人民币)。因此 o1 模型输入词元费用提高了 2 倍,输出词元费用提高了 3 倍。

  • 训练方式

OpenAI 的研究负责人 Jerry Tworek 表示,o1「采用了全新的优化算法和专门为其定制的训练数据集进行训练。」并他并未透露具体细节。

报道称 OpenAI 在训练 o1 模型中使用一种称为强化学习(reinforcement learning)的技术,来自行解决问题,该技术通过奖励和惩罚来教导系统。随后,o1 采用「思维链」来处理查询,类似于人类通过逐步推理来解决问题的方式。

由于采用了这种新的训练方法,OpenAI 表示模型应该会更加准确。

Tworek 表示:「我们不能说已经解决了幻觉问题,但至少从观测的结果来看,这个模型产生的幻觉明显减少」。

  • 模型优势

o1 模型与 GPT-4o 的主要区别在于,它能够比前代更好地处理复杂的编程和数学问题,并能解释其推理过程,这是 OpenAI 所强调的。OpenAI 的首席研究官 Bob McGrew 表示:「这款模型在解答 AP 数学考试题目上的表现无疑比我更出色,而我大学时还辅修了数学。」

他提到,OpenAI 还让 o1 参加了国际数学奥林匹克竞赛的资格考试,GPT-4o 仅正确解决了 13% 的问题,o1 模型能够解决 83% 的问题。

在名为 Codeforces 竞赛的在线编程比赛中,这一新型模型达到了参赛者中的第 89 位,OpenAI 声称该模型的下一次更新将在物理、化学和生物学中的挑战性基准任务上表现「与博士生相当」。

同时,o1 在许多领域的能力不及 GPT-4o。它在世界事实知识方面的表现也不如后者。此外,它不具备浏览网页、处理文件和图像的能力。尽管如此,该公司认为它代表了一类全新的功能。将其命名为 o1,意在表明「将计数器重置回 1」。(IT 之家)

2、Hume AI 推出 EVI 2 全新的基础语音到语音模型,可进行极其人性化的语音对话

Hume AI 推出的全新语音对话基础模型:EVI 2 ,能够与用户进行极其人性化的语音对话。它可以快速流畅地回应,识别并生成各种语调,并满足个性化的需求,例如调整语速或模仿说唱风格。EVI 2 具备多语言能力,能够模仿多种性格、口音和说话风格。

EVI 2 专注于情感智能,能够根据用户的偏好和需求进行适应和调整,使其语音和个性更加愉悦和有趣。它已经开放了 Beta 版本供公众使用,开发者可以通过 API 将其集成到应用程序中。

Hume AI 强调,EVI 2 不支持直接的语音克隆,避免了与身份相关的风险,但通过语音调制功能,开发者可以定制个性化的语音,而不涉及克隆技术。(小互 AI)

3、文生图 AI Midjourney 雄心:7.0 版未来 1-2 月登场、开发新图像编辑器、探索 3D 系统、踏足硬件领域

报道称,在最近的「Office Hours」活动中,Midjourney 创始人兼首席执行官 David Holz 在 Discord 分享了当前项目的最新进展,并回答了社区的提问。

  • Midjourney 7.0 版本

Holz 更新了 Midjourney 7.0 版本时间表,表示将会在未来 1-2 月内发布。

  • 让更多人体验 Midjourney

Holz 表示公司并不急于推出新的 AI 模型,而是提高现有技术的易用性,让工具深入融入到专业人士的日常工作中。

如今,所有用户,包括希望免费体验图像 AI 的用户,都可以通过网页界面进行操作。

  • 新图像编辑器

Midjourney 目前还在开发一款图像编辑器,可以让用户利用涂抹和扩展功能编辑外部图像。尚不确定这一功能将整合到现有平台还是作为独立产品推出。该功能的具体时间表尚未公布。

  • 3D 系统

Holz 介绍一个更为雄心勃勃的项目中,Midjourney 正在开发一种 3D 系统,让用户能够虚拟地沉浸在 AI 图像中。他们没有采用多边形渲染、NeRFs 或高斯喷射技术,而是创造了一种新的「类 NeRF」格式。该团队由一位在 NeRF 发明中扮演关键角色的人物领导,这让一些人猜测可能是去年加入 Midjourney 的前 Nvidia 研究员 Alex Evans。

  • 个性化风格

个性化功能同样位居 Midjourney 新特性之列。该工具旨在根据用户反馈深入了解用户偏好,提供更加个性化的结果。近期,Midjourney 已为专精于动漫角色的 Niji 模型启用了这一功能。

  • 探索其它领域

Midjourney 似乎正忙于一系列开发工作。除了图像生成成果外,该公司还计划涉足视频生成领域。据此前报道,Midjourney 不仅在软件方面投入,还积极布局硬件研发。(@IT 之家)

4、安卓版谷歌 Gemini Live 免费上线,开启在线 AI 语音畅聊

据报道,谷歌在 1 个月前面向 Advanced 订阅用户推出后,正逐步面向所有安卓用户免费开放 Gemini Live。

今年 8 月,谷歌在 Pixel 9 系列手机发布会上,发布了 Gemini Live,该服务提供了一种移动对话体验,让用户和 Gemini 展开自由流畅的对话。

Gemini Live 可以说是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式(限量 Alpha 测试),采用了增强型语音引擎,可以展开更连贯、更有情感表达力、更逼真的多轮对话。

谷歌公司于本周四宣布,所有使用英语的 Android 版 Gemini 移动应用用户现在可以访问 Gemini Live,随时与助手进行流畅对话。iOS 平台尚未推出 Gemini 应用,因此这些用户将无法体验这一功能。(@IT 之家)

5、Reader-LM:用于清理和转换 HTML 为 Markdown 的小型语言模型

Jina AI 推出了两款小型语言模型(SLM),Reader-LM-0.5B 和 Reader-LM-1.5B,专门用于从嘈杂的 HTML 中提取并生成干净的 Markdown。这些模型有效地替代了传统的 Readability 和 Turndown 库,通过直接从 HTML 生成 Markdown,解决了噪声过滤和标记转换的问题。与大模型相比,这些 SLM 更具成本效益,同时支持长达 256K 的上下文长度。(@ 机器之心 SOTA 模型)

02 有态度的观点

1、对话生数科技 CEO 唐家渝:AI 视频到了「普及」节点,提升时长不是产品化的重点

9 月 11 日,生数科技举办媒体开放日活动,发布「主体参照」(Subject Consistency)功能,意在破解视频模型生成主体的「一致性」难题。

在活动中,生数科技联合创始人、CEO 唐家渝表示,「现在的 AI 视频来到了一个节点。」生数科技发布的「主体参照」功能,正是为降低创作者门槛或者加速创作过程所作的努力。

「技术仍是关键因素,目前的视频生成只是初步符合物理规律,还有很高的天花板需要突破,比如更强的模型能力以及更多模态的协同生成。」唐家渝介绍,这次发布的「主体参照」能力在一致性生成方面确实有了很大提升,但是还有很多地方需要进一步提升。「例如要大模型从生成一个商品变成生成一个工艺品,而这个工艺品上面有繁复花纹和镂空部分,面对如此复杂的结构,目前的生成成功率依旧不高。场景生成包含很多组成因素,例如运动鞋,我就希望它能在更复杂、更动态化的场景中有更好的表现。这些都需要不断提升模型能力。」

这个过程中,技术的原创性和突破性需要与良好的商业化齐头并进,因为商业公司毕竟不是科研机构。

以视频生成的时长为例,拓展生成时长需要提升模型对世界抽象理解的能力、信息压缩和放大的双向能力。当前 Vidu 最长可以生成 32 秒的视频,生数科技计划将其扩展得更长,不过,时长还不是生数科技现在重点产品化的部分。

「在实际创作中,粗略地来说,90% 以上的片段都是几秒钟。因此,从实用角度来看,我们还没有将时长作为我们的优先发布考虑。」唐家渝强调,但从模型能力角度,公司实际上在持续提升。(@ 每日经济新闻)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册