AI测试 Claude 大更新,AI 可模仿人类访问电脑;月之暗面招募微软亚研院谭旭,研发类 GPT- 4o 的端到端语音模型

RTE开发者社区 · 2024年10月23日 · 1935 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@ 鲍勃

01 有话题的新闻

1、开源文生图 AI 重磅选手上新:Stable Diffusion 3.5 全家桶登场、消费级硬件上「开箱即用」

Stability AI 公司昨日(10 月 22 日)发布博文,宣布推出 Stable Diffusion 3.5,这标志着开源 AI 文生图模型的重大进步。

Stable Diffusion 3.5 共有 Medium、Large 和 Large Turbo 三种规模版本,旨在满足科学研究人员、爱好者、初创公司和企业的不同需求,相关介绍如下:

Stable Diffusion 3.5 Large:共有 80 亿个参数,具有卓越的质量和快速响应,是 Stable Diffusion 家族中最强大的模型,非常适合 100 万像素分辨率的专业应用场景。
Stable Diffusion 3.5 Large Turbo:是 Large 的精简版,在出色地遵循提示词上,仅需 4 个步骤内生成高质量图像,且生成速度明显快于 Large。
Stable Diffusion 3.5 Medium(将于 10 月 29 日发布):该模型拥有 25 亿个参数,采用改进的 MMDiT-X 架构和训练方法,旨在能够在消费级硬件上「开箱即用」,平衡质量和易于定制,能够生成分辨率在 25 万到 200 万像素之间的照片。

Stability AI 为此次发布实施了一项相当宽松的社区许可,这些模型可供非商业用途免费使用,并且对年收入低于 100 万美元的企业开放,超过此门槛的企业必须获得单独的许可安排。(@IT 之家)

2、Anthropic 发布 Claude 3.5 Haiku 以及一项革命性新功能, AI 可以模仿人类访问电脑

Anthropic 宣布推出改进版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku,以及一项名为「computer use 模拟计算机使用」的新功能。

也就是 Claude 能够模仿人类的方式使用电脑,它可以自主查看屏幕、移动光标、点击按钮、输入文本等。还能够自动化执行多个步骤的复杂任务,如填写在线表格、搜索数据、提交报告等,从而大幅减少人工操作时间。

Claude 3.5 能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等操作,完成多步骤的任务。

开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务(如研究),甚至在复杂的应用场景中进行交互。

Claude 3.5 Sonnet 改进

该版本在多项行业基准测试中表现优异,尤其在编程和工具使用任务上有显著提升。在编程测试(SWE-bench Verified)中表现提高到 49%,在零售领域的工具使用测试(TAU-bench)中提升至 69.2%,航空领域则达到了 46%。

新版 Sonnet 与其前代版本保持相同的价格和速度,并在多步开发过程中提高了推理和编程能力。

Claude 3.5 Haiku 发布

Claude 3.5 Haiku 是速度最快的新一代模型,在多项测试中超越了上一代的 Claude 3 Opus。在编程测试(SWE-bench Verified)中,Claude 3.5 Haiku 的得分为 40.6%,超过许多其他先进模型(如原版 Claude 3.5 Sonnet 和 GPT-4o)。

该模型在低延迟、跟随指令的准确性以及工具使用的精确度方面都有显著提升。特别适用于用户界面任务、个性化体验生成和大规模数据处理(如购买记录、定价或库存记录)。(@ 小互 AI)

3、消息称 OPPO 将收购大模型创业公司波形智能,纳入后者 CEO 姜昱辰

界面新闻昨日(10 月 22 日)援引波形智能内部人士消息称,该公司将被手机厂商 OPPO 收购,CEO 姜昱辰将入职 OPPO。OPPO 方面向界面新闻表示:「目前暂无更多信息。」

「我们只是被收购,产品仍在正常运营,不是网传的关张。」上述波形智能内部人士表示。

公开资料显示,姜昱辰生于 1998 年,本科毕业于浙江大学竺可桢学院工高班,博士毕业于苏黎世联邦理工大学,师从 Prof。Ryan Cotterell ,主攻自然语言生成。

波形智能旗下拥有自研的中文创作垂直领域大模型「Weaver」,以及由其驱动的面向用户写作类 Agent 产品「蛙蛙写作 2.0」。其主要盈利方式为订阅会员和单次服务计费,用户定位是一款帮助专业小说作者、自媒体运营者等内容生产者提升写作速度的效率工具。但是,用户的付费意愿、能力以及市场空间等都有待验证。

另据《科创板日报》,姜昱辰曾表示,Weaver 大模型专为创作而生,最大特点是 50B tokens 高质量中文内容进行预训练,再加上工程师不断调整,使得该大模型的写作内容更有「人味」。(@IT 之家)

4、微软亚研院前首席研究经理加入月之暗面

据晚点 Auto 独家报道,微软亚研院前首席研究经理谭旭,已经于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。

谭旭在离开微软研究院前担任首席研究经理,方向是生成式 AI、语音 / 音频 / 视频内容生成,论文引用量达上万次,他也曾担任 NeurIPS 等学术会议期刊的审稿人;其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。

报道指出,月之暗面的整个多模态研究在 2023 年 10 月就开始了。在受市场关注的视频生成大模型上,有接近月之暗面的人士称,月之暗面目前有十人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。

谭旭加入月之暗面后,主要目标之一可能是帮月之暗面打造类似 GPT-4o 的语音体验。( @APPSO)

5、华为原生鸿蒙操作系统正式发布

我国首个国产移动操作系统——华为原生鸿蒙操作系统正式发布,这也是继苹果 iOS 和安卓系统后,全球第三大移动操作系统。

据介绍,此前已经发布过的鸿蒙系统,由于系统底座仍使用了部分 AOSP 开放源代码,而不得不兼容部分安卓应用软件。而此次发布的原生鸿蒙,实现了系统底座的全部自研,系统的流畅度、性能、安全特性等提升显著,也实现了国产操作系统的自主可控。(@ 腾讯科技)

02 有态度的观点

1、AI 教父 Hinton:我很担心 AI 从人类手中夺过控制权;AI 智能终将超越人类

Hinton 在一次访谈中提到了自己对 AI 发展的担忧。「我一如既往对 AI 的发展表示担忧,但我很高兴看到世界开始认真对待这个问题...AI 会变得比人类更聪明。我们必须担心它们会想从我们手中夺取控制权,这是我们应该认真思考的问题。」

Hinton 认为 AI 的智慧可能超越大多数人类,只是时间问题。有的专家认为掌控 AI 不是问题——我们设定目标,它们会服从我们,按我们说的做。也有其他专家认为它们绝对会夺取控制权。但 Hinton 认为谨慎一些是明智的。他个人认为 AI 有可能会夺取控制权,而且这个可能性比 1% 大很多。

Hinton 提出,军事领域的 AI 应用应该受到国际共识制约。「使用 AI 制造自动化致命武器的风险并不取决于 AI 是否比我们聪明,这与 AI 本身可能失控并试图接管的风险是完全不同的。我对这两种情况都很担心...自动化武器显然会出现,至于人工智能是否会失控并试图接管它,我们可能能够控制也可能无法控制,我们对此一无所知。因此在它比我们更有掌控力之前,我们应该投入大量资源来研究我们是否能够控制它。」(@Z potentials)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册