开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@CY@JLT,@ 鲍勃

01 有话题的新闻

1、OpenAI 发布全新生成式 AI 模型 GPT-4o:语音对话更流畅,免费提供

5 月 14 日,OpenAI 宣布推出其最新旗舰生成式 AI 模型 GPT-4o,该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中。GPT-4o 将免费提供给所有用户使用。

OpenAI 首席技术官穆里・穆拉蒂(Muri Murati)表示,GPT-4o 将提供与 GPT-4 同等水平的智能,但在文本、图像以及语音处理方面均取得了进一步提升。

「GPT-4o 可以综合利用语音、文本和视觉信息进行推理,」穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。GPT-4 是 OpenAI 此前的旗舰模型,可以处理由图像和文本混合而成的信息,并能完成诸如从图像中提取文字或描述图像内容等任务,GPT-4o 则在此基础上新增了语音处理能力。

GPT-4o 采用了全新的技术,让聊天机器人对话的响应速度大幅提升。发布会上 OpenAI 展示了使用 GPT-4o 进行语音对话的演示。演示者提问结束后,GPT-4o 几乎可以即时回应,并通过文本转语音功能进行朗读,让对话感觉更加自然逼真。

另一个演示展示了 GPT-4o 根据要求调整说话时语气,GPT-4o 可以根据指令改变声音,从夸张戏剧到冰冷机械,展现了出色的可塑性。最后,演示还展示了 GPT-4o 的唱歌功能。

以往,OpenAI 发布新版 ChatGPT 模型时,通常会将其置于付费墙之后。不过这次 GPT-4o 将免费提供给所有用户,付费用户则可以享受五倍的调用额度。(@IT 之家)

2、谷歌 I/O 大会官宣:Android 15 和 Gemini AI

5 月 13 日,谷歌宣布谷歌 I/O 开发者大会(Google I/O 2024)将于美国当地时间 5 月 14 日举行。

本次大会的重点内容之一是 Android 15,目前谷歌已经推出 Android 15 开发者预览版,该系统在底层支持了卫星通信。目前,一些偏远地区如深山、草原、沙漠、雪地等仍存在通信死角,而卫星通信技术的应用大大增强了智能手机的通讯能力,使我们的沟通方式变得更加可靠和广泛。

除此之外,本次大会的另一项重要内容是 AI,谷歌将会公布 Gemini AI 的最新进展。

据悉,Gemini 是谷歌打造的人工智能模型,可同时识别文本、图像、音频、视频和代码五种类型信息,还可以理解并生成主流编程语言。谷歌计划逐步将 Gemini 整合到其搜索、广告、Chrome 等其他服务中,谷歌也在思考围绕 Gemini 人工智能会有哪些全新的搜索体验,这些都将在 I/O 大会上一一呈现。(@ 快科技)

3、字节跳动收购 OWS 音频公司大十科技 Oladance,有望推出 AI 智能眼镜

字节跳动已于 3 月份收购 OWS 公司 Oladance 品牌大十科技,收购价格在 3-5 亿元之间,目前字节跳动团队人员已经进驻大十科技,后期有望推出 AI 智能眼镜。Oladance 是深圳市大十未来科技有限公司旗下的音频品牌,专注于 OWS 全开放穿戴式音频产品领域。

据了解,字节跳动 2022 年开始就有 AR 眼镜项目立项,此番收购 Oladance,除了探索和推出 AI OWS 智能耳机外,公司有望先推出类比 Meta Ray-Ban 的智能眼镜,实现先眼镜 + 音频 +AI、后 AR 的产品战略。(@ 维深信息 wellsennXR)

4、英国推出开源免费 AI 评估平台 Inspect

英国人工智能安全研究所( AI Safety Institute )近日推出了一款名为「Inspect」的 AI 模型安全评估平台,该平台向全球 AI 工程师免费开放,帮助加快在全球范围内开展的人工智能安全评估工作。

官方介绍,Inspect 是一个软件库,使测试人员能够评估各个模型的特定功能,然后根据结果给出分数。Inspect 可用于评估一系列领域的模型,包括其核心知识、推理能力和自主能力。

人工智能安全研究所主席 Ian Hogarth 表示,「我们希望看到全球人工智能社区不仅使用 Inspect 进行自己的模型安全测试,而且帮助适应和构建开源平台,以便我们能够全面进行高质量的评估」。(@ 爱范儿)

5、消息称苹果准备在美国外销售 Vision Pro,中法德日为首批国家

5 月 14 日,据知情人士周一透露,苹果准备开始在美国之外销售混合现实头显 Vision Pro,检验这款售价达 3499 美元(约合人民币 25308 元)的设备是否有更广泛的吸引力。Vision Pro 的市场可能拓展至中国、日本、法国和德国。

知情人士透露,数百名来自中国、澳大利亚、德国、法国、日本、韩国和新加坡的国际零售店员工上周飞赴苹果位于美国加利福尼亚州库比蒂诺的总部,参加为期四天的线下培训,学习如何向客户演示 Vision Pro。

今年 2 月初,当苹果开始在美国市场发售 Vision Pro 之前,该公司也曾在总部对美国零售店员工进行过培训,学习如何向客户演示和回答问题。Vision Pro 在国际市场的确切上市日期尚未宣布,但预计将在今年的全球开发者大会(WWDC)之后扩展到其他国家。今年的全球开发者大会将于 6 月 10 日至 14 日举行。(@ 腾讯网)

02 有态度的观点

1、扎克伯格:AI 数据中心 GPU 紧缺正在缓解,电力将成新瓶颈

5 月 13 日,Meto CEO 马克・扎克伯格(Mark Zuckerberg)近日在接受油管 Dwarkesh Patel 频道采访时表示,AI 数据中心的 GPU 紧缺已在缓解过程中,未来的瓶颈将是电力供应。

扎克伯格首先提到,此前一段时间,IT 企业即使资金充足也难以买到全部所需数量的 AI GPU,但这一情况目前已开始缓解。但扎克伯格认为 1GW 级别的数据中心不会很快出现,毕竟这相当于将一整个核电机组的发电能力用于训练 AI。

扎克伯格表示,整体而言各国对能源行业的管理更为严格,这意味着为大型数据中心建设配套能源设施(包括发电站、变电站、输电系统)的审批更为缓慢。同时这些设施本身的建设周期也较长。

AI 数据中心的增长不可能长期维持目前的速度,终将遭遇电力瓶颈:能源行业不同于 AI,资本投入不能在短时间内收获成效,新增电力供给的交付远慢于数据中心本身。( @DoNews)

2、李开复:中国需要自己的 ChatGPT 时刻,中国的聊天机器人或工具都不够好

5 月 13 日,人工智能创业公司零一万物 CEO 李开复在接受采访时表示,中国需要自己的 “ChatGPT 时刻”,2024 年将是中国生成式 AI 应用爆发的一年。李开复表示,中国需要自己的 “ChatGPT 时刻” 来提高人们的兴趣、加快普及和投资。“对美国人来说,这一刻发生在 17 个月前,” 李开复在北京通过会议平台 Zoom 接受采访时说,“中国用户还没有体验到 ChatGPT 时刻。目前为止,中国的聊天机器人或工具都不够好。”

与许多全球 AI 创业公司不同的是,李开复透露零一万物已接近盈利。在对这些模型进行中文和通用数据集的训练之后,李开复正在将这些模型和应用程序推向全球,并与国内外客户签约以增加明年的收入。“2024 年将是中国生成式 AI 应用的爆发年。” 李开复称。(@ 凤凰网科技)

03 有思考的文章

《为多模态 LLM 指明方向,邱锡鹏团队提出具有内生跨模态能力的 SpeechGPT》

「SpeechGPT 突破了传统语音到语音对话 cascaded system (ASR+LLM+TTS) 的束缚,实现了模态之间的知识传递,不需要额外的 ASR 和 TTS 系统也能和 LLM 直接进行语音对话。」

「 SpeechGPT 为打造真正的多模态大语言模型指明了方向:将不同模态的数据(视觉,语音等)统一表示为离散单元集成在 LLM 之中,在跨模态数据集上经过预训练和指令微调,来使得模型具有多模态理解和生成的能力,从而离 AGI 更进一步。」

@ 鲍勃:GPT-4o 发布后,WebRTC 的核心开发者 Justin Uberti 推荐了复旦大学邱锡鹏团队的论文:「这篇论文是关于 speech-to-speech 建模的很好的介绍,并详细介绍了许多挑战和所需数据集。」

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流