AI测试 Gemini Live 发布对标 GPT-4o;Falcon Mamba 7B 模型打败 Llama3.1 丨 RTE 开发者日报

RTE开发者社区 · 2024年08月14日 · 1701 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@ 鲍勃

一、有话题的新闻

1、谷歌发布 Gemini Live:对标 GPT-4o,让每一个人都有贾维斯

谷歌在今天凌晨举办的「Made by Google 2024」大会上,正式发布了智能语音助手 Gemini Live。Gemini Live 的功能与 OpenAI 在 5 月推出的 GPT-4o 语音模式类似,支持自然语言提问,能识别图像、视频和语音,是一个多模态智能助手。

例如,打开 Gemini Live 拍摄一幅清明上河图,然后让其讲解这幅画的历史来历。在讲解的过程中,可以任意打断其对话就像朋友聊天一样。也可以授权 Gemini Live 访问你的邮箱、地图和通讯录,只需要向它说」今晚 8 点,帮我约阿乐去有福气酒楼吃饭。」就能帮你自动完成,基本上和钢铁侠的 AI 助理贾维斯差不多。
Gemini Live 的使用方法非常简单,长按电源按钮或对着手机直接说「Hey Google」就能开始使用。Gemini Live 除了能理解语音、图片、视频之外,还能生成图片,例如,帮我生成一张用于生日庆祝的图片,并且可以直接放在谷歌生态应用中使用。

谷歌表示,Gemini Live 已经与其邮件、云盘、相册、天气等原生应用进行了集成,未来会扩展至 Keep、Tasks、Utilities 等知名应用,可以帮助人们自动完成更多的日常任务。Gemini Live 现已向安卓手机 Gemini 高级订阅用户开放,提供了 10 种语音选择和 45 种语言,未来几周将扩展至 iOS 系统和更多语言。(@AIGC 开放社区)

2、阿布扎比技术创新研究所发布新开源 Mamba 模型 Falcon Mamba 7B,打败 Llama-3.1(8B)、Mistral(7B)

Falcon Mamba 7B 是由阿布扎比技术创新研究所(TII)发布的首个基于纯 Mamba 架构的大型通用模型,它采用了无需增加内存存储即可处理任意长度序列的新型状态空间语言模型架构。该模型在单个 24GB A10 GPU 上运行,并在 Hugging Face 上开源,提供了四个变体模型供使用。
Falcon Mamba 7B 在多个基准测试中展现了优异的性能,尤其在 Arc、TruthfulQA 和 GSM8K 基准测试中超越了 Llama 3 8B、Llama 3.1 8B、Gemma 7B 和 Mistral 7B。训练数据集包括高达 5500GT 的 RefinedWeb 数据集以及高质量的技术、代码和数学数据。尽管在 MMLU 和 Hellaswag 基准测试中表现不佳,但 Falcon Mamba 7B 已经成为阿联酋最成功的 LLM 版本之一。(@ 雷锋网)

3、全球最强 AI 程序员 Genie:GPT-4o 加持,需求到跑通只需 84 秒

Cosine 宣布推出自己的全新自主 AI 工程师 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-Bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。新工具甚至超过了亚马逊的 Q 和 Factory 的 Code Droid 的 19%,现在是全球性能最好的 AI 程序员。
Genie 的卓越性能得益于其独特的训练方法和数据集,它模拟了人类工程师的认知过程和工作流,通过自我改进机制不断优化自身性能。Genie 的训练数据包含了人类程序员的推理过程,如信息的完整传承、知识的逐步发现,以及基于实际案例的决策制定步骤等。(@ 机器之心)

4、Image Saturation Adjustment Tool,辨别 AI 图片工具

面对近期的文生图热潮,前谷歌搜索创始人之一 Deedy 在 X 上发布了一种新的检测 AI 生成图像的方法,该方法增加图像的饱和度,并仔细观察麦克风贴片和牙齿是否存在异常。Deedy 使用 Claude 编写了完整的代码,并将其作为一个公共 Artifact 发布,使其对公众可用。此外,Deedy 还提供了一个实际应用程序的链接,供用户亲自体验这一方法,并与真实图像进行了对比,指出真实图像在 JPG 压缩时可能会出现的变化。
例如,将最近爆火的 TED 演讲者的图片饱和度设为 200%,可以看到让人惊悚的牙齿。(@IT 之家)

5、Sakana AI 发布「AI Scientist」,不但能写论文还能审稿

Sakana AI 与牛津大学 Foerster 实验室、不列颠哥伦比亚大学团队发布首位「AI Scientist」,这是世界上第一个用于自动化科学研究和开放式发现的 AI 系统。
该 AI 能够自动生成完整的学术论文,甚至能够撰写出超过顶级机器学习会议接受门槛的论文,每篇论文的成本约为 15 美元。这个系统不仅能够自动进行科学研究,还能自主审稿,形成了一个闭环的研究和评审过程。该 AI 共生成了十篇完整学术论文,内容涵盖了扩散模型、语言模型、Transformer 与强化学习结合、以及谷歌团队提出的大模型「领悟」现象等多个研究方向。( @ScienceAI)

二、有态度的观点

1、IJCAI2024 大会主席张成奇:克服了幻觉,大模型就不够「靓丽」

张成奇认为,生成式模型最大优势在于其具有强大的生成能力和智能发散性,但这种能力也伴随着产生「幻觉」和错误的潜在风险。他强调应用大模型时需要注意区分大模型在不同领域的错误敏感度。例如核电站维修等领域对错误几乎零容忍,而艺术创作等其他领域则可以容忍更高的错误率。在选择应用大模型时,不仅要评估模型的能力,还要考虑其与特定领域的适配性。他认为,在导游行业和智能养老等领域,大模型的应用尤其有前景,因为这些领域对错误的容忍度较高。

关于大模型的未来发展趋势,张成奇认为,它们将朝着减少算力需求、提高效率的方向发展,并将在更广泛的领域得到应用。他指出,尽管大模型在通用领域可能比大多数人更聪明,但它们在专业领域内仍无法超越专家。因此,大模型不会完全取代人类,而是将与人类共存,利用其优势推动个性化和智能化的发展。(@AI 科技评论)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册