AI测试 面壁发布端侧视觉理解模型 MiniCPM-V 2.6;ChatGPT 人形机器人二代正式发布丨 RTE 开发者日报

RTE开发者社区 · 2024年08月07日 · 924 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@JLT,@ 鲍勃

01 有话题的新闻

1、面壁智能开源 MiniCPM-V 2.6 模型:号称端侧 AI 多模态能力对标 GPT-4V

面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V。据介绍,MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,三项能力均取得 20B 以下 SOTA 成绩,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

而类比知识密度来看,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%,MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)。

值得一提的是,面壁还将「实时」视频理解、多图联合理解、多图 ICL 等能力首次搬上了端侧。

量化后端侧内存仅占 6 GB,端侧推理速度达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理,且支持多种语言。(@AI 科技评论)

2、人形机器人公司 Figure AI 宣布推出全新一代 Figure 02

当地时间 8 月 6 日,Figure AI 公布了全新 Figure 02 视频,主要展示了其在宝马生产线上进行测试的场景。

根据视频展示,功能层面,Figure 02 在语音对语音方面,通过麦克风、扬声器和定制的 AI 模型,可以与人类进行对话;摄像头则由 6 个板载 RGB 摄像头驱动的 AI 视觉系统;采用第四代手部,具有 16 个自由度和相当于人类的力量;视觉语言模型(VLM)使机器人摄像头能够进行快速的常识性视觉推理;电池层面,Figure 02 配备了 2.25 千瓦时的电池,使运行时间增加 50%;CPU/GPU 的计算和 AI 推理能力是上一代的 3 倍。

Figure AI 成立于 2022 年,2023 年推出了首款产品 Figure 01,今年 2 月,它获得一众科技巨头和大佬的投资,包括 OpenAI、微软、英伟达、贝佐斯等联合约 6.75 亿美元融资,估值 26 亿美元。(@ 钛媒体)

3、阿里通义 App 推出「角色扮演」功能

8 月 6 日消息,通义 App 推出角色扮演功能,可一键替换视频人物。上传一段视频,选择要替换的 3D 角色,可以在不改变其他场景和人物的情况下,将视频里原有的角色一键变身为有趣的 3D 角色模型,实现让孙悟空跳水、机器人打网球、二次元女孩揉面等创意视频。

该功能基于 Motionshop 模型打造。今年年初,阿里通义实验室推出 Motionshop 模型。目前,Motionshop 上线通义 App,开放给所有用户免费使用。( @ 鞭牛士)

4、MathGPTPro:数学问题 AI 解决工具 提供实时互动学习体验

MathGPTPro 是一个先进的 AI 数学问题解决工具,提供实时互动学习体验。用户可以提问或者上传数学问题图片,MathGPTPro 会立即提供详细的解决方案。

MathGPT 已被全球 200 多个国家的 40 万名学生使用,MathGPT 称其测试版模型在高中和初中数学问题上的准确率比 GPT-4 高 20%。数学推理方面比 GPT-4o 高 15%。(@ 小互 AI)

5、OpenAI 在 API 中引入结构化输出,最新版 GPT-4o AI 模型达到 100% 满分

OpenAI 公司昨日发布新闻稿,宣布在 API 中引入结构化输出(Structured Outputs)。

OpenAI 公司此前已提供结构化输出,用户可以指定"response_format": {"type": "json_object"}} 来请求一个有效的 JSON 对象,也可以使用函数调用机制来请求符合特定模式的响应。

OpenAI 在导言中表示,结构化输出功能可确保模型生成的响应始终符合用户提供的 JSON 模式,因此用户无需担心模型会遗漏必填键或生成无效的枚举值。

6、LlamaCoder:简单提示轻松创建小程序代码

LlamaCoder 是一个基于 Llama3.1405B 模型的平台,它通过强大的自动化能力,使得开发者只需提供简单的指令,就能快速生成完整的 React 应用程序和组件。该平台采用了现代化的技术栈,包括 Next.js 和 Tailwind 等流行技术,提供了一个既美观又易用的界面。

LlamaCoder 的功能设计考虑了全面,包括代码沙箱、Helicone 集成和 Plausible 工具的使用,以提高开发效率和产品优化。入门门槛低,用户只需克隆代码库并设置 API 密钥,即可通过 npm 命令启动项目。目前已开源。(@AI 科技评论)

02 有态度的观点

1、雷军:跟苹果华为的对比,推动了小米的进步

雷军与李翔发布的 206 分钟深度访谈中,雷军表示,自己最倒霉的地方就是老跟华为苹果比。相关话题昨日也登上了微博热搜。

访谈中雷军提到,「我倒霉的地方就是老跟苹果华为比,要比这两个大哥惊艳。有人问我为什么不能比苹果好,我说小米四百亿,他们三万亿,哪怕你给我一万亿美金我就能比他们惊艳」。

不过他也表示,苹果的厉害,华为的厉害,挡不住小米的光芒,跟苹果华为比的结果,还是推动了小米的进步。(@ 爱范儿)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册