开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@ 鲍勃
1、MiniMax 公布首个 AI 高清视频生成模型
8 月 31 日首次举行的 MiniMax Link 伙伴日上,MiniMax 发布了旗下首个文生视频模型 abab-video-1,成为继快手、字节跳动、智谱等之后又一家拥有视频生成模型的中国人工智能公司。
该模型可一次性生成长度为 6 秒的视频。MiniMax 在发布会现场展示了一段以「魔法硬币」为主题的视频,这段视频长达 1 分 55 秒,并且具有音效。MiniMax 称,该视频完全由 AI 生成,未经修改,不过生成是多次分段完成的,音效则由 MiniMax 旗下的语音大模型完成
用户目前可以在海螺 AI 官网免费体验生成包含文字的视频,最高支持原生 1280*720 的 25fps,拥有电影感镜头移动,被称为是 AI 视频界 Ideogram。目前 AI 视频时长最高 6 秒,未来或支持 10 秒。
至此,MiniMax 拥有了从文本到语音、视频生成的模型布局。MiniMax 创始人闫俊杰在发布会后接受包括「新皮层」在内的多家媒体采访中称,之后还将陆续推出「图生视频、文 + 图生成视频、可编辑的可控视频生成」等模型或功能。(@ 新皮层 NewNewThing)
2、阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
阿里云通义千问于昨日(9 月 2 日)宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。
据阿里云官方介绍,相比上代模型,Qwen2-VL 的基础性能全面提升:
读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;
理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;
具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;
理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。
Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。
同时,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 App 的主对话页面使用模型。(@IT 之家)
3、FLUX.1-dev-LoRA:一个混合现实与插画风格模型 可以生成融合了现实与插画元素的图像
FLUX.1-dev-LoRA 是一个混合现实与插画风格模型。该模型可以生成融合了现实与插画元素的图像。它基于 FLUX.1-dev 基础模型进行训练,特别擅长生成前景角色为插画风格,而背景为现实风格的视觉效果。
可以通过使用该模型生成图片并发布在社交平台上,如微信朋友圈或小红书,达到不露脸但仍然展示旅行场景的效果。
艺术风格: 模型擅长将现实与插画元素融合,创造独特的视觉效果。
提示词范例: 用户可以使用详细的场景描述和人物动作提示词,生成符合自己需求的图像。
Tip: A cartoon style man/woman, wearing what clothes, in what scene, and doing what.
4、Cohere 发布 Command R 及 Command R+ AI 模型重大更新
近日,Cohere 公司宣布对其 Command R 和 Command R+ AI 模型进行了全面升级,显著增强了这些模型在企业级应用中的能力。新版本 command-r-08-2024 和 command-r-plus-08-2024 在检索增强生成(RAG)、多语言支持和自适应工具使用方面取得了重要进展。
此次更新中,标准版 Command R 模型在整体性能上已接近甚至在某些方面超越了其前身 Command R+。新模型实现了 50% 的吞吐量提升和 20% 的延迟降低,同时硬件需求减半,为企业带来了更高效、成本更低的 AI 运营方案。
新系列模型支持多达 23 种语言,在多语言 RAG 方面表现出色,这对于全球企业尤为重要。因为它通过提供跨多种语言的准确、在线引用,大大减少了人工智能的幻觉。这些模型现在可以无缝地以用户的首选语言执行计划、工具查询和问答,而不需要额外的提示。
Cohere 还优化了模型在编程、数学和逻辑推理方面的能力,特别是在结构化数据分析上的改进尤为显著,能够更深入地解析包括表格数据在内的多种数据格式,为金融、SaaS 和咨询等行业的数据驱动决策提供了有力支持。
目前,这些升级后的模型已以具有竞争力的价格通过 Cohere 的托管 API 和 Amazon SageMaker 提供服务,未来还将扩展至更多云平台。具体定价为:command-r-08-2024 每百万输入令牌 0.15 美元,每百万输出令牌 0.60 美元;command-r-plus-08-2024 每百万输入令牌 2.50 美元,每百万输出令牌 10.00 美元。(@ ATYUN)
5、IDC 首次发布移动端 AI 大模型应用报告:百度文心一言发展较全面、抖音豆包用户活跃度表现出色
市场调查机构 IDC 昨日(9 月 2 日)首次发布了移动端大模型应用市场竞争力分析研究报告,评估了市场上 8 款热门 Chatbot 聊天机器人模型,包括 kimi 智能助手、豆包、海螺 AI、天工、通义、文心一言、讯飞星火、智谱清言,并分析、洞察了相关 AI 模型的性能和特征。
具体指标包括:市场影响力、用户活跃度、用户黏性以及用户体验四大维度。通过 App 下载量、搜索指数、日活、30 日留存率以及用户反馈和功能丰富度等数据来进行全方位的评估。
评估结果中,三款产品凭借各自在不同维度上的优势脱颖而出:
百度文心一言:在市场影响力、用户粘性、场景创新等方面均展现出独特风采,成为上半年发展较为全面的应用。同时,百度持续布局智能体生态,加强场景专业度及覆盖面,探索大模型数字人等创新交互方式。但在市场影响力、以及用户活跃度方面仍可以进一步提升,以实现更大的突破。
抖音豆包:在市场影响力、用户活跃度以及用户粘性方面均表现出色。然而,由于其偏娱乐化的产品定位,用户在体验上对其要求较高,同时在功能丰富度上发力不足,故用户体验维度还有待进一步提升。
昆仑万维天工:凭借卓越的功能丰富度与搜索引擎的融合优势,赢得了市场的广泛赞誉,并获得了较高的用户粘性。但在用户活跃度方面,天工还需通过提升自身影响力等途径,进一步加以强化。
其他应用也在不同维度也展现了自己的优势,如 kimi 智能助手在知识探索长文本上发力、海螺 AI 作为个性化生活顾问、通义侧重逻辑能力、讯飞星火在语音赛道有专业表现,以及智谱清言主攻决策方向等。(@IT 之家)
1、吴恩达:团队应该专注于构建有用的应用程序,而不是优化 LLM 成本
吴恩达提到,OpenAI 对 GPT-4o 的价格进行了显著的降低,使得每百万代币的成本从发布时的 36 美元降至 4 美元,这在 17 个月内大约相当于每年价格下降 79%。这种价格下降的原因之一是开放权重模型(如 Llama 3.1)的普及,使得 API 提供商能够在价格和速度等方面竞争。
同时,Groq、Samba Nova、Cerebras 等公司的硬件创新,以及 NVIDIA、AMD、英特尔和高通等半导体巨头的进步,也在推动代币价格的进一步降低。吴恩达强调,应用程序的开发应该考虑技术的未来发展趋势,而不仅仅是当前的技术水平。他对代币价格持续快速下降表示乐观,并且认为即使目前某些代理工作负载不完全经济,随着代币价格的下降,这些工作负载可能会变得经济实惠。例如,一个使用 100 个代币每秒钟的应用程序,按照当前的价格,每小时的成本仅为 1.44 美元,这比美国和许多国家的最低工资要低。
吴恩达提出了几点建议:首先,团队应该意识到 LLM 的使用成本实际上比预期的要低,因此应该优先考虑构建有用的应用程序而不是过度优化成本。其次,即使应用程序目前运行成本较高,也可能值得部署,因为未来的价格下降可能会使其变得经济实惠。最后,随着新模型的不断推出,应用程序开发者应该定期评估是否有必要切换到新模型,以便利用价格下降和功能增强的优势。他还指出,多个提供商托管的开放权重模型使得在不同提供商之间切换成为可能,尽管不同的模型实现可能会导致性能差异。不过,随着评估科学的进步,这一过程可能会变得更加容易。(@ 雷锋网)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻