AI测试 Reflection 70B 遭质疑基模为 Llama 3；Replit Agent：编程 0 基础适用丨 RTE 开发者日报

RTE开发者社区 · 2024年09月09日 · 3232 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@ 鲍勃

01 有话题的新闻

1、Reflection 70B 遭质疑基模为 Llama 3，作者：重新训练

近期，开源大模型社区因 AI 初创公司 HyperWrite 推出的 Reflection 70B 模型引发热议。该模型基于 Meta 的 Llama 3.1 70B Instruct，使用 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。Reflection 70B 在多个基准测试（如 MMLU、MATH、IFEval、GSM8K）上表现超越 GPT-4，甚至超过了 Llama 3.1 405B，因而被誉为「开源大模型新王」。

Reflection 70B 由两位开发者（HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary）仅用 3 周开发完成。然而，Artificial Analysis 的独立评估表明，该模型的 MMLU 得分仅与 Llama 3 70B 相同，并低于 Llama 3.1 70B。此外，科学推理与知识（GPQA）和定量推理（MATH）测试结果也未达到预期。

Reddit 上的讨论显示，Reflection 70B 可能是基于 Llama 3 而非 Llama 3.1，并使用了 LoRA（低秩近似）微调技术。部分用户通过代码分析验证了两者的权重差异，表明 Reflection 模型与 Llama 3 更为相似，尤其是在语言理解任务中反应不一致。此外，模型的权重问题也引发了社区质疑，开发者 Matt Shumer 解释称，Hugging Face 平台上传的模型权重出现问题，并计划重新训练模型。随着模型的更多测试结果曝光，社区对 Reflection 70B 的关注逐渐转向开发者的透明性和商业动机。开发者团队表示将尽快解决技术问题并重新上传训练后的模型，未来表现如何仍待观察。（@ 机器之心）

2、「国内首个端到端通用语音 AI 大模型」心辰 Lingo 发布，号称中文效果比 GPT-4o 更出色

西湖心辰于 9 月 5 日发布了心辰 Lingo 语音大模型，号称是「国内首个端到端通用语音大模型」。

官方表示，针对心辰 Lingo 端到端语音大模型的能力，在多个领域和中文上进行增强，使得心辰 Lingo 的中文语音效果，相较 GPT-4o 更为出色。心辰 Lingo 于 8 月 24 日开启内测，至今已经有超千家企业用户预约测试。

相比较传统 TTS，端到端语音大模型则是一种更为全面的技术，不仅可以语音识别，还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节，实现了从语音输入到语音反馈的完整交互过程。（@IT 之家）

3、特斯拉将获得 xAI 的 AI 模型授权并与其分享收入？马斯克回应称不准确

马斯克否认了《华尔街日报》报道特斯拉将获得 xAI 的 AI 模型授权，以帮助开发全自动驾驶（FSD）等技术，并且双方正在讨论未来收入的分享协议。

马斯克指出，尽管他没有完全阅读该报道及其所有观点，但报道的总体说法是不准确的。他承认特斯拉从与 xAI 工程师的讨论中学到了很多，但实际上并不需要从 xAI 那里获得任何授权。马斯克还解释说，xAI 的 AI 模型与特斯拉正在开发的模型之间存在巨大差异，xAI 的模型非常庞大，不适合在特斯拉的电动汽车上运行，而特斯拉的模型则具有非常密集的智能，因为它们专注于现实世界的驾驶。（@ 雷锋网）

4、国内首个 AI 大模型攻防赛启动，设立近 100 万元奖金池

9 月 6 日上午，在 2024 Inclusion・外滩大会「以 AI 守护 AI 大模型时代的攻守之道」论坛上，国内首个大模型攻防主题的科技赛事「全球 AI 攻防挑战赛」宣布正式启动。

这项赛事聚焦 AI 大模型产业实践，设计了攻、防双向赛道，邀请各路「白帽黑客」（IT 之家注：站在黑客立场攻击自己系统以进行安全漏洞排查的程序员）、技术人才分别进行针对文生图大模型「数据投毒」的攻防实战演练，以及金融场景大模型生成内容的防伪检测竞赛。

「攻击赛道」聚焦于文生图大模型的实际应用风险问题。参赛选手可通过目标劫持、情景带入、逻辑嵌套等多样化的动态攻击诱导技术，诱发大模型输出风险图像，以此激活大模型的潜在弱点和漏洞，增强大模型生图的安全免疫能力。

「防守赛道」则聚焦于 AI 核身中的金融场景凭证篡改检测，以应对日益严峻的 Deepfake 深度伪造及 AIGC 假证风险。大赛提供百万级凭证篡改数据训练集，参赛选手需要研发和训练模型，并利用对应的测试集评估模型有效性，给出数据伪造概率值。

该赛事由中国图像图形学会、蚂蚁集团、云安全联盟（CSA）大中华区联合主办，并得到了上海交通大学、浙江大学等 C9 高校及多家产学研组织的支持。

赛事设立了近 100 万元奖金池，并邀请了多位学术界和工业界的知名专家担任评委。

本次大赛于 9 月 6 日正式启动报名，11 月初完成赛事评审。即日起，选手可通过中国图象图形学学会官网、阿里云天池大数据众智平台官网等渠道报名。（@IT 之家）

5、Replit 发布 Replit Agent AI 应用开发助手，0 基础编程用户也能开发程序

Replit 发布了一款实验性产品：Replit Agent ，旨在帮助用户从零开始构建软件项目。它通过理解自然语言提示，使得任何技能水平的用户都能够更轻松地开发应用。

Replit AI Agent 可以帮助用户轻松开发应用程序。只需要用普通的语言描述你想要的应用，AI 就会帮你自动处理复杂的步骤，比如设置开发环境、编写代码、甚至部署到网上。即使你不会编程，也可以快速创建应用。

而且，你可以随时查看和修改 AI 生成的代码，学习编程的过程。它还支持手机使用，所以无论你在哪里，都可以继续你的开发工作。（@ 小互 AI）

02 有态度的观点

1、Anthropic 顶级提示工程师访谈：如何有效引导和控制大语言模型？

Anthropic 的一些提示工程专家——Amanda Askell（对齐微调）、Alex Albert（开发人员关系）、David Hershey（应用人工智能）和 Zack Witten（即时工程）——反思了提示工程的发展历程、实用技巧和想法随着人工智能能力的增长，提示可能会发生怎样的变化。

工程师们强调了「prompt engineering」，即通过与模型进行反复试验和迭代，设计有效的提示或指令来引导模型输出符合预期的结果。这类似于一个工程师不断试错的过程，旨在找到最佳解决方案。

「与模型的交流更像是与一个人的交谈，需要理解模型的心理以及它如何处理信息。这种沟通方式对于确保模型理解我们的意图至关重要。」

讨论还触及到是否应该向模型隐瞒真实意图或任务复杂性的问题。大多数观点认为，在构建评估数据集或指导模型执行特定任务时，诚实披露相关信息是更好的做法。为了帮助模型更好地理解和应对特定类型的信息，提供清晰且多样化的示例被视为关键策略。这些示例不仅能反映模型将遇到的真实世界情况，还能促使模型学习更广泛的推理能力。

通过询问模型为什么做出某种决策，试图解码模型的内部工作原理成为一种重要方法。这不仅有助于理解模型是如何运作的，还有助于识别哪些方面需要改进。

视频最后，讨论聚焦于未来，预测会有更多的交互式、个性化的提示技术出现，使用户能够更有效地与模型合作，共同完成任务。此次交流展示了如何通过精心设计的提示、真诚的交流方式及有效的示例，引导人工智能模型执行复杂的任务，并逐步提高其性能和普适性。（@ 雷锋网）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。