AI测试实时语音交互中文基准首期测评出炉；美取消 SB-1047 法案，大模型厂商大难不死丨 RTE 开发者日报

RTE开发者社区 · 2024年09月30日 · 4222 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@ 鲍勃

01 有话题的新闻

1、实时语音交互中文基准首期测评出炉，4 大维度 15 项能力 7 款应用，GPT-4o 高级语音领跑，国内产品延时、打断和场景应用表现出色

自 2024 年以来，AI 大模型技术和应用逐渐从文本扩展至更多模态。随着 OpenAI 于今年 5 月份发布 GPT-4o 多模态版本，掀起了国内外语音和视觉大模型的研发热潮，OpenAI 也于近期正式开放 GPT-4o 高级语音能力。基于此，中文大模型测评基准 SuperCLUE 于近期对国内外实时语音大模型能力，进行了系统性量化测评。

1.在中文实时语音总体能力上，GPT-4o 高级语音有一定领先性，但在安全策略和幻觉问题等方面仍有较大提升空间。

GPT-4o 总体取得 74.31 分，领跑中文实时语音交互基准。并在说话风格、自然度、语言理解、记忆能力方面有较大领先性。不过 GPT-4o 高级语音在核心问题上仍有提升空间，如安全策略的高频误触、幻觉问题等。

2.在中文语音环境下，国内头部语音产品具有较好的竞争力。

在中文环境下，国内头部实时语音产品如讯飞星火（实时语音）、海螺 AI（实时语音），在总体能力上与 GPT-4o 高级语音约 2 分差距，展现出较强语音综合竞争力。

3.国内实时语音产品在响应延时、打断能力和部分通用能力上存在一定优势。

响应延时方面，讯飞星火有突出表现；打断能力方面，通义表现突出，有超过 GPT-4o 高级语音的表现；整体通用能力方面，海螺 AI 和豆包具备较强的综合能力，在记忆和推理方面表现不俗。

4.在中文场景应用方面，国内实时语音产品具有独特优势。

在实时语音场景应用领域，国内实时语音产品表现不俗。文小言在健康咨询、购物咨询等方面表现突出；智谱清言在情感咨询方面有较好表现；通义在实时翻译和教育辅导方面较为擅长；豆包则更擅长教育辅导。(@ SuperCLUE)

完整测评报告：
https://mp.weixin.qq.com/s/UM9aYhM-CO7-Lg6u6TeUzA

2、AMD 推出自家首款小语言 AI 模型「Llama-135m 」，主打「推测解码」能力可减少 RAM 占用

AMD 于昨日（9 月 29 日）在 Huggingface 平台公布了自家首款「小语言模型」AMD-Llama-135m，该模型具有推测解码功能，拥有 6700 亿个 token，采用 Apache 2.0 开源许可。

据介绍，这款模型主打「推测解码」能力，其基本原理是使用小型草稿模型生成一组候选 token，然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token，而不会影响性能，从而显著减少 RAM 占用，实现效率提升。

AMD 表示，这款模型在四个 AMD Instinct MI250 节点训练了六天，其「编程专用版本」变体 AMD-Llama-135m-code 则额外耗费了四天时间进行微调。（@IT 之家）

3、Andrej Karpathy 强推谷歌 NotebookLM 的播客功能：堪比 ChatGPT 的推出

AI 大神 Andrej Karpathy 刚刚在社交媒体上兴奋地宣布：谷歌的 NotebookLM 的播客生成功能，可能会成为 AIGC 领域的下一个 ChatGPT 时刻！

「有可能 NotebookLM 播客生成功能正在触及一种全新的、极具吸引力的大语言模型（LLM）产品形式。这让我想起了 ChatGPT。也许我反应过度了！NotebookLM 非常强大，值得一试。」

NotebookLM 是谷歌推出的一款 AI 工具，它重新构想了 LLM 的交互方式，用户可以上传各种资料，然后通过查询来引用这些资料，并查看结果和引用信息。NotebookLM 能根据任何上传的内容自动生成一段双人播客对话，对谈双方都是 A，而且能够「播客化」一切文章。

Karpathy 如此看好播客这种形式，是因为他觉得播客这种形式解决了 LLM 的「聊天难」和「阅读难」两大「用户体验障碍」。Karpathy 认为，NotebookLM 的播客生成功能，可能预示着 AIGC 领域 UI/UX 的未来发展方向。

Karpathy 认为，LLM 的能力（包括 IQ、记忆/上下文长度、多模态等）已经远远超出了将其打包成产品的 UI/UX 水平。像 Code Interpreter、Claude Artifacts、Cursor/Replit、NotebookLM 等工具，都在探索新的 LLM 交互方式。但他预计（并期待）未来会出现更多不同于聊天的交互模式。（@AI 寒武纪）

4、美国取消 SB-1047 法案，OpenAI、谷歌、Meta 大难不死！

美国加州州长 Gavin Newsom 在今天凌晨正式否决——SB-1047 法案！

SB-1047 是美国加州在今年 2 月 7 日拟定的，全名叫《SB-1047 前沿 AI 大模型安全创新法案》，主要用于增强大模型安全、透明性、使用规范的条例。

但其中有非常多的不合理内容，例如，规定开发、训练成本超过 1 亿美元的大模型，比如 Meta 开源的 Llama-3 系列；谷歌的 Gemma 系列，一旦开源有人使用它做一些非法的事情，那么源开发商也会受到非常严重的处罚。类似不合理的条款还有很多，让人怀疑起草该法案的人员的意图就是想彻底扼杀开源大模型以及大模型出口。所以，像 OpenAI、Meta、谷歌这些科技巨头会成为 SB-1047 的最大受害者。

此外，美国加州这个地区在科技领域非常特殊，是谷歌、Meta、OpenAI、苹果、英特尔、特斯拉总部的所在地，也有斯坦福、加州大学伯克利、加州理工、南加州大学等全球顶尖的计算机名校，算是全球科技创新中心之一。一旦这个法案执行起来，不仅是大公司受到重创，就连一些初创的小企业也会受到巨大影响。

根据美国加州官网公布的否决消息显示，Gavin 州长表示 SB-1047 法案缺乏灵活性，像这种一刀切的方法会抑制在某些领域的创新和 AI 技术的发展，而且法案的规定可能难以实施，因为它们没有为不同类型的 AI 模型、应用提供明确的指导。保护公众免受 AI 技术真正威胁的最佳方法应该是更加细致和有针对性的，而不是一刀切的解决方案。

在这个积极否决的过程中，AI 界泰斗 - 吴恩达、图灵奖获得者-Yann LeCun、斯坦福教授 - 李飞飞等发挥了重要作用。尤其是吴恩达，曾多次在公开场合呼吁科技人士抵制该法案。

对于全球开发者来说今天也是个重要的日子，可以继续使用 Meta、谷歌等美国科技大厂开源的大模型啦。（@AIGC 开放者社区）

5、Nature 新研究：大模型越大，越爱胡说八道

Nature 刊文，研究发现大型 AI 模型如 GPT-4 等在升级后产生「脑雾」现象，误答率超 60%。即使精确度提高，AI 在无法回答时仍倾向生成错误答案，用户难以辨别真伪。专家建议 AI 应在人类难以解答问题时回应「不知道」以提高可靠性。（@ 智东西）

02 有态度的观点

1、Open AI 创始成员：好的科技像一台计算器

Tesla 前 AI 总监、OpenAI 创始团队成员 Andrej Karpathy（安德烈·卡帕斯），最近发文批判当下的科技大多都变得复杂、依赖性过高，且对用户不友好。

好的科技应该像计算器一样，自给自足，操作简单，可长期工作，无需更新，获取用户权限、收集数据等等。

而当下的技术发展，似乎趋向于复杂和用户不友好，这是否公司为了最大化股东价值而过度优化的结果。消费者和开发者应意识到技术发展的趋势，并通过消费选择和开发理念来推动技术回归简单、直接的理想状态。(@ APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

AI测试 实时语音交互中文基准首期测评出炉；美取消 SB-1047 法案，大模型厂商大难不死丨 RTE 开发者日报

AI测试 实时语音交互中文基准首期测评出炉；美取消 SB-1047 法案，大模型厂商大难不死丨 RTE 开发者日报

01 有话题的新闻

02 有态度的观点

AI测试实时语音交互中文基准首期测评出炉；美取消 SB-1047 法案，大模型厂商大难不死丨 RTE 开发者日报

AI测试实时语音交互中文基准首期测评出炉；美取消 SB-1047 法案，大模型厂商大难不死丨 RTE 开发者日报