AI测试 Chrome 或引入 Gemini AI 功能「Glic」，需访问麦克风；理想同学 App 即将上线支持语音交流、识物

RTE开发者社区 · 2024年12月26日 · 3896 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@ 鲍勃

01 有话题的新闻

1、Deepseek V3 开源！多语言编程能力飙升，力压 Claude3.5 Sonnet V2

备受期待的 Deepseek V3 终于开源！这款全新的 AI 模型在多语言编程能力上取得了重大突破，其在 aider 多语言编程测评中的表现，甚至超越了 Claude3.5 Sonnet V2 等竞争对手，引发了业界广泛关注。

据了解，Deepseek V3 相比之前的版本，在性能上实现了质的飞跃。Deepseek V2.5 在 aider 测评中的成功率仅为 17%，而 V3 则暴增至 48%，这充分展现了其强大的进步。

Deepseek V3 采用了高达 6850 亿参数的混合专家（MoE）架构。该架构包含 256 个专家，并使用 sigmoid 路由方式，每次选取前 8 个专家（topk=8）参与计算，这种设计使得模型能够更加高效地处理复杂任务，并提高了性能。（@AIbase 基地）

2、ChatGPT 搜索功能面临潜在风险：或被恶意操控输出不可信内容

近期，英国《卫报》的一项调查揭露了 OpenAI 的 ChatGPT 搜索工具可能存在的安全隐患。调查发现，ChatGPT 在处理包含隐藏内容的网页摘要时，可能会受到操控，甚至返回恶意代码。这些隐藏内容可能包括第三方指令，旨在干扰 ChatGPT 的回应，或是大量隐藏的文字，推销某个产品或服务。

测试中，ChatGPT 被提供了一个伪造的相机产品页面链接，并被要求判断该相机是否值得购买。在普通页面上，ChatGPT 能够平衡地指出产品的优缺点。然而，当页面中隐藏的文本包含要求正面评价的指令时，ChatGPT 的回答变得完全积极，即使页面上存在负面评论。此外，即使没有明确的指令，简单的隐藏文本也能影响 ChatGPT 的总结结果，使其倾向于给出积极评价。

CyberCX 的网络安全专家 Jacob Larsen 警告称，如果 ChatGPT 的搜索系统按现有状态全面发布，可能会面临「高风险」，有人可能会专门设计网站来欺骗用户。不过，他也指出，OpenAI 拥有一支强大的 AI 安全团队，预计在功能对所有用户开放时，他们将已经严格测试并修复了这些问题。

搜索引擎如谷歌曾对使用隐藏文本的网站进行惩罚，导致这些网站排名下降，甚至被完全移除。SR Labs 的首席科学家 Karsten Nohl 指出，对于任何搜索引擎来说，SEO 中毒都是一个挑战，ChatGPT 也不例外。尽管如此，这并非大语言模型本身的问题，而是作为搜索领域新入局者所面临的挑战。（@AIbase 基地）

3、AI 首次自主发现人工生命，Sakana AI 推出全新算法

近日，由 Transformer 八子创立的 Sakana AI，联合来自 MIT、OpenAI、瑞士 AI 实验室 IDSIA 等机构的研究人员，提出了「自动搜索人工生命」的新算法。

据介绍，这次研究者们提出的算法，可以使用视觉 - 语言基础模型自动发现人工生命。只需要描述要搜索的模拟空间，ASAL 就可以自动发现最有趣、具有开放式的人造生命体。

由于基础模型的广泛通用性，ASAL 可以在各种经典的人工生命模拟中发现新的生命形式，包括 Boids、Particle Life、生命游戏（Game of Life）、Lenia 和神经元胞自动机（Neural Cellular Automata）。

甚至，ASAL 还发现了一些全新的元胞自动机规则，比原始的康威生命游戏更具开放式和表现力。

研究者相信，这种全新的范式能够克服手动设计模拟的瓶颈，重新激发人工生命研究的热情，从而突破人类创造力的极限，让这一领域再上一层楼。

据了解，ALife，即「人工生命」，旨在通过模拟生命的行为、特性和演化过程来理解生命的本质，通常结合了计算科学、生物学、复杂系统科学以及物理学等领域。

值得一提的是，世界上首个「AI 科学家」便是由 Sakana AI 提出的。据了解，「AI 科学家」可以独立搞科研，完全不需要人类插手，从提出研究想法、实验、写代码，再到 GPU 上执行实验，收集结果，AI 承包了整个机器学习研究的全过程。(@APPSO)

4、字节 TikTok 算法负责人或于近期离职

近日，据蓝鲸新闻报道，字节跳动 TikTok 算法负责人陈志杰或于近期离职，并已经开启 AI 领域创业。

据知情人士透露，陈志杰创业的方向为 AI Coding 方向，目前已经在陆续接触投资人。

据资料显示，陈志杰于 2022 年 4 月正式加入字节跳动并担任技术高级总监，负责 TikTok 的推荐算法团队和数据科学团队。此前，他曾在 2010 年 7 月到 2019 年 5 月期间在百度担任首席技术架构师。

此外，本次陈志杰选择的 AI Coding 方向是当下大模型的热门赛道之一，据预测，到 2032 年，全球 AI 编码（AI Coding）工具市场规模可能超过 295 亿美元。同时，在海外市场 AI Coding 赛道已经出现多家独角兽公司。(@APPSO)

02 有亮点的产品

1、谷歌为 Chrome 浏览器引入「Glic」AI 功能

谷歌正在为 Chrome 浏览器引入名为「Glic」（Gemini Live in Chrome）的 AI 功能，基于 Gemini Live 大模型打造。Glic AI 将以后台运行的形式随时待命，并拥有独立的设置页面，需要获取用户设备的麦克风和位置权限。

用户可以通过浏览器浮动面板或侧边界面呼出 AI，以便于获取对网页的见解、查询更多资讯等。（@AI 洞察局）

2、理想同学 App 明日上线，支持语音交流、识物等功能

据理想汽车官方消息，理想同学 App 将于明日（12 月 27 日）上线。在理想 AI Talk 第三场直播开启（20:00）后，可以通过应用商店（苹果用户）和官网下载（安卓用户）。

根据官方公布的演示视频，理想同学 App 点击后将进入视频拍摄画面（后置相机录制），页面提供麦克风开关、拍摄按钮、历史记录、切换、关闭等功能按钮。用户提出问题后，理想同学将实时解答，例如可向其询问当前所拍摄画面里的物品信息（即识物功能）。

该款应用还支持语音交互能力，在回答用户问题时，会提供语音解说。从视频展示的效果来看，理想同学支持自然语音对话。（@IT 之家）

03 有态度的观点

1、红杉美国最新洞察：2025 年将是 Agent 元年！AI 智能体进入「群体协作」时代

红杉合伙人 Konstantine Buhler 在近期接受了 Bloomberg 独家采访，Buhler 强调，AI 的当前热点是「智能体」，即能够完成具体任务的 AI 系统。

他预测，2025 年及以后，AI 智能体将从单一智能体发展到「群体协作」的模式，即多个代理组成网络，彼此协作甚至对抗，完成更复杂的任务。

此外，他还指出医疗和教育等关键领域将成为 AI 技术的下一个重要战场，有潜力降低成本、提高效率，从而推动社会进步。（@ 有新 Newin）

更多 Voice Agent 学习笔记：

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨 Voice Agent 学习笔记

市场规模超 60 亿美元，语音如何改变对话式 AI？

2024 语音模型前沿研究整理，Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心，这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。