开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@ 鲍勃

01 有话题的新闻

1、Google PaliGemma 2-新增情绪识别能力，引发相关思考

12 月 8 日消息，谷歌表示，其新的人工智能模型系列有一个奇特的功能：能够「识别」情绪。

谷歌周四发布了其最新 AI 模型系列 PaliGemma 2，该模型具备图像分析能力，可以生成图像描述并回答有关照片中人物的问题。谷歌在其博客中介绍，PaliGemma 2 不仅能识别物体，还能生成详细且与上下文相关的图片说明，涵盖动作、情感以及整体场景的叙述。

PaliGemma 2 的情感识别功能并非开箱即用，需要进行专门的微调，但专家们仍然对此表示担忧。

多年来，许多科技公司一直在尝试开发能够识别情感的 AI，尽管一些公司声称已经取得突破，但这一技术的基础仍然存在争议。大多数情感识别系统都基于心理学家 Paul Ekman 的理论，即人类有六种基本情绪：愤怒、惊讶、厌恶、喜悦、恐惧和悲伤。然而后续的研究表明，来自不同文化背景的人们在表达情感时存在显著差异，这使得情感识别的普遍性受到质疑。

情感识别系统的另一个问题是其可靠性和偏见。一些研究表明，面部分析模型可能会对某些表情（如微笑）产生偏好，而最近的研究则表明，情感分析模型对黑人面孔的负面情绪判断比白人面孔更多。

谷歌表示，PaliGemma 2 在进行「广泛测试」后，评估了其在人群偏见方面的表现，结果显示其「毒性和粗俗内容的水平低于行业基准」。但该公司并未公开测试所依据的完整基准，也没有明确表示所进行的测试类型。谷歌披露的唯一基准是 FairFace——一个包含数万张人像的面部数据集。谷歌声称，PaliGemma 2 在该数据集上的表现良好，但一些研究者批评 FairFace 存在偏见，认为该数据集仅代表少数几种族群。（@ 极客公园）

2、Meta 今年压轴开源 AI 模型 Llama 3.3 登场：700 亿参数，性能比肩 4050 亿

Meta 于上周发布 Llama 3.3，共有 700 亿参数，不过性能方面媲美拥有 4050 亿参数的 Llama 3.1。

Meta 强调 Llama 3.3 模型效率更高、成本更低，可以在标准工作站上运行，降低运营成本的同时，提供高质量文本 AI 解决方案。

Llama 3.3 模型重点优化了多语言支持，支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语 8 种语言。

在架构方面，Llama 3.3 是一款自回归（auto-regressive）语言模型，使用优化的 transformer 架构，其微调版本使用了监督式微调（SFT）和基于人类反馈的强化学习（RLHF），让其与人类对有用性和安全性的偏好保持一致。

Llama 3.3 上下文长度为 128K，支持多种工具使用格式，可与外部工具和服务集成，扩展模型的功能。

安全方面，Meta 采用数据过滤、模型微调和系统级安全防护等措施，以降低模型滥用的风险；此外 Meta 鼓励开发者在部署 Llama 3.3 时采取必要的安全措施，例如 Llama Guard 3、Prompt Guard 和 Code Shield，以确保模型的负责任使用。（@IT 之家）

3、消息称阿里大模型核心人物跳槽字节，年薪高达八位数

12 月 6 日，关于「字节跳动以八位数年薪挖走阿里大模型人才」的消息迅速引发社交平台热议。据报道，阿里巴巴原「通义千问」大模型技术负责人周畅（花名：钟煌）于今年 7 月 18 日宣布离职创业，但仅两个月后，便有消息称周畅已低调加入字节跳动。

这一消息得到字节跳动相关人士的证实。据悉，周畅的跳槽并非单人行动，他的团队也有十多人随他一同加盟字节跳动。根据第一财经的报道，字节为周畅提供了一份几乎无法拒绝的合同：职位为 4-2 职级，年薪达到八位数（按阿里职级体系计算，相当于连跳两级，薪资翻倍）。同样，他的团队成员也都获得了 4-1、3-2 的职级，折算为阿里 P10、P9 的级别。

周畅自 2020 年起在阿里巴巴达摩院工作，带领团队研发了名为 M6 的多模态大模型，并在 2023 年随着 ChatGPT 的流行，基于 M6 模型开发出了「通义千问」大模型。通义千问如今已成为阿里通义系列 AI 产品的核心技术，周畅因此被誉为「最懂阿里大模型的人」。（@AIbase 基地）

02 有亮点的产品

1、OpenAI 即将发布全新 Sora 视频生成器，支持多种生成方式

近日，OpenAI 在伦敦 C21Media 大会上透露，公司的 Sora 视频生成器即将推出更新版本。OpenAI 的代表查德・尼尔森在会上表示，这款新版本将会支持三种视频生成方式，具体包括：文字生成视频、文字和图像生成视频，以及文字和视频生成视频，每个视频的时长可达一分钟。

据了解，Sora 视频生成器的升级版在效率和速度上都有所提升，相关的 API 泄漏信息也证实了这一点。此次更新将极大地丰富用户的视频创作体验，使他们能够更加灵活地使用各种输入形式，生成多样化的视频内容。

根据目前的信息，OpenAI 可能会在 12 月的冬季推广活动中正式发布这一新版本，预计发布的时间可能会早至下周一。同时，OpenAI 还可能会在此次活动中宣布其他重要更新，包括 GPT-4.5 版本以及为 GPT-4o 提供的新图像功能。这一系列更新无疑将进一步推动人工智能技术在创作领域的应用，吸引更多用户的关注和参与。

随着 AI 技术的快速发展，视频生成工具的普及化也在逐渐成为趋势。OpenAI 作为这一领域的领军者之一，其 Sora 视频生成器的更新无疑将成为行业内的热点话题，值得期待。（@AIbase 基地）

2、苹果 iOS 18.2 RC 版更新：Siri 接入 ChatGPT

苹果公司上周向 iPhone 用户推出了 iOS18.2RC 版本的系统更新，这一准正式版更新标志着苹果在用户体验上的又一次重大进步。更新的核心在于对 Apple Intelligence 的进一步完善，尤其是引入了全新的 Visual Intelligence 视觉智能功能，这项技术能够让用户通过手机摄像头识别物体并获取更多相关信息。

对于 iPhone16 系列用户来说，这次更新尤为重要。例如，用户只需将手机摄像头对准建筑物并长按拍照按钮，Visual Intelligence 便能提供该建筑物的地理位置信息。而对于餐厅等场所，该功能还能展示其营业时间和菜单等实用信息。

在 Siri 方面，苹果也进行了创新。全新的 Siri 将整合 ChatGPT 技术，以更智能地回答用户的问题。在调用 ChatGPT 之前，Siri 会先征得用户的同意，确保用户的隐私和选择权得到尊重。

除了上述功能，iOS18.2RC 版本还新增了 Image Playground 等多种 Apple Intelligence 功能，进一步丰富了用户的智能体验。

然而，目前国行用户和许多非英语用户还无法享受 Apple Intelligence 的全部功能。苹果计划在未来一年内，逐步推出包括中文、印度英语、法语、德语、日语在内的多语言版本的 Apple Intelligence。

此外，据最新爆料，苹果已确认与百度合作，计划将百度作为国行版本的 ChatGPT 替代方案。不过，双方合作目前遇到了一些障碍，导致原定的上线时间被推迟。尽管如此，苹果仍在积极推进这一合作，以期为国行用户提供更加丰富的智能服务体验。（@AIbase 基地）

3、Salesforce 收购 Tenyx，强化语音 AI 布局，巩固客户服务地位

Tenyx 的智能语音代理技术旨在解决传统语音交互系统的痛点。通过融合大型语言模型（LLM）和先进的语音技术，Tenyx 为企业提供更智能、更高效的对话体验。

在今年 9 月被 Salesforce 收购之前，Tenyx 曾获得 1500 万美元融资。此次收购将凭借 Tenyx 领先的语音代理技术，进一步巩固 Salesforce 在全球 CRM 市场的领导地位。

兼顾实时性与准确性

Tenyx 的核心产品面向企业级市场，注重高准确度和实时响应。在传统的呼叫中心、销售支持和医疗服务等领域，语音代理需要实时响应用户需求并确保信息准确。Tenyx 专注于边缘场景的准确性、RAG 工作流程优化以及延迟控制，有效解决了企业在语音交互中面临的常见挑战。

打造安全、可扩展的定制化体验

Tenyx 的 AI 核心采用多 LLM 架构，支持持续学习。该公司在大型语言模型方面的创新研究，例如几何特性探索和灾难性遗忘问题的解决，为企业提供了可靠的模型微调方案。

语音代理的快速部署与灵活扩展

企业级客户通常需要语音代理系统具备快速部署和动态扩展的能力。Tenyx 能够在数周内提供定制化演示，并在一个月内完成全面部署，展现了其快速响应市场需求的优势。此外，Tenyx 的语音代理可以根据呼叫量的变化灵活扩展，轻松适应大规模运营环境下的各种需求。(@Z potentials)

03 有态度的观点

1、a16z 对话机器学习领军人物：即便只达到 AGI 的 10%，也会显著改变世界

a16z 合伙人 Martin Casado 与机器学习研究的领军人物 Pedro Domingos 近期在一档播客中谈论了对 AI 的看法。Pedro 是华盛顿大学的名誉教授，自 20 世纪 90 年代以来一直活跃于机器学习领域，著有 2015 年广受欢迎的书籍《万能算法》（The Master Algorithm）。

Domingos 认为尽管 AI 研究取得了显著进展，尤其是在大型语言模型和扩展法则方面，但这只是「通往局部最优的冲刺」，距离实现真正的通用人工智能（AGI）还有很大差距。他主张我们需要突破性的全新思路，而不仅仅是扩展现有模型，强调多种研究方法的重要性。

尽管他认可当前的重大进步，Domingos 提倡一种更全面、少依赖数据的方法来实现 AGI，指出目前在 AI 数据中心的大量投资可能是有误的。他对 AI 的未来持谨慎乐观态度，预计在未来几年将有显著进展，同时警告应警惕该领域过度的炒作。

Domingos 深信 AI 是一场马拉松，而非短跑。若能够在六个月内解决 AI 的问题，那就是认为 AI 问题只是规模化的问题。「如果只是规模化，那么我所做的事情就完全是在浪费时间，但我真的认为我们需要根本性的全新想法。」

Domingos 指出，虽然如今的研究比以往任何时候都多，但实际上却比以前更单一化，话虽如此，Domingos 还是相信，即便只是达到 AGI 的 10%，也会显著改变世界。(@Z potentials)

更多 Voice Agent 学习笔记：

2024 语音模型前沿研究整理，Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心，这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

语音 AI 革命：未来，消费者更可能倾向于与 AI 沟通，而非人工客服

语音 AI 迎来爆发期，也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

Voice-first，闭关做一款语音产品的思考｜社区来稿

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

↙↙↙阅读原文可查看相关链接，并与作者交流