开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@JLT，@ 鲍勃

01 有话题的新闻

1、对标 GPT-4o！法国开源 AI 实验室发布多模态大模型 Moshi

Moshi 演示回放：https://www.youtube.com/live/hm2IJSKcYvo

7 月 4 日凌晨，法国知名开源 AI 研究实验室 Kyutai 在官网发布了，具备看、听、说多模态大模型——Moshi。

Moshi 功能与 OpenAI 在 5 月 14 日展示的最新模型 GPT-4o 差不多，可以听取人的语音提问后进行实时推理回答内容。但 GPT-4o 的语音模式要在秋天才能全面开放使用，而 Moshi 已经提供使用了。

Moshi 不锁区，填写一个邮箱地址就能直接使用，无需任何等待。值得一提的是，Moshi 是支持手机移动端使用的，只不过对普通话支持较差，最好使用英语提问。（@AIGC 开放社区）

2、CAMB.AI 发布突破性 AI 语音合成技术 MARS5，支持克隆推理

CAMB.AI 推出了先进的英文语音合成模型 MARS5，采用创新的两阶段自回归 - 非自回归流程。该模型仅需 5 秒音频和文本片段即可生成适用于多种场景的高质量语音，支持 140 多种语言，并可通过标点和大小写控制语调。

MARS5 提供了快速的「浅层克隆」和高质量的「深度克隆」两种推理方式，用户可根据需求选择。该模型在 GNU AGPL 3.0 许可下开源，同时也提供 API 调用。CAMB.AI 团队计划持续优化模型性能，并鼓励社区贡献。（@AI 科技评论）

3、苹果 Vision Pro 头显新专利探索「头控」方案，可调音量、亮度等

7 月 3 日消息，根据美国专利商标局最新公示清单，苹果公司申请了一项与 Vision Pro 头显相关的新型专利。该专利涉及头部控制方案，可替代手势和眼球追踪技术。

根据专利描述，佩戴者可通过倾斜或转动头部来移动屏幕上的滑块，从而调整音量和亮度等参数。这项新技术为双手不便的 Vision Pro 头显用户提供了新的操作方式：只需通过头部和观察事物即可控制头显上的一切功能。

然而，需要指出的是，在实现这一技术时可能会引发晕动症问题。因此尚不清楚苹果未来是否会将该专利应用于 Vision Pro 产品的生产中。（@ 中关村在线）

4、AI 音乐生成器 Suno 推出 iOS 应用程序

AI 音乐生成器 Suno 推出了一个新的 iOS 应用，允许用户在 iPhone 上使用文本、自己的声音或者器乐来创作完整的歌曲。

目前 Suno 的 App 只适用于美国的 iPhone，但 Suno 表示它将在未来进入其他国家和地区并推出 Android 版本，并会带来一些「有趣的更新」。（@ 爱范儿）

5、智谱清言智能体更新定制 UI 组件、多平台发布功能

昨日，AI 助手智谱清言宣布清言智能体迎来两大更新：新增定制 UI 组件和支持多平台发布。

智能体的界面定制新增「定制 UI 组件」功能，可选择单/多行文本、段落、分类、下拉等不同组件，满足创作者与用户的个性化需求，引导用户沉浸式使用智能体。

清言智能体可以自定义配置第三方平台，自由调用 api 发布。以微信公众号为例，只需点击「配置」键，扫码授权就能把智能体接入公众号，实现后台免费的 AI 回复。（@ 爱范儿）

02 有态度的观点

1、对话腾讯汤道生：AI 不止于大模型

腾讯云与智慧产业事业群 CEO 汤道生认为，AI 领域不应只关注大模型，企业应保持开放态度，关注多种技术路线。腾讯在 AI 投入上采取有节奏的长期策略，通过「721」方法分配资源，即 70% 投入核心业务，20% 投入发展中产品，10% 投向前沿技术。

汤道生强调，腾讯高层对技术变革保持高度敏感，通过亲身体验产品来获取反馈，指引团队前进的方向。（@ 腾讯新闻潜望）

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

↙↙↙阅读原文可查看相关链接，并与作者交流