AI测试 ChatGPT 支持语音实时搜索；Meta Ray-Ban 智能眼镜新增视频识别与实时语音翻译功能丨 RTE 开发者日报

RTE开发者社区 · 2024年12月17日 · 3676 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@ 鲍勃

01 有话题的新闻

1、Gemini 2.0 引入多语言原生音频输出

Google Deepmind 展示了 Gemini 2.0 Flash Experimental 的原生音频能力。视频中，Gemini 2.0 可以切换不同语言、使用不同语速、语调和情感说话；还支持使用 Prompt 的方式控制语音的输出结果。(@ Google Deepmind@X)

2、谷歌文生图 AI 模型 Imagen 3 再进化：多样艺术风格、构图更平衡

谷歌公司昨日（12 月 16 日）发布博文，在发布 Veo 2 视频生成模型之外，还增强了 Imagen 3 文生图 AI 模型，为用户带来更多花样的艺术风格。

谷歌表示 Imagen 3 是谷歌最强的文生图模型，在最新版本中添加了现实主义、幻想主义、肖像画等各种多样化艺术风格，并更精准地基于提示词转换，可以生成更明亮、构图更平衡的视觉效果。

谷歌 Imagen 3 还带来了更丰富的纹理、进一步增强了图片细节，在官方放出的测试中，超过了 OpenAI 的 DALL-E3 和 Flux 等主流模型。（@IT 之家）

02 有亮点的产品

1、月之暗面 Kimi 视觉思考版上线：基于 k1 模型打造可识别图片内容

月之暗面旗下人工智能助手 Kimi 已上线新功能——视觉思考版。这一更新使得 Kimi 能够对用户发送的图片进行细致的观察和深入分析，揭示图片背后的秘密。用户现在可以直接向 Kimi 提出问题，利用其视觉思考能力来解答疑惑。

据报道，Kimi 的视觉思考功能基于 k1 视觉思考模型打造，这使得它能够对图片内容进行智能分析，为用户提供准确的反馈。

例如，用户可以询问 Kimi 关于他们即将拍摄的照片的地点，Kimi 将根据图片内容给出猜测。此外，用户还可以发送截图给 Kimi，请求帮助解答图中的题目。这项新功能不仅增强了 Kimi 的交互能力，也为用户提供了更加直观和便捷的服务体验。（@AIbase 基地）

2、ChatGPT AI 搜索免费开放

北京时间今天凌晨，在 OpenAI 第八场发布会上，宣布向全球用户免费开放 ChatGPT Search。

本次更新的主要亮点包括：

高级语音模式现已支持实时网页搜索，并支持多语言实时翻译
- ChatGPT 能够智能判断是否需要执行网页搜索，用户也可通过点击 🌐 图标手动触发搜索
搜索结果中的视频可直接在 ChatGPT 聊天窗口中播放
支持将 ChatGPT Search 设为默认浏览器，提升网页导航效率
移动端搜索结果优化显示，包含完整商业信息描述和丰富视觉内容
iOS 设备集成原生苹果地图体验

根据投资公司 Evercore 在 9 月份对 1300 人进行的一项调查，有 8% 的受访者选择 ChatGPT 而不是 Google 作为他们首选的搜索引擎，相比之下，6 月份这一比例仅为 1%。那时更专业的 ChatGPT Search 功能尚未正式发布，便已经能从搜索市场份额身上撕咬下一块肉，收获如此多的忠实拥趸。

上个月，外媒 The Information 披露，OpenAI 正在筹划一款新产品，旨在将 AI 聊天机器人和网络浏览器相结合，为旅游、餐饮和房地产等领域的网站提供搜索功能。为了实现这一目标，OpenAI 甚至早些时候不惜重金挖来了 Google Chrome 团队的创始成员之一 Ben Goodger。(@ APPSO)

3、苹果将推出可折叠 iPad

近日，据彭博社记者 Mark Gurman 最新一期报道，苹果将在 2028 年推出可折叠 iPad，同时还将带来多款产品。

Gurman 提到，苹果目前正在研发一款介于手机和平板电脑、笔记本电脑的新形态产品，此款产品将会是可折叠的巨型 iPad，展开形态的尺寸可达两台 iPad Pro 并排的大小。

这款可折叠 iPad 目前已在内部打磨多年，并计划于 2028 年推向市场。Gurman 还猜测其将运行 iPadOS 的变体版版系统，甚至还将支持 MacOS 的软件。

Gurman 还透露了两款新产品，一款是新一代妙控鼠标。Gurman 的报道指出，苹果近几个月来一直在对妙控鼠标进行「全面改造」，使其设计「更适合现代」。Gurman 新的妙控鼠标会使用时会更加舒适，并且还会解决充电口的问题。不过他也表示，新款的妙控鼠标预计不会在「未来 12 到 18 个月」内发布，这意味着新的妙控鼠标至少要到 2026 年才能发布。

另外一款产品则是新款 AirTag ，该产品将配备新的 UWB 超宽频芯片，将定位范围提升至现有 AirTag 的三倍。(@ APPSO)

4、Meta 智能眼镜 Ray-Ban Meta 升级：实时 AI 视频与翻译功能

Meta 公司宣布对其 Ray-Ban Meta 智能眼镜进行了一次重大的更新，推出了多项基于人工智能的新功能，包括实时对话和语言翻译。这些新功能现已向美国和加拿大的早期体验用户开放，用户可以下载最新的固件版本 v11。

这次更新中最引人注目的「实时 AI」功能首次在秋季的 Meta Connect 开发者大会上亮相。该功能允许用户与 Meta 的 AI 助手进行持续对话，用户无需每次都说「嘿，Meta」来唤醒助手，而是可以随时打断 AI 进行后续提问或换话题。此外，用户还可以在佩戴眼镜时实时询问周围的环境，例如询问他们附近有什么。

在智能眼镜的实时 AI 视频功能上，Meta 已成为市场上的佼佼者。这项技术可以让用户在观看某物时询问 Meta 的 AI 关于该物品的信息，从而实现信息的即时获取。与之类似的技术，谷歌也计划推出 AR 眼镜，但尚未明确推出时间。

除了实时 AI 视频，固件 v11 还引入了实时翻译功能，支持英语与西班牙语、法语和意大利语之间的即时翻译。当用户与说这些语言的人交谈时，眼镜会通过开放耳扬声器将对方的讲话翻译成英语，并在用户的配对手机上显示文本内容。

此外，这次更新还新增了 Shazam 支持功能，用户只需说「嘿，Meta，识别这首歌」，眼镜便会尝试找到正在播放的音乐。尽管 Meta 对新功能充满信心，但仍提醒用户，实时 AI 和实时翻译可能会出现错误，Meta 表示会不断学习和改进，以提升用户体验。

值得一提的是，在去年 11 月，Meta 曾为 Ray-Ban Meta 推出过一次重大更新，向法国、意大利和西班牙的用户推出了一些 AI 能力。根据埃西洛尔 - 鲁克特（EssilorLuxottica）最近的报告，Ray-Ban Meta 在欧洲、中东和非洲的 60% 门店中成为了最畅销的眼镜品牌。（@AIbase 基地）

03 有态度的观点

1、前谷歌 CEO 埃里克 - 施密特：2-4 年后人工智能可能开始自我完善，我们应该考虑拔掉插头

埃里克 - 施密特在 Axios 的采访中提到说：「我们很快就能让计算机自行运行，决定自己要做什么。」

他说，当系统开始「自我完善」时，可能就是考虑关闭系统的时候了。当被问及一个强大的系统是否能对抗关闭它的努力时，施密特对美国广播公司的乔治 - 斯特凡诺普洛斯说：「从理论上讲，我们最好有人能把手放在插头上。」

他补充道：「这种智能的力量......意味着每个人的口袋里都将有一个相当于多面手的东西...我们只是不知道赋予每个人这种能力意味着什么。」

许多业内专家都对匆忙开发生成式人工智能的风险提出了警告。

施密特去年告诉《Axios》杂志，根据一些专家的说法，计算机做出自己的决定可能只需要两到四年的时间。

Axios 的迈克 - 艾伦（Mike Allen）和吉姆 - 范德海（Jim VandeHei）报道说，生成式人工智能的支持者和反对者都一致认为，最强大的模型最快明年就能以博士生的智力运行。

施密特告诉美国广播公司（ABC），在一两年内，系统也许就能自己做研究了。(@ Chubby@X)

2、诺贝尔物理学奖得主：AI 的发展应回归生物学

近日，诺奖得主 Hinton 在 Vector's Remarkable 2024 中发表了最新演讲，并认为 AI 得发展应回归生物学。

Hinton 在演讲中提到，要实现硬件制造的高效率，AI 或许应该回归生物学的本源，并利用现代基因工程技术将神经元转化为人类所需的计算单元。Hinton 还认为使用模拟计算将拥有显著的优势，尤其是在追求低功耗方面。

Hinton 还在问答环节提到，不要开放大模型的源代码。被问到 AI 是否发展速度过快时，Hinton 认为放慢发展速度既不现实，也不是关注的重点。大众真正应该关注的是，如何确保 AI 的发展是仁慈且和谐共生的，以便人类能够应对 AI 可能带来的生存威胁。(@ APPSO)

更多 Voice Agent 学习笔记：

帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨 Voice Agent 学习笔记

市场规模超 60 亿美元，语音如何改变对话式 AI？

2024 语音模型前沿研究整理，Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心，这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

语音 AI 革命：未来，消费者更可能倾向于与 AI 沟通，而非人工客服

语音 AI 迎来爆发期，也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

Voice-first，闭关做一款语音产品的思考｜社区来稿

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。