开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@ 鲍勃

01 有话题的技术

1、OpenAl 发布 Agent 工具包,网友:谢谢 Manus AI

OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易创建能自动完成任务的 AI Agents(智能体)。OpenAI 认为虽然过去一年推出的高级推理、多模态交互等模型能力为 Agent 奠定了基础,但开发者在构建生产级 Agent 时,还是会遇到不少难题。为此,他们今天特地发布了全新的 Responses API、三种内置工具以及以及一个开源的 Agents SDK。

省流版如下:

具体来说,Responses API 结合了 Chat Completions API(主要用来生成对话回复)的简洁性和 Assistants API(能让 AI 调用外部功能,比如查资料、操作东西)的工具使用能力,成为构建 Agent 应用的新基础。开发者只需调用一次 API ,即可利用多种工具和多轮模型交互解决复杂任务。

OpenAI 还推出了开源的 Agents SDK,专门用来简化多 Agent 工作流程的编排。相比去年发布的实验性 Swarm 框架,这个全新 SDK 有了显著的改进。提供易于配置的 LLM 与内置工具集成、Agent 间智能交接控制、可配置安全检查以及可视化追踪等功能,适用于客户支持自动化、多步研究、内容生成等多种应用场景。(@APPSO)

2、Manus 与阿里通义千问团队达成战略合作

3 月 11 日,Manus 官方微博宣布,与阿里通义千问团队正式达成战略合作。双方将基于通义千问系列开源模型,在国产模型和算力平台上实现 Manus 的全部功能。

Manus 是由创业公司 Monica 发布的首款 AI Agent 产品,最近在社交媒体火爆出圈。

早些时候,Manus 创始人季逸超在社交平台透露,Manus 产品使用了不同的基于阿里千问大模型(Qwen)的微调模型。(@ 快科技)

3、Cartesia 升级 TTS 模型 Sonic 2.0,延迟 40 毫秒

Sonic 2.0 基于 Cartesia 新的状态空间模型架构构建,被描述为目前最快且最可控的语音模型。尽管是原始 Sonic 模型的两倍大,但 Sonic 2.0 的运行速度更快,完整模型的延迟仅为 90 毫秒,Turbo 模式的延迟仅为 40 毫秒 。在对 100 个不同声音进行的盲测中,Sonic 2.0 比下一个最佳提供商获得了 1.5 倍的用户青睐。

除了速度和质量的提升之外,Sonic 2.0 还提供了对语音生成的空前控制,具有一流的语音克隆能力,可以准确地捕捉复杂的口音和丰富的音频音景。Cartesia 还为 Sonic 2.0 引入了两个新的、强大的功能模块:语音转换器,旨在完善音频的风格和声音;以及填充功能,用于在音频中无缝编辑内容。(@cartesia.ai)

02 有亮点的产品

1、Meta 携手雷朋为时尚品牌 Coperni 推出透明版智能眼镜:限量 3600 副、售价 549 美元

3 月 10 日,Meta 发布博文,宣布携手雷朋(Ray-Ban),为巴黎时装周推出「Ray-Ban Meta x Coperni Limited Edition」,全球采用透明黑色框架和灰色镜面镜片,限量 3600 副,售价 549 美元(约 3986 元人民币)。

(图片来源:Meta)

据了解,这款眼镜采用透明黑色框架,镜臂上印有 Coperni 标志,整体设计简约而高级,全球仅发售 3600 副,售完即止,目前仅在 Ray-Ban 官网有货。虽然外观升级,但内部配置与功能与普通版 Ray-Ban Meta 智能眼镜一致。

Coperni 本次秀场以「数字社区」为主题,与 Meta 的科技理念不谋而合。秀场还特别举办了一场 200 人参与的 24 小时 LAN 派对,进一步呼应了这一主题。模特们在走秀时佩戴 Ray-Ban Meta x Coperni 限量版眼镜,展示了其免提录制功能,将科技与时尚完美融合。

此外,Meta 计划在 2025 年为 Ray-Ban 智能眼镜添加显示屏,并引入类似 Google Project Astra 的「Live AI」功能,这些创新将进一步推动智能眼镜在日常生活和时尚领域的应用。(@Meta、IT 之家)

2、索尼 AI 游戏角色原型曝光:结合语音与动画,与玩家实时对话

IT 之家 3 月 11 日消息,科技媒体 The Verge 今天(3 月 11 日)发布博文,报道称索尼公司正开发由 AI 驱动的 PlayStation 游戏角色,并分享了一段时长 1 分钟的视频,展示了《地平线:西之绝境》(Horizon Forbidden West)游戏中的 AI 版角色埃洛伊(Aloy)。

该视频由索尼互动娱乐的软件工程总监 Sharwin Raghoebardajal 解说,展示了 Aloy 如何通过语音提示与玩家对话。尽管这只是原型技术,但它预示着 AI 在游戏开发中的巨大潜力。

该原型使用了 OpenAI 的 Whisper 进行语音转文字,GPT-4 和 Llama 3 用于对话和决策。索尼还开发了内部的情感语音合成系统(EVS)和 Mockingbird 技术,用于语音生成和面部动画。(@IT 之家)

03 有态度的观点

1、复旦副教授:人工智能的发展高潮尚未结束

近日,复旦大学大数据学院的魏忠钰副教授接受《追问》的采访,双方从基础研究到产业落地探讨,层层揭示 AI 崛起与迭代的内在逻辑。在谈及「初创公司是否应选择智能体作为入局方式」时,魏忠钰教授认可这一基本论断,同时其表示对于初创公司来说,如果现在再去开发基础模型能力,一方面很难与已经建立技术基础或数据基础的公司竞争,另一方面也难以获得足够的资源来进行基础模型的开发。因此,选择一些特定领域的应用,可能是一个相对明智的方向。同时,魏忠钰教授认为,针对特定领域的专有化能力建构始终是必要的,其中数据是关键之一。

魏忠钰教授提到,许多专业化场景的数据都涉及隐私保护,无法在网络上或通用场景中轻易获取,而模型能力建构很大程度依赖于数据,如果这些数据无法被通用模型获取,那么拥有这些数据的领域从业者就具备了独特的优势。最后,魏忠钰教授还分享了自己对未来的看法。其认为人工智能的发展高潮尚未结束,未来一段时间内,它在其他领域的成果会逐渐显现。因此,在神经科学和脑科学领域,人工智能也必将产生实质性的影响。关注人工智能相关技术对下一步的发展至关重要。(@ APPSO)

更多 Voice Agent 学习笔记:

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流