就在上周,三星 Galaxy S25 系列全球首发。基于最新 Galaxy AI 的三星 Galaxy S25 系列手机是三星在全球范围内首次推出具有视频通话功能的原生 AI 智能硬件产品。

三星 Galaxy S25 系列背后的智谱最新实时音视频通话 GLM-Realtime 模型,今天已经以插件形式接入 TEN。现在你可以用 TEN + GLM-Realtime 搭建自己的语音 AI Agent 了!

用 GLM-Realtime 在 TEN 上让 AI 送给自己一首生日快乐歌

智谱实时音视频通话:GLM-Realtime 模型介绍

GLM-Realtime API 能够提供实时的视频通话功能,具有跨文本、音频和视频进行实时推理的能力,AI 可以进行流畅的通话,人可以实时打断 AI。除了实时音频交互外,Realtime 还可通过手机或 AIPC 的摄像头与人互动,通过共享电脑屏幕阅读页面信息,通过视频流理解对话当前的环境。

体验中心:https://open.bigmodel.cn/trialcenter/audiovideocall/experience
接口文档:https://open.bigmodel.cn/dev/api/rtav/GLM-Realtime

TEN Framework:主流对话式 Voice Agent 开源框架

基于 TEN,你可以搭建任何 Voice Agent,让你的 AI 能听能说!

TEN 的模块化设计和多模态数据传输优化,帮助开发者快速落地可生产使用的 voice agent。同时基于终端接入网络(lastmile)优化,以及音视频采集优化、3A、音视频编解码等技术,TEN 框架提供了内置 rtc 的解决方案,解决了音视频交互最后一公里的问题,确保 voice agent 的体验和交互质量。

Key Feature:

TEN+GLM 在线快速体验👇

打开体验链接:

1、https://ten.rtcdeveloper.cn/

2、 选择 “Voice Agent GLM Realtime”

3、点击 “connet”,开始你的 Voice Agent 体验😉

*GLM-Realtime 视频理解能力 3 月份上线,欢迎大家关注我们的 github 获取最新动态~
https://github.com/TEN-framework/TEN-Agent

TEN 本地部署指南

将仓库 https://github.com/TEN-framework/TEN-Agent.git git clone 到本地后:

  1. 创建 .env 文件 cp ./.env.example ./.env
  2. 在 .env 中设置 Agora 应用 ID 和应用证书 AGORA_APP_ID=AGORA_APP_CERTIFICATE=
  3. 启动代理开发容器 docker compose up -d
  4. 进入容器 docker exec -it ten_agent_dev bash
  5. 构建代理 task use
  6. 启动网络服务器 task run
  7. 编辑开发环境设置在 localhost:3000 打开开发环境来配置你的代理。

正确启动后,你应该能看到如下界面:

选择 graph “voice_assistant_realtime” 之后,点击 Module Picker 打开模块选择器

从下拉框选择 “GLM Realtime”,然后点击 “Save Change” 保存。

保存成功后,点击 Property Editor 打开属性编辑器,选择配置 “v2v” 模块,找到 “api_key” 属性,填入你的智谱 API Key,保存即可。

点击连接按钮,开始你的 realtime 探索之旅!

智谱 X RTE 开发者社区 2000 万 Tokens 福利,开发无负担!

智谱开放平台为 RTE 开发者社区准备了 2000 万免费资源包福利,方便 RTE 社区和 TEN 社区开发者进行 AI Agent 的打造。0 元领取,限量 200 份,可适用于所有智谱开放平台的推理模型。

使用期限:领取后 3 个月有效

获取方式:访问访问如下链接/扫描二维码领取资源包后,可以在 bigmodel.cn【我的资源包列表】中查看
https://bigmodel.cn/tokenspropay?productIds=product-086

直播预告:来和智谱和 TEN 交流!

同期我们会在 2 月 27 日(周四)晚举办一期直播交流会,欢迎对 GLM-Realtime 和 TEN Framework 感兴趣的开发者预约加入。

关于智谱开放平台

智谱 BigModel 开放平台 基于智谱大模型的模型能力,致力于为企业和开发者提供便利的大模型接入服务、丰富的大模型能力场景、专业的大模型解决方案,助力开发者与企业共同探索大模型落地应用的未来。官网地址:Bigmodel.cn

关于 RTE 开放者社区介绍

RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。官网:rtecommunity.dev

更多 Voice Agent 学习笔记:

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流