就在上周,三星 Galaxy S25 系列全球首发。基于最新 Galaxy AI 的三星 Galaxy S25 系列手机是三星在全球范围内首次推出具有视频通话功能的原生 AI 智能硬件产品。
三星 Galaxy S25 系列背后的智谱最新实时音视频通话 GLM-Realtime 模型,今天已经以插件形式接入 TEN。现在你可以用 TEN + GLM-Realtime 搭建自己的语音 AI Agent 了!
用 GLM-Realtime 在 TEN 上让 AI 送给自己一首生日快乐歌
GLM-Realtime API 能够提供实时的视频通话功能,具有跨文本、音频和视频进行实时推理的能力,AI 可以进行流畅的通话,人可以实时打断 AI。除了实时音频交互外,Realtime 还可通过手机或 AIPC 的摄像头与人互动,通过共享电脑屏幕阅读页面信息,通过视频流理解对话当前的环境。
体验中心:https://open.bigmodel.cn/trialcenter/audiovideocall/experience
接口文档:https://open.bigmodel.cn/dev/api/rtav/GLM-Realtime
基于 TEN,你可以搭建任何 Voice Agent,让你的 AI 能听能说!
TEN 的模块化设计和多模态数据传输优化,帮助开发者快速落地可生产使用的 voice agent。同时基于终端接入网络(lastmile)优化,以及音视频采集优化、3A、音视频编解码等技术,TEN 框架提供了内置 rtc 的解决方案,解决了音视频交互最后一公里的问题,确保 voice agent 的体验和交互质量。
Key Feature:
支持多模态与端到端模型,满足语音、文本和图像的输入与输出
内置优化后的实时通信能力,提供低延时、可打断的交互体验
集成全球主流 STT、LLM 和 TTS 等插件,灵活编排、快速开发
支持 C++, Go, Python, Node.JS 等主流语言,Agent 可跨平台无缝衔接
TEN+GLM 在线快速体验👇
打开体验链接:
1、https://ten.rtcdeveloper.cn/
2、 选择 “Voice Agent GLM Realtime”
3、点击 “connet”,开始你的 Voice Agent 体验😉
*GLM-Realtime 视频理解能力 3 月份上线,欢迎大家关注我们的 github 获取最新动态~
https://github.com/TEN-framework/TEN-Agent
将仓库 https://github.com/TEN-framework/TEN-Agent.git git clone 到本地后:
正确启动后,你应该能看到如下界面:
选择 graph “voice_assistant_realtime” 之后,点击 Module Picker 打开模块选择器
从下拉框选择 “GLM Realtime”,然后点击 “Save Change” 保存。
保存成功后,点击 Property Editor 打开属性编辑器,选择配置 “v2v” 模块,找到 “api_key” 属性,填入你的智谱 API Key,保存即可。
点击连接按钮,开始你的 realtime 探索之旅!
智谱开放平台为 RTE 开发者社区准备了 2000 万免费资源包福利,方便 RTE 社区和 TEN 社区开发者进行 AI Agent 的打造。0 元领取,限量 200 份,可适用于所有智谱开放平台的推理模型。
使用期限:领取后 3 个月有效
获取方式:访问访问如下链接/扫描二维码领取资源包后,可以在 bigmodel.cn【我的资源包列表】中查看
https://bigmodel.cn/tokenspropay?productIds=product-086
同期我们会在 2 月 27 日(周四)晚举办一期直播交流会,欢迎对 GLM-Realtime 和 TEN Framework 感兴趣的开发者预约加入。
智谱 BigModel 开放平台 基于智谱大模型的模型能力,致力于为企业和开发者提供便利的大模型接入服务、丰富的大模型能力场景、专业的大模型解决方案,助力开发者与企业共同探索大模型落地应用的未来。官网地址:Bigmodel.cn
RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。官网:rtecommunity.dev
更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻