开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@ 鲍勃
1、不说人话,AI 有自己的通信协议
随着 AI 技术的普及,越来越多的 AI 开始执行拨打和接听电话的任务。在这种情况下,AI 之间不可避免地需要通过电话进行交流。然而,传统的人类语言通信方式在 AI 之间的对话中存在明显缺陷,比如时间效率低下、语音生成的计算成本高昂,且容易出错。
针对这些问题,由软件工程师 Boris Starkov 和 Anton Pidkuiko 开发的 Gibberlink 提出了一种新思路——让 AI 从语音级别转移到声音级别协议来相互通信。 虽然人类可以听到两个 AI 开始使用人类听不懂的「语言」进行沟通,但没有专门设备或软件则无法理解其中包含的信息。
Gibberlink 的核心工作原理建立在一套智能识别机制上。具体来说,当 AI 与人类交谈时,它会坚持使用常规语音。当检测到另一方也是 AI 代理时,会主动建议切换到声音级协议,如果对方接受这一建议,双方将切换到基于 GGWave 库的声音级协议进行通信。
整个协议设计有标准化消息格式和严格的数据交换结构,以最大程度降低误解风险和潜在安全漏洞。Gibberlink 带来的好处有很多,比如通过避免语音生成环节,Gibberlink 减少了 90% 以上的计算成本,这对于大规模 AI 部署具有重要意义,以及相同信息的传递时间最多可缩短 80%,大大加快 AI 间的交互速度。( @APPSO)
2、杭州国资押注大模型,智谱 AI 获超 10 亿元战略融资
国内大模型独角兽智谱 AI 近日完成逾 10 亿元人民币战略融资,本轮投资方包括杭州城投产业基金、上城资本等地方国资平台。新募资金将重点投向 GLM 大模型技术研发体系构建及开发者生态建设。天眼查 App 显示,智谱 AI 已在杭州成立子公司,以 4.5 亿元注册资本剑指区域数字经济建设。
作为清华系 AI 企业的代表,智谱 AI 的技术演进轨迹勾勒出国产大模型的突围路径。从 2021 年发布百亿参数模型 GLM-10B,到 2024 年推出对标 GPT-4 的 GLM-4 系列,其自主研发的 GLM 架构已形成涵盖基座模型、多模态、Agent 等完整技术矩阵。值得关注的是,GLM 预训练架构实现了从理论到工具链的全栈自主创新,成功兼容 40 余种国产 GPU 芯片,打通了信创替代的关键堵点。
从去年开始,智谱 AI 的商业化进程驶入快车道。从一开始,他们就围绕大模型能力去落地,构建了多种服务模式,如 MaaS(软件即服务)、私有化部署、智能体平台等,形成了包含百万规模开发者的模型服务新生态。
除了主要面向企业,与消费电子厂商合作,将 Agent 落地于硬件也是智谱 AI 重要的商业化方向之一。今年 1 月,OpenAI 先后推出 Agent Operator、Deep Research , 引发行业震动,Grok 3、Claude 3.7 Sonnet 迅速跟进,押注 Agent 的智谱 AI 已经率先提出了 Phone Use 概念,推出了能模拟用户进行计算机、手机等跨应用自主操作的 AutoGLM 和 GLM-PC,智谱和三星也基于 Agentic GLM 展开合作,将 Agent 体验带到三星最新手机 Galaxy S25 系列上,领先国内外大模型。据悉,智谱节后不到一个月收入超过 1 亿,API 平台付费增长超过 30%。(@ 机器之心)
1、Sesame 发布超真实的 AI 语音产品:几乎没有 AI 味
Sesame 的核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。这些数字伴侣希望通过与用户的互动,逐步建立信任感和自信心,进而让用户在日常生活中体验到更为丰富和深刻的交流。为此,Sesame 团队专注于几个关键的组成部分,包括情感智能、对话动态、上下文意识和一致的人格特征。
情感智能是让语音助手能够理解和回应用户情感状态的能力。它不仅仅停留在语音命令的理解上,而是要能够感知语音中的情感变化,从而做出更适当的反馈。其次,对话动态则强调语音助手在交流过程中应具备的自然节奏,包括适时的停顿、恰当的语气强调和打断等,使得对话更加流畅和自然。
另外,上下文意识也是至关重要的。它要求语音助手根据对话的背景和历史,灵活调整语调和风格,以匹配当前的情境。这种能力能够使得数字助手在不同的场合下都能显得恰如其分,进而提高用户的满意度。最后,一致的人格特征则意味着语音助手在各类对话中都应保持相对一致的个性和风格,以增强用户的信任感。然而,要实现「语音存在」的目标并非易事。Sesame 团队在个性、记忆、表现力和适当性等多个方面的努力取得了逐步进展。
在技术层面,Sesame 团队针对传统文本到语音(TTS)模型的不足,提出了一种称为「对话语音模型」(CSM)的新方法。这种方法利用转换器架构,旨在实现更为自然和连贯的语音生成。CSM 不仅处理文本和音频的多模态学习,还能够根据对话的历史来调整输出,从而解决传统模型在上下文理解上的短板。(@AIbase 基地)
2、接入语音盒子,广东中山成人玩偶公司走红,创始人:十五年来第一次这么火爆
刘江霞是广东省中山成人玩偶公司金三玩美(WMdoll)的创始人。这是她度过的最忙碌的 2 月,光是 2 月 26 日上午,她就接待了来自商会、行业协会和机器人公司的客户。让这家一度低调的成人玩偶制造商成为热点的是高科技的加持。
公司搭载大模型的 MetaBox 在去年 12 月投入海外市场,包括美国、德国、日本、韩国等,预计 4 月会在国内上市。在大模型技术面世后,在 Llama、DeepSeek 等开源大模型的赋能下,动态的机器人和静态的玩偶具备了长期记忆存储、个性化反馈及生理数据联动等功能。
「现在大模型反应迅速,回答也比较有趣,带来的最大变化是情感陪伴,产品具备了理解、分析并回应的能力。」刘江霞说:「我们接入了 Llama 的开源(模型),又在这个基础上做了一定的调整训练,接入这个行业特定的一些语料,例如挑逗性聊天、暧昧对话等。」
基于几种开源 LLM,公司推出了 MetaBox。 Metabox 连接到一个数据中心托管的云计算服务,可以处理每个成人玩偶的信息。搭载到玩偶身上,则表现为玩偶可以用不同性格、声音、语气与用户进行可持续对话,其搭载了 8 种外语,具备连续对话能力。目前 MetaBox 只针对海外用户开放,由于云节点服务器在国外,对话存在几秒的延迟。
不过,可以开口说话的 AI 玩偶,并不等同于「我的机器人女友」现实版。以金三玩美玩偶为例,目前不具备视觉功能,用户也无法用语言控制玩偶的面部表情或身体功能,能产生交互的只是嵌在身体里的语音盒。也就是说,当成人玩偶「安慰」或「称赞」时,脸部和嘴部不会发生变化,只是单纯发出声响。(@ 界面新闻)
3、Awen:颠覆 Photoshop,基于 AI 语音界面的创意图像生成工具
传统创意工具功能固然强大,但往往也伴随着操作复杂的问题。而由 YC 孵化的团队 Awen 正致力于改变这一现状。创意人士不再需要埋首于繁琐复杂的菜单选项,只需通过简单的语音描述便能实现他们的创意愿景,例如:「请为我绘制一幅瑞士山湖的风景画。现在,请将其调整为日落时分。再添加一艘小船。最后,让画面动起来。」
Awen 巧妙地运用人工智能推理技术,通过语音精准理解创意意图。我们的目标是重新定义创意人士与人工智能技术的互动模式,力求在专业人士所需的功能性和新手用户所追求的易用性之间找到完美的平衡点。
Awen 由 Thibault、Pablo 和 Antoine 共同倾力打造。这是一个汇聚了机器学习、软件工程等领域专家,以及在广告、时尚、媒体、出版和娱乐等行业拥有丰富创意生产经验的卓越团队。(@Awen@Y Combinator)
4、微软将于 5 月 5 日关闭 Skype
微软证实将于 5 月 5 日关闭 Skype。现有的 Skype 用户将迁移到 Teams,部分用户现在就可以用 Skype 凭证登录 Teams,未来几天该功能将提供给更多用户。在 Skype 关闭前,Skype 和 Teams 用户将能互动聊天或通话。不想迁移到 Teams 的用户可以导出 Skype 数据,包括联系人、通话记录和聊天记录。与 Skype 同时代的消息服务 ICQ 则在去年 6 月关闭了。(@Slashdot)
5、AI 语音访谈员 Chikka.ai:AI 语音对话收集反馈,即时生成洞察报告
Chikka.ai,一个 AI 语音访谈员,旨在帮助使用者以前所未有的方式深入了解用户反馈。作为一名连续创业者,Vill Yu 在 2015 年就创建了第一个 AI 代理 SaaS 产品,并且已经投身于 AI+SaaS 领域十年,在这个过程中从成功和失败中汲取经验。
他发现收集来自客户、员工和朋友的宝贵反馈往往是一个复杂且耗时的工作。因此他们构建了 Chikka.ai ——为了简化访谈流程,并让使用者轻松获得有效反馈。
Chikka.ai 是什么 Chikka.ai 不仅仅是一个平台,更是使用者的专属 AI 语音访谈员,能够与受访者动态互动,促进自然对话,只需五分钟就能捕捉到真实的反馈。
Chikka.ai 功能
创建第一次访谈:使用 AI 生成的模板或自定义使用者的问题以满足使用者的需要。
Ava 引领:在任意数字平台(电子邮件、WhatsApp、Instagram 等)分享使用者的访谈链接,并观看 Ava 即可与受访者进行无缝对话。
瞬间解锁反馈:获取实时转录、分析和可执行的推荐,助力决策。
Chikka.ai 亮点
使用 AI 语音访谈员能够深入了解用户需求。
实时获取可操作建议,节省使用者的时间和精力。
几分钟内创建动态访谈——无需培训。(@Vill Yu@Product Hunt)
1、微软 CEO:我们过度炒作了 AGI
近日,微软 CEO 萨提亚·纳德拉在一次播客采访中, 就最近问世的微软 Majorana 1 量子芯片以及公司的未来技术发展方向 ,分享了一系列观点。纳德拉表示,量子计算对探索密集型任务具有独特优势,它只需少量数据就能产出丰富成果。而 「如果将量子技术与人工智能结合,用量子计算来生成或合成数据,就能训练出更优秀的 AI 模型,两者应该结合使用。」
他认为超大规模市场不会出现赢家通吃的局面,因为企业级买家足够聪明,会需要多个供应商。从微软进入云计算市场的经验看,即使亚马逊已占据市场优势,他们仍然成功打入了这个领域。在谈到备受关注的 AGI 话题时,纳德拉表示: 「我认为我们现在对 AGI 的概念过度炒作了。」 他认为衡量 AGI 真正实现的标准——世界经济能以 10% 的速度快速增长。「如果将 AI 革命类比之前的工业革命,那也应该从生产力进步的角度评判结果。技术发展最大的赢家不会是科技公司,而是使用这些技术和资源突破生产力瓶颈的各行各业。」对于微软最新推出的 Majorana 1 量子芯片,纳德拉解释道,这是微软 30 年研究历程的重大突破。
他将其比作「晶体管时刻」,认为这款芯片将是第一款能容纳一百万量子比特的物理芯片。「这意味着我们现在甚至可以可靠地隐藏量子信息,测量它,并且可以制造它。」
(@APPSO)
更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻