开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、基于位置感知的环境声音模型自适应系统:助力边缘计算中的人体活动识别
韩国庆北国立大学的研究团队提出了一种基于位置感知的环境声音模型自适应系统,通过基于边缘的迁移学习和伪标签机制解决跨环境部署时的域迁移问题。系统可动态调整分类标签,利用本地数据微调预训练模型,并通过高置信度无标签数据迭代优化,支持实时推理和低功耗运行,适用于智能家居等边缘场景。研究成果发表在 IEEE Acc。
系统采用边缘节点与中枢设备协同工作的架构模式,共同完成声音数据处理、模型优化与部署等任务。
边缘节点运行轻量级的 ResNet 模型,模型以 1 秒为间隔进行实时分类,单次推理时间控制在 500ms 以内,确保对声音事件的快速响应。推理过程中,对于高置信度(如分类概率超过设定阈值,假设为 0.85)的特征 - 结果对,边缘节点会将其存储至 SD 卡。这些数据后续将在设备空闲时段,通过蓝牙低功耗(BLE)传输至中枢设备,为模型优化提供数据支撑。
分类逻辑:
边缘节点将声音分类为四大类,构建起空间感知的基础框架:
本地声(Local):指节点所在空间内发生的人类活动或设备运行产生的声音,具有强空间特异性。例如在浴室的边缘节点,「刷牙声」「冲马桶声」就属于本地声,这类声音能够直接反映该空间内正在进行的活动。
邻居声(Neighbor):代表相邻空间传入的声音。比如卧室节点检测到从客厅传来的「电视声」,这些声音虽然并非发生在本空间,但能提供周边环境的信息,辅助判断整体场景。
全局声(Global):是在多个空间甚至整个环境中都可能出现的声音,如「说话声」「脚步声」。这类声音不具备明显的空间指向性,但对于理解人类活动的整体情况具有重要意义。
噪声(Noise):主要包括背景环境中持续存在的、无特定意义的声音,如空调的嗡鸣声、冰箱的运转声。准确识别噪声并将其过滤,能够减少干扰,提高目标活动声音的识别准确率。(@ 语音之家)
2、谷歌正式发布 Gemini 2.5 Pro 和 Flash 稳定版
谷歌正式发布 Gemini 2.5 系列模型稳定版本,包含 Pro 和 Flash。同时还推出了 Gemini 2.5 Flash-Lite 预览版,这是目前谷歌速度最快、性价比最优的 Gemini 2.5 模型。
Gemini 2.5 Pro 正式版上线。根据最新技术报告显示,Gemini 2.5 Pro 在多个基准测试超越 o3 high、Claude 4 opus 以及 DeepSeek R1 0528。此外,最新发布的 Gemini 2.5 Pro 在视频理解方面的表现比旧版还要强,轻松处理长达 3 小时视频内容,能从 46 分钟视频中准确定位 1 秒。
新版 Gemini 2.5 Flash 现已上线,是更省钱的新选择(可选是否开启「思考」模式):输入每百万 Token 0.3 美元(原为 0.15 美元)、输入每百万 Token 2.5 美元(原为 3.5 美元),同时不再区分「思考」和「非思考」的价格,所有输入 Token 数量都使用同一价格标准。另外,2.5 Flash 预览版(04-17),其将于 7 月 15 日停用,可以尽快迁移到「gemini-2.5-flash」或「2.5 Flash-Lite Preview」。
Gemini 2.5 Flash-Lite 上线预览版。支持 Google 搜索、代码执行等工具接入和多模态输入能力,最长达 100 万 Token 的上下文窗口,而且可按需启用「思考」机制(灵活控制不同场景的预算)(@APPSO)
3、MagicHub.com 开源全双工自然对话数据集
MagicHub.com 的全双工自然对话数据集,有效弥合了技术能力与对话真实感之间的差距。通过采用全双工、高保真的对话数据,开发者、研究人员和产品团队能够加速创建直观、情感敏锐且响应迅捷的语音 Agents——打造用户不仅愿意使用,更乐于使用的语音体验。
MagicHub.com 上发布的全双工自然对话数据集是一个开源的高保真资源,旨在增强面向研究和工业应用的语音模型开发。其核心价值在于:
1、 全双工、多声道录音
对话采用双通道流录制 ,每个说话人拥有独立的音轨;
实现清晰的语音分离,非常适用于说话人分类、重叠语音检测和基于语义的语音活动检测(VAD)等任务;
数据包含自然的打断、犹豫、反向渠道(如「嗯」「啊」等反馈词)以及真实的对话模式。
2、 多领域、多语言支持
数据集覆盖智能家居、客户服务、车载系统等多个领域;
提供多种语言(如中文、英文)支持,适用于国际化产品部署;
场景设计模拟真实用例,提升模型跨平台泛化能力。
3、丰富的标注与元数据
提供精确的文本转录、时间戳、说话人标签,并对停顿、沉默、填充词及重叠语音进行标注;
极其适合训练需要处理语义理解、情感语气检测或实时响应计时的模型。(@ 麦吉哈)
1、Rokid 宣布实现全球第一个可支付的智能眼镜
6 月 17 日,Rokid 宣布实现全球第一个可支付的智能眼镜——Rokid Glasses 内置支付宝「看一下支付」。
据悉,Rokid Glasses 是一款围绕全天候佩戴使用而设计的全功能智能眼镜,该设备具备上述支付功能后,用户只需要将眼镜对准收钱码并说一句「乐奇,付钱 XX 元」,即可进行付款操作,无需操作手机。
与此同时,Rokid Glasses 结合支付宝的多维度风控系统来确保每一笔交易的安全性,立体保障智能眼镜设备、用户支付过程,确保设备安全、「本人支付」,并承诺支付「被盗即赔」。
下一步,Rokid 与支付宝还将进一步拓展更多的便民生活服务。例如,驾车驶离停车场时快速「看一下」即可缴费;语音快速完成手机充值、水电煤缴费等生活缴费以及语音打车、点餐等相关支付场景,还可随时将用户的购买需求加入日程提醒。(@APPSO)
2、AI 硬件厂商珞博智能完成数千万元融资,将发布多样化性格和长期记忆陪伴式硬件
6 月 18 日讯,据晚点 Latepost 报道,AI 陪伴硬件初创公司 Robopoet 珞博智能近日完成数千万元人民币天使轮融资,由上影新视野基金与金沙江创投联合领投,零一创投跟投。
珞博智能首款产品「芙崽 Fuzozo」于2025年3月8日巴塞罗那电子消费展上发布,6 月份正式投入市场销售。
珞博智能自主研发的多模态情感模型「MEM」(Multi-Emotion Model),通过每日的互动陪伴,培养用户与芙崽的亲密度,养成芙崽的多样化性格,让每一只芙崽都与用户形成独一无二的专属羁绊。
珞博智能的另一项核心技术「EchoChain 仿生记忆系统」,则赋予芙崽长期记忆与学习的能力,可以记住用户的身份、特征、喜好、事件等,并通过自学习能力对记忆进行反思,逐步成长为更懂用户的同频伙伴。
不久前公开表示过不看好具身智能方向的金沙江创投管理合伙人朱啸虎,这次却投资了这个有机器人行业背景的团队。珞博创始人孙兆治曾在小鹏汽车担任内饰设计负责人,后成为小鹏机器人(鹏行智能)产品设计负责人;联合创始人&首席技术官 CTO 潘雨楠先后就职于大疆、微软、字节、百度、MiniMax。
值得注意的是,近期,由腾讯阅文孵化的 AI 情感陪伴 App「筑梦岛」前 CTO 龚诚加入珞博担任 COO。(@ 品玩、@Robopoet 珞博智能)
3、Proactor AI 发布全球首个自主行动型 AI 智能体
Proactor AI 宣称打造了全球首个具备自主行动能力的 AI 智能体,拥有情境感知、记忆增强和实时响应三大核心技术。
与传统 AI 不同,它能在用户未提出明确需求时,主动提供智能服务。目前该产品仍处于白名单测试阶段,现可以在官网申请加入等待列表。
Proactor 可以倾听用户的对话,理解用户需求,并即时提供解决问题的创意和行动步骤;
通话时获得实时帮助——摘要、关键要点和待办事项;
将用户所说内容即时转换为准确且可搜索的文本。通过与 AI 对话,回顾之前会议的相关细节。
Proactor AI 官网: https://proactor.ai/(@ 三花 AI)
1、AI 教父 Hinton:AI 会替代人类职业,但还需时间
日前,AI 教父 Geoffrey Hinton 接受了《The Diary Of A CEO》采访,并在本次专访中分享了不少 AI 的发展、应用,以及十分吸引人的「AI 会替代什么」。
对于 AI 的风险,Hinton 表示自己认知得比较「迟缓」。他表示,自己是从 ChatGPT 身上意识到,人类正在创造的数字智能具有某种特质,使它们远远优于人类拥有的生物智能。同时,Hinton 也表示,AI 也如同具象了人类大脑的运作模式,让人类学习到更多不可思议的东西。
具体到风险内容上,Hinton 则指出了两方面——一是人类滥用 AI 带来的风险,二是 AI 变得超级智能并决定不再需要我们。Hinton 也指出,现在很多人都对第二种风险半信半疑,但他很明确地表示,「这是真实的风险」。
AI 是否会因为不需要人类而对人类构成威胁,Hinton 表示「难讲」,他解释道,因为我们不知道风险有多大,换句话来讲,我们还未处在风险情况,因此也没办法直接具体地知晓风险是什么样的。
对于风险,Hinton 依然保持「立规矩」这个理念,并且他认为,AI 的边界不应该只限制个人和公司,而是需要全范围覆盖。
在大家关心的「AI 会替代什么」上,Hinton 则表示「AI 在很多特定领域已经比我们强了」。Hinton 表示,超级智能在所有领域超越人类只是时间问题,但这个时间依然没能很好的明确,因为取决于人类对 AI 的态度,他本人则预测「10-20 年内会出现超级智能」。
在未来超级智能的世界里,Hinton 做出了自己的预测:AI 会很快替代掉像法律/律师助理这类工作,而物理操作方面的工作需要人形机器人的普及才会被替代。
对于上面的情况,Hinton 也表达了自己内心的想法——跟着自己的内心走,做自己觉得有趣的事情,而这也是保持生存、行动的动力。Hinton 强调:
「专注于你觉得有趣、有意义,并且能为社会做贡献的事情。」
采访原链接:https://youtu.be/giT0ytynSqg?feature=shared(@APPSO)
更多 Voice Agent 学习笔记:
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻