开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@ 鲍勃
1、阿里通义推出 QVQ-Max 视觉推理模型
阿里通义宣布推出新一代视觉推理模型 QVQ-Max。据官方介绍,QVQ-Max 不仅能够「理解」图片和视频内容,还能为上述信息提供分析并推理,具体来看:
QVQ-Max 在解析图像方面表现出色,其能快速识别图片中的关键元素;
QVQ-Max 可以进一步分析所提供的图片、视频信息,并将这些信息与背景知识相结合,推理得出结论;
不止分析和推理,QVQ-Max 还可以完成设计插图、生成短视频剧本等内容,甚至根据用户的需求创建角色扮演内容。性能方面,通过通义团队对 QVQ-Max 的思考过程长度进行调节,模型在多模态数学问题基准测试「MathVision」中,准确率不断提升,从 4K tokens 的 43.5% 提升至 24K tokens 的 48.1%。目前,QVQ-Max 已上线 Qwen Chat。(@ APPSO)
2、ElevenLabs 对话式 AI 支持原生、低延迟的 RAG 能力
ElevenLabs 已将原生、低延迟的 RAG 添加到对话式 AI 中——使您的语音智能体能够实时访问和使用大型知识库。
RAG 技术允许智能体在对话中利用大型知识库,仅检索最相关的信息,以提供更准确的知识依托回答,减少错误生成的信息。尽管 RAG 会使响应时间增加约 500 毫秒,但其提供的事实准确性显著提升。
ElevenLabs 演示了一个和 Stripe 的年度信交流的 demo:
https://elevenlabs.io/app/talk-to?
agent_id=SRq67SLIhbMFDBx93mMi(@ ElevenLabs)
3、解锁未来社交新姿势:TaoAvatar 如何用 3D 技术打造超现实数字人
阿里巴巴集团的研究团队推出了一项名为 TaoAvatar 的技术,凭借其高保真、轻量化以及实时渲染的特性,点燃了 AR(增强现实)领域的创新热情。
TaoAvatar 是一款基于 3D Gaussian Splatting(3DGS) 技术的全身体态会话虚拟形象解决方案。简单来说,它能从多视角视频中快速生成一个栩栩如生的 3D 数字人,不仅能捕捉用户的面部表情、手势,还能精准还原身体动作,甚至连衣服褶边和头发飘动的细节都不放过。更厉害的是,它能在移动设备上实现实时渲染,帧率高达 90 FPS ,分辨率支持 2K ,完美适配像 Apple Vision Pro 这样的高端 AR 设备。
应用场景:从虚拟主播到全息社交
电商直播: 想象一个永不疲倦的虚拟主播,24 小时在线带货,还能根据商品自动调整表情和动作。
全息通讯: 通过 AR 眼镜与远方的朋友「面对面」,仿佛 TA 就站在面前。
数字娱乐: 游戏、影视中的角色可以直接以用户的形象生成
研究团队还在 Apple Vision Pro 上部署了一个 3D 数字人代理,通过语音识别(ASR)、大语言模型(LLM)和文本转语音(TTS)技术,实现实时对话互动。未来,你的「数字分身」或许还能陪你聊天、跳舞,甚至帮用户开会。(@ 机智流)
1、Epiphany :一款通过语音笔记快速将想法转化为行动的工具
(图片来源:Product Hunt)
定位为一款提高生产力的工具,主要面向需要快速捕捉和执行想法的个人和团队。其核心价值主张在于通过语音笔记将想法转化为可执行的行动,并与多个流行的生产力工具(如 Notion、Asana、Todoist 等)集成。目标用户是那些希望减少手动输入时间并提高效率的个人。
在功能和体验方面,Epiphany 的亮点包括其语音转行动的能力、与多个生产力工具的集成以及简化的用户界面。产品的差异化优势在于其能够无缝地将语音输入转化为可执行的任务,减少了用户的操作步骤。用户体验方面,Epiphany 提供了快速高效的想法捕捉和执行流程,帮助用户减少分心并提高生产力。(@ Z Potentials)
2、AI 口音重塑功能提高 26% 销售转化,语音 AI 掀起职场口音标准之争
(图片来源:Krisp)
音频初创公司 Krisp 周三宣布推出一项新功能,利用 AI 在通话中改变用户的口音。该公司首先推出的是帮助印度人在通话中听起来像美国人。
该初创公司表示,口音转换过程保留了说话者的原声,仅切换音素以匹配美式口音。此功能显然已在企业环境中测试过,现在测试版即将登陆 Krisp 桌面应用。用户可在通话期间或之前随时开启该功能。
然而,当记者测试该功能时,处理后的语音听起来并不自然,有时甚至会遗漏部分词语。公司将这些问题归因于测试版发布,表示模型会随时间推移不断改进。
Krisp 宣称,在企业用户测试中,该功能使销售转化率提升了 26.1%,单次预订收入增长了 14.8%。
该公司表示,之所以选择首先针对印度口音进行优化,是因为在全球 STEM 领域的劳动力中,印度人占据了很大比例。未来还计划增加包括菲律宾口音在内的更多口音支持。
其他初创公司如 GV 投资的 Sanas,已在呼叫中心大规模部署了类似技术。
公司称,该模型基于数千个涵盖不同口音和方言的语音样本进行训练,并在获得用户同意后使用了其会议助手的数据。
公司联合创始人提到该功能的另一优势在于无需对用户声音进行预训练,因为它能实时创建说话者的声音档案。(@ Z Potentials)
3、可灵 AI 音效功能全面上线
4、Keep 发布运动健康垂直领域的专属模型 Kinetic.ai 和首个通用 AI 教练体验版
Keep 发布了运动健康垂直领域的专属模型 Kinetic.ai,并基于此模型同步上线了首个通用 AI 教练体验版——卡卡(Kaka)。
Keep AI 教练卡卡(Kaka)当前主要应用在运动方案定制的场景,Keep 用户可在「今日」页面找到应用入口。卡卡(Kaka)可基于用户的运动诉求定制训练计划和方案,同时也支持基础问答。
预计在 5 月份上线卡卡(Kaka)正式版,增加多模态能力,包括语音指导以及图片识别等能力。
2025 年 Keep 计划将对 App 8.0 版本再一次升级迭代,在 4 月会推出带有 AI Agent 的内测版,并于后期上线全新 9.0 AI 版本,在大模型的推动下,全力打造智能时代下的 AI Agent。
Kinetic.ai 为 Keep 研发的运动健康垂类专属模型,为行业首发。这一模型为 Keep 基于大量的运动数据和运动专业知识的沉淀,以及基座模型基础上训练和优化后发布,在运动健康垂类领域有更专业的表现。
未来,Keep 会持续更新 Kinetic.ai 的模型能力,除了文字交互形态,未来会增加多模态的能力,包括音频和图像等。同时,还会增加图片的识别、语音互动等新的交互来丰富 AI 教练的服务技能,这些技能也会无缝衔接在用户使用 Keep 过程中,让用户感受到 AI 教练的价值。(@ Keep 箭厂胡同)
1、雷军:躬身入局才能做好每件事
近日,在武汉大学 2024 级雷军班的主题班会上,小米创办人、董事长兼 CEO 雷军分享了自己创业路上的学习实践经历和感悟。班会上,雷军强调大学时光是建立世界观、人生观和价值观的关键时刻,其提出三点建议:
首先,要利用大学环境塑造自己,形成正确的三观;
其次,学会如何学习,强调学习的广度与深度并重,避免过早确定专业方向;
最后,广交朋友,利用大学期间无利益纠葛的环境,结交人生重要伙伴。
雷军还强调了身体健康、兴趣广泛的重要性。雷军还不忘通过小米汽车的研发之路,来分享自己的成功秘诀。其表示,若想做好一件事,那么前提就是要让自己躬身入局,把自己放入到事情里,去了解、熟知相关领域的知识。雷军还调侃表示,「要成为这个领域的人,不能说成为绝顶的专家,至少要成个伪专家吧」。对于高压的工作环境,雷军也表示,要用无比的乐观精神来看待工作中生活中遇到的各种困难。同时他分享表示,只有定下高目标,才能激发出努力的热情。雷军也强调,在设定高目标后,应将目标分解为可实现的小目标,以保持动力和节奏感。(@ APPSO)
更多 Voice Agent 学习笔记:
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻