AI测试 腾讯 StereoCrafter:2D 视频转 3D 视频效果;支付宝推出新 AI 视觉搜索产品「探一下」丨 RTE 开发者日报

RTE开发者社区 · 2024年12月30日 · 1037 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@ 鲍勃

01 有话题的新闻

1、理想汽车发布理想同学 App 官方问答

12 月 29 日,理想汽车发布了理想同学 App「十问十答」文章。在文章中,官方针对用户的高频问题做出了解答。官方表示,理想同学 App 是理想汽车基于 Mind GPT 大模型精心打造的一款 AI 助手,把陪伴从车上延续到手机上。除了可以回答各种问题外,理想同学还有不断成长的视觉感知能力,可以帮助用户识别路上的汽车、动物和植物,边看边学。官方还在文章中介绍了理想同学 App 的功能:

知识问答: 提供汽车、出行、财经、科技等领域的专业解答。

视觉问答: 识别并解释你可能不认识的动物、植物、汽车以及通用物品。

联网搜索: 帮你在全网寻找信息,进行总结和提炼,并提供可信赖的参考资料。

文本处理: 处理各种类型的文本,如写文章、文本翻译等。

提供建议: 根据你的需求,为你的生活和工作提供建议,比如旅行规划和饮食建议等。(@IT 之家)

2、AI 明年有望迎「突破性进展」:「破解」动物叫声背后的沟通模式与结构

据 Munich Eye 当地时间 22 日报道,2025 年,人工智能(AI)和机器学习领域的突破有望推动我们理解动物交流的进程,解开动物发声背后的长期谜题。近期,设立的 Coller-Dolittle 奖项为解码动物声音的研究提供了可观奖金,体现了科学界对此的乐观情绪。

目前已有多个研究项目正致力于开发能够解读动物声音的算法。其中,Ceti 计划一直在破解抹香鲸特有的点击声和座头鲸的歌声。现代的机器学习方法依赖大量的数据集,但高质量的动物声音数据一直难以获得,限制了研究进展。

譬如,包括 ChatGPT 在内的大型语言模型就使用了来自互联网的大量文本数据进行训练,而与之形成鲜明对比的是,动物交流研究可用的数据集仍然有限。虽然 LLMs 的训练数据量超过 500GB 的文本信息,但 Ceti 计划在研究抹香鲸的声音时,仅获得了不到 8000 个录音样本。这一差距也凸显了研究人员在理解动物交流方面的难题。

此外,人类语言的解释依赖于共同的语法和语义规则,而解读动物的叫声却充满了不确定性 —— 区分狼的不同嚎叫所代表的意义,仍然是一个巨大的挑战。

一旦这些庞大的数据集完成收集,深度神经网络等先进的分析技术将能够揭示动物声音背后的规律和结构,或许能发现一些与人类语言类似的模式。

尽管研究取得了很大进展,关于解码动物声音的最终目标仍然是一个亟待解答的问题。像 Interspecies.io 这样的组织,明确表示希望将跨物种的交流转化为人类能够理解的信号,甚至提出要将动物的叫声翻译成人类语言。不过,科学界普遍认为,非人类动物并不具备类似人类语言那样的结构化语言。(@IT 之家)

3、谷歌 DeepMind 优化 AI 模型新思路,计算效率与推理能力兼得

谷歌 DeepMind 团队最新推出了「可微缓存增强」(Differentiable Cache Augmentation)的新方法,在不明显额外增加计算负担的情况下,可以显著提升大语言模型的推理性能。

「可微缓存增强」(Differentiable Cache Augmentation)采用一个经过训练的协处理器,通过潜在嵌入来增强 LLM 的键值(kv)缓存,丰富模型的内部记忆,关键在于保持基础 LLM 冻结,同时训练异步运行的协处理器。

整个流程分为 3 个阶段,冻结的 LLM 从输入序列生成 kv 缓存;协处理器使用可训练软令牌处理 kv 缓存,生成潜在嵌入;增强的 kv 缓存反馈到 LLM,生成更丰富的输出。

在 Gemma-2 2B 模型上进行测试,该方法在多个基准测试中取得了显著成果。例如,在 GSM8K 数据集上,准确率提高了 10.05%;在 MMLU 上,性能提升了 4.70%。此外,该方法还降低了模型在多个标记位置的困惑度。(@IT 之家)

4、腾讯出品!StereoCrafter:输入 2D 视频转 3D 视频效果

近日,腾讯 AI 实验室与腾讯 PCG 的 ARC 实验室联合推出了一种名为 StereoCrafter 的新框架,该框架可以将普通的 2D 视频转换为高保真的立体 3D 视频。

这一创新响应了对 3D 内容日益增长的需求,尤其是在沉浸式体验领域。StereoCrafter 充分利用了基础模型的优势,克服了传统转换方法的局限,显著提升了生成效果,确保生成内容能够满足各种显示设备的高保真要求。

该系统的核心分为两个主要步骤。第一步是基于深度信息的视频重新贴图,提取遮挡信息的同时进行视频变换;第二步则是立体视频的修复。系统采用了经过预训练的稳定视频扩散模型作为基础,并引入了针对立体视频修复任务的微调协议。为了处理不同长度和分辨率的视频输入,团队还探索了自回归策略和切片处理技术,确保系统能够灵活适应各种输入条件。

为了支持训练,该团队建立了一条复杂的数据处理流水线,生成了大规模、高质量的数据集。在数据集构建过程中,研究团队从大量的立体视频中进行挑选,并生成相应的视频深度、变换后的视频和遮挡信息,确保右侧视频作为真实的基准。这些创新方法为将 2D 视频转化为 3D 视频提供了切实可行的解决方案,使得 Apple Vision Pro 和其他 3D 显示设备能够呈现更为精彩的沉浸体验。(@AIbase基地)

02 有亮点的产品

1、支付宝「扫一扫」推出新一代 AI 视觉搜索产品「探一下」

支付宝今日推出新一代 AI 视觉搜索产品「探一下」,基于自研的多模态大模型技术,可「用 AI 之眼探索万物」,提供生成式搜索服务。

据悉,该产品可以便于用户通过摄像头,识别花草宠物和潮玩、做旅游的随身讲解、查询商品药品详情等,还能趣味解读萌宠照、宝宝照等,晒图不愁配文案。

目前该产品已上线支付宝,在首页点击「扫一扫」后左划即可找到,在支小宝 App 也能快速访问。(@IT 之家)

2、TemPolor:音乐生成平台,能够根据视频或文本输入自动生成版权免费的音乐

TemPolor 是一款创新的 AI 音乐生成工具,旨在为内容创作者提供个性化的音乐解决方案。其核心价值主张在于通过分析用户提供的视频或文本内容,自动生成高质量的音乐和歌词,帮助用户轻松提升其作品的音效表现。目标用户包括视频制作者、社交媒体内容创作者以及需要背景音乐的个人和专业人士。TemPolor 解决了传统音乐创作中版权问题和专业知识门槛高的痛点,为用户提供了一种便捷且经济的音乐创作方式。

TemPolor 团队由 Geoffrey Jia 和 Leyne Lin 组成。Leyne Lin 是 TemPolor 的产品负责人,拥有丰富的产品管理和市场营销背景。Leyne 毕业于南加州大学(University of Southern California)和西北大学(Northwestern University),这为她在产品开发和管理领域奠定了坚实的基础。(@Z potentials)

03 有态度的观点

1、剑桥大学研究揭示:AI 可能操纵你的在线决策

根据剑桥大学的研究,人工智能(AI)工具有可能被用来操纵在线用户的决策,从购买商品到选择投票对象,AI 都可能发挥作用。该研究指出,未来可能出现一个新的市场,称为「意图经济」,在这个市场中,AI 助手可以理解、预测和操纵人类的意图,并将这些信息出售给能从中获利的公司。

研究团队来自剑桥大学的未来智能研究中心(LCFI),他们将意图经济视为注意力经济的继承者。在注意力经济中,社交网络通过吸引用户注意力并投放广告来维持经济运转。而在意图经济中,懂得 AI 的科技公司会把他们掌握的用户动机信息,比如用户预订酒店的计划或对某位政治候选人的看法,卖给出价最高的公司。

LCFI 的技术历史学家乔尼・佩恩博士表示:「几十年来,注意力一直是互联网的货币。用户在社交媒体平台如 Facebook 和 Instagram 上分享他们的注意力,从而推动了在线经济的发展。」他指出,若不加以监管,意图经济将把用户的动机视为新的货币,将引发一场针对人类意图的「淘金热」。

该研究指出,支撑如 ChatGPT 等 AI 工具的大型语言模型(LLMs)将被用于「预测和引导」用户的行为,这些模型将通过「意图、行为和心理数据」进行分析。研究称,注意力经济允许广告商通过实时竞价获得用户的注意力,而在意图经济中,LLMs 将能够实时访问用户的意图,例如询问用户是否考虑去看某部电影,或者询问是否要帮他们预订电影票。

在这个新兴的意图经济中,广告商将能够利用生成式 AI 工具创造个性化的在线广告。此外,研究还提到了马克・扎克伯格的 Meta 公司开发的一种 AI 模型 Cicero,该模型在玩桌游《外交》时已达到了「人类水平」的能力,这种游戏依赖于推测和预测对手的意图。(@AIbase 基地)

2、AI 教父:AI 有 10% 到 20% 的概率导致人类灭亡

据 The Guardian 报道,今年的诺贝尔物理奖获得者 Geoffrey Hinton 表示,人工智能在未来三十年内导致人类灭绝的可能性为 10% 到 20% 。

Geoffrey Hinton 此前曾在 X 平台发文,表示 AI 会有 10% 的可能性导致人类灭亡。而在 BBC 的一档节目中,当被问及是否改变了对潜在 AI 世界末日及其发生可能性的分析时, Hinton 表示这一可能性上升至 10% 到 20%。

Hinton 认为,与强大的 AI 系统的智能相比,人类就像蹒跚学步的孩子。

Hinton 声称,AI 的发展速度「非常非常快,比我预期的要快得多」,并呼吁政府对这项技术进行监管。他还警告到,「AI 领域的大多数专家都认为,在未来 20 年内,我们将开发出比人类更聪明的人工智能。这是一个非常可怕的想法。」( @APPSO)

更多 Voice Agent 学习笔记:

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册