AI测试 Meta 无预警发布新一代 AI 眼镜 Aria Gen 2;腾讯混元 Turbo S 模型将长短思维链融合丨日报

RTE开发者社区 · 2025年02月28日 · 53 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@ 鲍勃

01 有话题的技术

1、OpenAI 最大最贵的模型,GPT-4.5 发布

OpenAI 正式发布旗下 GPT-4.5 模型。API 价格方面,因 GPT-4.5 计算量极大,成本高昂,相较于 GPT-4o 价格有了较高上涨。GPT-4.5 支持联网搜索,能够处理文件和图片上传,还可以使用 Canvas 来进行写作和编程。不过,目前 GPT-4.5 还不支持多模态功能,如语音模式、视频和屏幕共享。

GPT-4.5 主要通过「无监督学习」(就是自己从大量数据中学习)变得更聪明,而不是像 OpenAI o1 或者 DeepSeek R1 那样专注于推理能力。简单说,GPT-4.5 知道的更多,而 o1 系列更会思考。

API 价格方面,因 GPT-4.5 计算量极大,成本高昂,价格涨到了 75 美元 / 百万 tokens,是 GPT-4o 的 30 倍,更是 DeepSeek 的 280 倍。Sam Altman 提到,GPT-4.5 不是推理型模型,不会在基准测试中碾压其他模型。在目前曝出的实测中,性能的提升远没有价格大。

GPT-4.5 的更新要点

  • 知识更广泛:它学习了更多的信息,所以懂的东西比以前多

  • 更少胡说八道:减少了「幻觉」(就是 AI 编造事实的情况)

  • 更懂人心:「情商」更高,更能理解你的真实意图

  • 对话更自然:聊天感觉更像和真人交流,不那么机械

  • 创意更丰富:在写作和设计方面表现更好从今天开始,ChatGPT Pro 用户已经可以用上 GPT-4.5(研究预览版)了。

下周,将会逐步开放给 Plus 和 Team 用户;再下一周则是 Enterprise 和 Edu 用户。(@ APPSO)

2、Kimi 新模型 k1.6 曝光,代码生成能力超越 GPT o3-mini

近日,月之暗面旗下 Kimi 的最新模型 k1.6 曝光。据全球动态基准测试平台 LiveCodeBench 显示,k1.6 登上测试榜榜首。具体显示,k1.6-high 在多项代码生成基准测试中超越 OpenAI 的 GPT o3-mini、o1 和通义 QwQ-Max 等多款模型。

成绩公布后,月之暗面研究员 Flood Sung 在其个人社交账号表示,榜单中的 k1.6 是一个基于 k1.5 持续训练代码能力的特定版本,目前 k1.6 还在不断训练并提升性能。此外,月之暗面创始人张予彤也在朋友圈表示,k1.6 还没有发布,但看到 LiveCodeBench 的成绩感到开心,期待智能模型的持续进化。(@ APPSO)

3、语音合成也遵循 Scaling Law,太乙真人「原声放送」讲解论文 ,港科大等开源

活久见,太乙真人给讲论文了。

「咳咳,诸位道友且听我一番唠叨。老道我闭关数日,所得一篇妙诀,便是此 Llasa 之法。此术上个月一出,海外仙长们无不瞠目结舌,直呼「HOLY SHIT」」。

热度最高时,曾在 huggingface 上的「丹药热度榜」上排第六。

如上引发围观的成果由香港科技大学等联合推出,它验证语音合成模型,也可以遵循 Scaling Law,即扩展计算资源、语音合成效果可以更好。

它核心提出了一个语音合成的简单框架 Llasa,该框架采用单层 VQ 编解码器和单个 Transformer 架构,和标准 LLM 保持一致。

研究团队提供了 TTS 模型(1B、3B、8B)、编解码器的 checkpoint 以及训练代码。

论文链接:https://arxiv.org/abs/2502.04128@ 量子位)

4、腾讯推出新一代快思考模型混元 Turbo S

2 月 27 日,腾讯混元自研的快思考模型 Turbo S 正式发布。据官方介绍,区别于 Deepseek R1、混元 T1 等需要「想一下再回复」的慢思考模型,混元 Turbo S 能够实现「秒回」,吐字速度提升一倍,首字时延降低 44%,同时在知识、数理、创作等方面也有突出表现。通过模型架构创新,Turbo S 部署成本也大幅下降。具体来看,在业界通用的多个公开 Benchmark 上,腾讯混元 Turbo S 在知识、数学、推理等多个领域展现出对标 DeepSeek V3、GPT 4o、Claude3.5 等业界领先模型的效果表现。

同时通过长短思维链融合,腾讯混元 Turbo S 在保持文科类问题快思考体验的同时,基于混元 T1 模型合成的长思维链数据,显著改进了理科推理能力。架构方面,通过创新性地采用了 Hybrid-Mamba-Transformer 融合模式,混元 Turbo S 有效降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 缓存占用,实现训练和推理成本的下降。

目前,腾讯混元 Turbo S 模型已在腾讯云官网上架,开发者和企业用户可以通过 API 调用,同时将逐步在腾讯元宝灰度上线。腾讯混元还表示,正式版的混元 T1 模型 API 也即将上线,对外提供接入服务。(@ APPSO)

5、Meta 无预警发布新一代 AI 眼镜,专为 AI 和机器人研究打造

Meta 今日正式推出第二代 Aria 智能眼镜(Aria Gen 2),计划面向从事机器感知系统、人工智能和机器人技术研究的第三方科研人员开放使用。

此次发布的第二代 Aria 眼镜延续了无显示屏设计,但配备了升级版传感器套件,包含 RGB 摄像头、定位追踪摄像头、眼球追踪摄像头、空间麦克风阵列、惯性测量单元(IMU)、气压计、磁力计、全球导航卫星系统(GNSS)以及定制化 Meta 芯片。

Meta 设想通过 Aria 的 SLAM 技术,用户可在 GPS 信号薄弱或缺失的室内环境实现自主建图与导航——这种视觉定位系统(VPS)既能辅助城市街道导航,也可帮助在商店内精准定位目标商品。

Aria 第二代的独特价值

  • 顶尖传感器阵列:升级后的传感器系统包含 RGB 摄像头、六自由度 SLAM 摄像头、眼动追踪摄像头、空间麦克风、惯性测量单元(IMU)、气压计、磁力计及全球导航卫星系统(GNSS)。相较于前代,本代创新性在鼻托处嵌入了两大传感器:用于心率监测的光电容积描记(PPG)传感器,以及可区分佩戴者与周围人声的接触式麦克风。

  • 超低功耗设备端机器感知处理:SLAM、眼动追踪、手势识别及语音识别均由 Meta 定制芯片在设备端完成计算。

  • 全天候使用体验:支持 6-8 小时持续运行,整机重量约 75 克,配备可折叠镜腿提升便携性。

  • 音频交互系统:通过行业领先的开放式主动降噪扬声器提供音频反馈,支持用户参与式系统原型开发。(@ 三次方 AIRX)

02 有亮点的产品

1、Lingo.dev :一款能在几分钟内将应用翻译成多种语言的 AI 本地化引擎

(图片来源:Product Hunt)

https://lingo.dev/zh

Lingo.dev 是一款创新的 AI 本地化引擎,其核心价值主张是将耗时数周的翻译工作转化为自动化的拉取请求,大幅提高应用本地化的效率。目标用户主要是需要快速部署多语言应用的开发团队,特别是那些追求高效开发流程的团队。Lingo.dev 解决了传统应用本地化耗时长、成本高的关键痛点,同时抓住了全球化市场对快速本地化解决方案日益增长的需求。

在功能与体验方面,Lingo.dev 的核心亮点包括

  • AI 驱动的翻译引擎,能够理解 UI 元素的位置和微观上下文;

  • 开发者友好的设计,提供 API 和 SDK 支持;

  • 自动化的拉取请求功能,无缝集成到开发流程中。

  • 与传统翻译服务相比,Lingo.dev 的差异化优势在于其对开发环境的深度理解和集成,以及 AI 技术带来的高效率和准确性。

  • 用户体验方面,产品提供了 1000 美元的免费额度,让用户可以轻松尝试和评估服务质量。(@ Z Potentials)

2、Figure 机器人加速进军家庭场景 2025 年启动 Alpha 测试挑战行业极限

湾区机器人新锐 Figure 正以超预期速度推进其家庭机器人计划。公司创始人 Brett Adcock 周四宣布,将于 2025 年下半年启动 Figure02 人形机器人的家庭环境 Alpha 测试,这一时间表较业界预期大幅提前。推动这一激进计划的核心是 Figure 最新研发的 Helix 系统——一个集视觉、语言与动作于一体的通用 AI 模型。

Helix 的突破性在于其多模态学习能力,可同时处理视觉数据和自然语言指令,显著提升机器人学习新任务的效率。这一自主研发的技术路线标志着 Figure 与 OpenAI 分道扬镳后的战略转向。在近期展示中,Helix 已能协调两个机器人协同完成烹饪等复杂家务,展现出强大的任务执行能力。

尽管家庭场景被普遍视为人形机器人的终极目标,Figure 却采取了「先工业后家庭」的务实策略。2024 年初,该公司已在宝马南卡罗来纳州工厂展开工业试点,利用结构化环境积累实战经验。这一选择与特斯拉、Apptronik 等行业玩家不谋而合,反映出工业场景在技术成熟度和商业可行性上的双重优势。(@ AIbase 基地)

3、Fleet AI Copilot :一款简化 IT 生活的 AI 驱动 IT 助手聊天机器人

(图片来源:Product Hunt)

https://fleet.co/en/ai-copilot

Fleet AI Copilot 是一款创新的 AI 驱动 IT 助手,其核心价值主张是通过智能化手段简化设备管理和日常 IT 任务。目标用户主要是寻求提高 IT 运营效率的企业和 IT 团队。该产品解决了传统 IT 管理复杂、耗时的痛点,同时抓住了 AI 在 IT 运营领域应用日益广泛的市场机遇。

在功能与体验方面,Fleet AI Copilot 的核心亮点

  • 个性化支持,根据用户需求提供定制化服务;

  • 集中化运营,整合 IT 管理流程;

  • 自适应能力,能够根据用户需求不断优化。与传统 IT 管理工具相比,Fleet AI Copilot 的差异化优势在于其 AI
    驱动的智能化和自动化能力,能够显著提升 IT 运营效率。(@ Z Potentials)

03 有态度的观点

1、DeepMind 首席科学家:「慢思考」模式将能提升 AI 性能

近日,Google DeepMind 首席科学家 Jack Rae 接受访谈,其指出「慢思考」模式将能提升 AI 性能。采访时,Jack 表达了自己对于大模型「慢思考」模式的看法。其认为,即使对于人类而言在回应之前也会花更多时间思考,而大模型也一样,在不断的深入思考中,人类和大模型都能不断发现正确或者是错误,并随时进行修改。因此在模型进行更长时间思考时,答案可能还会更加准确。Jack 还以上面的观点进行展开,其指出推理模型是模型发展的新范式。

推理模型并非追求即时响应,而是通过增加推理时的思考时间来提升答案质量,Jack 认为,这也导致了一种新的 Scaling Law,「慢思考」模式是提升 AI 性能的有效途径。此外,Jack 还判断了推理模型与 AI Agent 的未来。他认为,对于构建有用的 AI Agent 能力而言,推理能力至关重要,原因分别是可靠性和复杂问题的解决能力。

Jack 提到,AI Agent 要开始执行第一步,就必须经过思考,因此他认为 AI Agent 能力与思考和推理能力是紧密相连、不可分割的。(@ APPSO)

04 Real-time AI Demo 分享

1、通过手势识别让 Gemini 分析环境视觉信息

Google Creative Lab 的 Tina 使用 Gemini 2.0 Flash 和 Mediapipe 构建了一个将手变成木偶的实验。通过检测手何时张开 + 实时捕获网络摄像头图像,Gemini 分析所处环境并生成情境感知的思考。将提示调整为仅关注颜色,木偶的回答立即更新:

更多 Voice Agent 学习笔记:

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册