AI测试 AKOOL 实时摄像头:实时 AI 语音翻译和换脸;SpAItial 融资 1300 万美元,打造 3D 生成和理解平台丨日报

RTE开发者社区 · 2025年05月29日 · 556 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、DeepSeek R1 开源新模型「DeepSeek R1-0528」,推理能力大幅提升

5 月 28 日,DeepSeek 官方推送通知,称 R1 模型已经完成小版本试升级。目前在官方网站、APP、小程序测试(打开深度思考)就能体验。

据悉,本次更新的版本名为「DeepSeek-R1-0528」,该模型具有 685B 规模,支持「BF16」,目前已上架 HuggingFace。这次更新很有可能已经用上了 3 月发布的 DeepSeek-V3-0324 模型,编程能力大大提升。

另据 LiveCodeBench 基准测试显示,DeepSeek-R1-0528 在多项测试中接近 OpenAI 的 o4-Mini 和 o3,部分测试超越了 o3-Mini。

特点总结:

  • 推理能力大幅提升,代码水平暴涨;

  • 写作表现更有人味,格式更规范;

  • 思考过程不仅快,还有条理、讲逻辑;

  • 支持长时间思考,一项任务可持续 30 到 60 分钟。

HuggingFace 链接:https://huggingface.co/DeepSeek-ai/DeepSeek-R1-0528/tree/main(@APPSO

2、腾讯混元语音数字人模型宣布开源

5 月 28 日,腾讯混元发布并开源语音数字人模型 HunyuanVideo-Avatar。

据介绍,HunyuanVideo-Avatar 基于腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室 MuseV 技术联合研发,支持头肩、半身与全身景别,以及多风格、多物种与双人场景,面向视频创作者提供高一致性、高动态性的视频生成能力。

用户可上传人物图像与音频,HunyuanVideo-Avatar 模型会自动理解图片与音频,比如人物所在环境、音频所蕴含的情感等,让图中人物自然地说话或唱歌,生成包含自然表情、唇形同步及全身动作的视频。

现在,HunyuanVideo-Avatar 的单主体能力已经开源,并在腾讯混元官网上线,用户可以在 PC 端「模型广场」中体验。目前支持上传不超过 14 秒的音频进行视频生成。后续将逐步上线和开源其他能力。

体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126

项目主页:https://hunyuanvideo-avatar.github.io

Github: https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

CNB: https://cnb.cool/tencent/hunyuan/HunyuanVideo-Avatar

技术报告:https://arxiv.org/pdf/2505.20156(@APPSO

3、蚂蚁百灵发布新款多模态大模型

5 月 28 日,蚂蚁百灵大模型(Ling)团队今天正式开源统一多模态大模型 Ming-lite-omni。 据介绍,Ming-lite-omni 是一款基于 Ling-lite 构建的 MoE 架构的全模态模型,其总参数 22B,激活参数 3B。其支持「跨模态融合与统一」「理解与生成统一」。

在多项理解和生成能力评测中,Ming-lite-omni 以仅 3B 的参数激活量, 性能与 10B 量级领先的多模态大模型相当或更优。官方表示,这也是目前已知首个在模态支持方面能够与 GPT-4o 相媲美的开源模型。

另外,蚂蚁百灵大模型团队还将持续优化 Ming-lite-omni 在全模态理解和生成任务上的效果,并提升 Ming-lite-omni 的多模复杂推理能力;同时也会训练更大尺寸的全模态模型 Ming-plus-omni, 以期进一步解决更多高度专业化或领域化的复杂交互问题。

Ming-lite-omni 当前模型权重和推理代码已开源。

Github: https://github.com/inclusionAI/Ming/tree/main/Ming-omni

HuggingFace: https://huggingface.co/inclusionAI/Ming-Lite-Omni

Model Scope: https://modelscope.cn/models/inclusionAI/Ming-Lite-Omni

Project Page: https://lucaria-academy.github.io/Ming-Omni/ (@APPSO)

02 有亮点的产品

1、Macaly:无需编写代码,只需通过打字或语音描述就能生成应用和网站

Macaly 是一款对话式 AI 开发助手,无需编码即可将想法快速变为应用或网站。

Macaly 聚焦于为缺乏编程能力的用户和需要快速原型开发的团队提供零代码应用与网站生成服务,核心价值在于通过自然语言输入(打字或语音)即可将创意即时转化为可用产品。目标用户包括市场营销人员、产品经理、设计师及其他非开发者,以及希望加速验证创意的初创团队。产品有效解决了传统开发门槛高、原型迭代慢和非技术人员难以参与产品实现等痛点,顺应了低代码/无代码和 AI 赋能开发的市场趋势。

功能亮点体现在对话式需求输入、自动生成可用应用/网站、自动修正错误与 SEO 优化,并兼顾移动端适配。差异化优势在于极简交互体验和无需任何技术背景即可操作,极大拓宽了应用开发的用户基础。用户体验方面,Macaly 提供即时反馈和自动优化,显著降低了开发壁垒,让更多人能够专注创意本身。

网站链接:https://www.macaly.com/(@Z Potentials)

2、AKOOL 正式发布全球首款实时摄像头 AKOOL Live Camera

AKOOL 发布全球首款实时摄像头 AKOOL Live Camera。

该产品集成了虚拟数字人、实时翻译、换脸和动态视频生成四大功能,显著提升了视频创作的沉浸感与交互性。

该技术突破传统文生视频限制,通过 4D 面部映射、神经语音引擎等技术实现环境感知和情感响应,94% 盲测无法区分真假。支持在 Zoom、Google Meet、Microsoft Teams 等平台上运行。AKOOL Live Camera 已经能够实时翻译 150+ 语言,并保持说话者的声音特色和同步口型动作。在视频生成过程中,AKOOL Live Camera 可以实现人脸的精准替换,并且完美反应人物的情绪和微表情特征。

该产品不仅提升了视频制作的效率,也为多领域应用打开了新局面,尤其在企业会议和电商直播等场景中展现出广泛的潜力。

相关链接:https://akool.com/zh-cn/live-camera

(@ 果比 AI、@AKOOL 官网、@ 新智元)

3、慕尼黑 AI 初创公司 SpAItial 获 1300 万美元融资,打造 AI 原生 3D 生成平台

欧洲最杰出的 AI 3D 模型研究者之一、慕尼黑工业大学视觉计算与 AI 实验室的马蒂亚斯·尼斯纳(Matthias Niessner)已申请创业休假,创立了一家该领域的初创公司:SpAItial。 这家德国慕尼黑 AI 初创公司 SpAItial 宣布完成 1300 万美元种子轮融资,正式走出隐身状态。

SpAItial 的目标是成为 AI 原生 3D 生成和理解的基础平台。从游戏、虚拟世界,到城市规划、工业自动化、机器人导航,未来几乎所有「空间智能」场景都可能用上这项技术。

SpAItial 正在研发的「空间基础模型」(Spatial Foundation Models,简称 SFM)不同于传统 AI 模型。后者通常逐像素生成图像,而 SFM 则直接在 3D 结构层面建模,能理解几何、光照、材质与物理规律,实现空间和时间上的一致性。简单来说,它不仅能画图,还能「搭建世界」。

领投方是欧洲知名早期投资机构 Earlybird Venture Capital(曾投资 UiPath 和 Peak Games 等),Speedinvest 和多位知名天使投资人也参与了本轮融资。

Niessner 与联合创始人正致力于生成更大规模、更具交互性的 3D 空间——例如让玻璃能以真实物理方式破碎。这将实现 Niessner 口中的「圣杯」:让 10 岁孩子只需输入文字,就能在 10 分钟内制作出自己的电子游戏。

Earlybird 合伙人 Andre Retterath 表示:「图文和视频领域的 AI 已经进化到很高阶段,但 3D 还停留在前 AI 时代。SpAItial 拥有深厚研究能力和实际产品经验,很有可能引领空间智能的技术浪潮。」(@AI 星球视界、@Z Potentials)

03 有态度的观点

1、英伟达 CEO:各行业都还处于 AI 应用的起步阶段

昨日,英伟达公布了其 2026 财年第一季度财务业绩情况,具体来看:

营收 441 亿美元,环比增长 12%,同比增长 69%;数据中心收入 391 亿美元,环比增长 10%,同比增长 73%。

英伟达在财报中指出,因今年 4 月受到美国政府通知,限制其 H20 芯片对华出口,因此导致公司在这一季度因 H20 库存过剩而产生了产生了 45 亿美元的费用,也因此无法获得 25 亿美元的 H20 销售收入。

英伟达预计,下一季度(2026 财年第二季度)收入将达 450 亿美元,其中因受到美政府限制,H20 收入损失约 80 亿美元。

英伟达 CEO 黄仁勋表示,全球对英伟达 AI 基础设施的需求极为强劲,AI 推理 token 生成量在一年内激增 10 倍,并随着 AI Agent 成为主流,AI 计算需求也将加速增长。

黄仁勋指出,尽管 AI 快速发展,但全球各行业在 AI 应用方面还处于早期阶段,其认为未来还有巨大的潜力等待挖掘。

他强调,世界各国正将 AI 视为关键基础设施,如同电力和互联网一样,而英伟达正处于这场深刻变革的核心地位。 (@APPSO)

2、李未可 CEO:AI 得最佳载体是眼镜

日前,李未可科技 CEO 茹忆接受了《第一财经》的采访,并在采访中畅聊了很多关于智能眼镜的现状与发展未来。

茹忆提到,AI 一定是未来十年人类最重要的驱动力量,那么大语言模型落地最佳的载体就是眼镜。其解释称,因为眼镜离人类的交互器官最近,和人沟通交流是最适合的,没有其他更好的设备了。茹忆「大胆」发言称:

如果说 AI 时代,所有硬件都值得被重做一次,那么第一个要被升级的就是眼镜。

对于「最失败的超前案例」——Google glass,茹忆则表示「2012 年对智能眼镜有点太早了」。他分析表示,近几年随着技术发展,再加上大模型预言,AI 开始能真正和人交互,智能眼镜的 timing 到了。

对于智能眼镜的未来发展,茹忆则从「过去的十年」开始分析:手机变成了智能手机,电视变成了智能电视。因此他认为,未来十年,眼镜也一定会智能化。同时茹忆表示,公司未来要做「真正轻薄、可戴一天」的智能眼镜。

茹忆还虚拟「构建」了一下未来的 AI 场景:我们通过 AI 眼镜,可以重构智能穿戴生态,让一个轻薄穿戴设备背后的 AI,成为一个真能帮到我们日常工作生活的 Agent(智能体)。(@APPSO)

更多 Voice Agent 学习笔记:

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暫無回覆。
需要 登录 後方可回應,如果你還沒有帳號按這裡 注册