马年将至,百灵 Ming-flash-omni-2.0 正式焕新登场!在这个辞旧迎新的时刻,让我们先请出 Ming-flash-omni-2.0 为大家送上一份特别的 “马年祝福”!

01 Ming-flash-omni-2.0 速览

本次发布的百灵全模态大模型 Ming-flash-omni-2.0,基于 Ling-2.0(MoE 架构,100B-A6B)架构训练。相比之前发布的 Preview 版本,Ming-flash-omni-2.0 实现了全模态能力的代际跃迁,无论是在复杂的视觉理解、充满情感的语音交互,还是极具创意的图像编辑上,Ming-flash-omni-2.0 的实测表现均已跻身开源领先水准。

长期以来,多模态大模型领域存在一个难题:通用的 “全模态大模型”(Omni-MLLMs)往往在特定领域的表现不如 “模态专用大模型”(Specialist MLLMs)。Ming-omni 系列的研发初衷,正是为了填补这道鸿沟。从 Lite 版本到 Flash Preview,我们验证了模型规模对性能的提升作用;而从 Preview 到如今的 2.0 版本,我们通过海量数据的精细化打磨,进一步触达了性能的天花板。Ming-flash-omni-2.0 的诞生证明了:一个统一架构的全模态模型,完全可以既是博学的通才,又是特定模态的专家。

02 特色能力

Ming-flash-omni-2.0 兼具领先的通用泛化性能与深度的领域专长,特别是在视觉百科知识力、沉浸式语音生成及高动态图像创作领域,展现出极强的专业竞争力。

视觉百科:看懂万物,更懂你所见

Ming-flash-omni-2.0 不仅仅是看见图像,更能调动背后的专家级知识库,实现 “所见即所知”。它能:

当博学的 “百科全书” 叠加了极致的 “视觉捕捉”,Ming-flash-omni-2.0 展现出了极强的时空语义理解能力:

可控语音生成:有情绪,有温度,声临其境

告别机械的电子音,Ming-flash-omni-2.0 让声音充满了表现力。它不仅能说话,还能根据你的指令调整情绪、语调甚至背景氛围。

图像创作:所想即所见,光影随心变

Ming-flash-omni-2.0 实现全能型图像处理能力,大幅提升生图、改图及分割的性能表现,赋予了你对画面的绝对掌控权。

通过融合 Ming-flash-omni-2.0 的语音与图像生成能力,还可以实现 “音画一体” 的创作体验。所见有形,所感有声,让视觉的张力与听觉的温情在此刻深度交织。

03 技术深解:Ming-flash-omni-2.0 如何实现突破?

我们整理了驱动 Ming-flash-omni-2.0 性能飞跃的核心技术细节。

全模态感知的强化

泛音频统一生成框架

Ming-flash-omni-2.0 作为业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音(Speech)、环境音效(Audio)与音乐(Music)。针对语音、音效与音乐在频带分布及序列长度上的显著差异的难题,我们提出了异构音频信号联合建模方案:

视觉生成、编辑和分割的深度融合

Ming-flash-omni-2.0 首创将生成、编辑、分割融入单一原生模型,实现架构级深度统一的同时,模型在生成、编辑及分割的典型指标上均达领先水平,并兼顾了生成图像的视觉真实感。

1)冷启动:利用确定性的 “编辑式分割” 任务建立模型的基础空间认知与定位能力

2)统一奖励空间建模:集成多维度评价指标,防止模型因过度优化单一奖励而陷入过拟合或退化解

3)离线分布正则化:通过引入约束项,确保生成内容始终锚定在真实图像分布内,大幅提升结果的视觉保真度。

04 后续规划

Ming-flash-omni-2.0 代表了我们在全模态模型探索上的阶段性进展,在多项核心指标上取得了突破。但与大模型普遍存在的幻觉挑战类似,当前版本在知识准确性、特定 IP 内容的识别与生成,以及英文音色克隆的逼真度方面仍有提升空间。此外,指令遵循能力也需进一步优化,以更好地支持复杂任务的精准执行。未来我们将持续优化 Ming-Omni 系列,向全模态智能的深水区挺进,在多任务融合中实现新的智能涌现。

05 开源相关信息

Ming-flash-omni-2.0 模型权重和推理代码已开源:

🤗** Hugging Face**:

https://huggingface.co/inclusionAI/Ming-flash-omni-2.0

🤖** ModelScope**:

https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0

📦** GitHub**:

https://github.com/inclusionAI/Ming

欢迎大家试用反馈,共同推进开源全模态模型的发展。

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么


↙↙↙阅读原文可查看相关链接,并与作者交流