作为聚焦实时互动(Real-Time Engagement, RTE)的开发者社区,RTE 开发者社区始终关注人与 AI 在端侧的深度协同。随着端侧模型能力持续增强,「端 - 边-云」协同架构正加速演进,一个成熟、高效、跨平台的端侧 AI 开发 SDK 已成为行业刚需。

Nexa AI 正是这一趋势的引领者。

我们诚邀你参加 12 月 28 日(周日)上午 11:00~12:00 在「Voice Agent+ 硬件」微信群举办的线上快闪 AMA 活动,特别邀请 Nexa AI CTO Zack Li 与开发者面对面交流:

参与方式

添加微信 Creators2022,备注格式为:「一句话个人介绍 + 端侧 AI」。备注清晰者将优先进群。

⚡「微信群快闪 AMA」是一个轻量、轻松、轻互动的开发者交流活动——在约定时间内,大家可直接在群内文字提问,嘉宾将实时答疑。一人提问,全体受益,共同激发高质量的技术碰撞。

带上你的好奇心和问题,周日见!


暴涨 7000+ GitHub Star,一部手机就能跑本地大模型,NEXA SDK 重磅更新

从端侧推理引擎的深度优化,到软硬件协同的模型定制突破,再到全场景解决方案的无缝落地 ——Nexa SDK 迎来重磅更新。这一次我们进一步突破手机、PC、汽车、IoT 设备间的算力壁垒,让 “边缘 AI 推理” 更加触手可及!

欢迎 Star 支持我们的开源项目,每一份认可都是我们前行的动力!

代码:

https://github.com/NexaAI/nexa-sdk


文档:****

https://docs.nexa.ai/cn/nexa-sdk-go/overview


HuggingFace:

https://huggingface.co/NexaAI


图片

Nexa SDK 端侧 AI 开发工具包,依托自研 NexaML 引擎,可跨平台深度适配 NPU、GPU、CPU,支持多模态模型 Day-0 落地,以低代码、OpenAI API 兼容特性,助力手机、汽车等设备快速实现高效本地 AI 应用




一、AI 的 “最后一公里” 在设备端


当下,大模型的战场仍集中在云端。云端虽能提供强大的生成与推理能力,但始终受限于三大核心痛点:

随着芯片技术的爆发式发展,这一局面正在被改写。

无论是手机的 NPU(神经网络处理单元)、PC 的独立显卡,还是嵌入式设备的专用计算芯片,硬件算力的普遍提升为 AI 迁移至 “端侧” 奠定了基础。用户不再满足于 “云端调用” 的间接体验,而是渴望将 AI 直接植入日常设备,实现“数据不出设备、响应无需等待、使用无需付费”的终极体验。

Nexa SDK 就是这样一套“一站式端侧 AI 推理与部署工具包”覆盖模型压缩、跨平台适配、快速部署全流程,旨在解决端侧 AI 开发中的兼容性、性能优化、易用性三大核心难题。

其核心价值在于:支持 Hugging Face 海量模型格式,兼容从手机到 IoT 设备的全硬件平台,让开发者通过简单命令即可完成复杂模型的端侧部署,真正实现“一次开发,全设备运行”。

以安卓高通骁龙平台为例,下面视频展示了 Nexa SDK 其图片识别理解、语音识别的多模态能力。

Nexa SDK for Android,由 Nexa AI 与高通合作打造,专为骁龙手机简化端侧 AI 部署。它可调用 Hexagon NPU(AI 核心)、Oryon CPU、Adreno GPU,Granite 4.0-h-350M 模型在 NPU 达 92 token/s,能效为 CPU 9 倍。  支持多类模型,含 GPT-OSS-20B(200 亿参数,≥16GB RAM 骁龙机可端侧运行),且新模型 Day-0 可用。

详见高通开发者博客:

https://www.qualcomm.com/developer/blog/2025/11/nexa-ai-for-android-simple-way-to-bring-on-device-ai-to-smartphones-with-snapdragon


二、技术深潜——“异构计算” 与 “全格式支持”

#

端侧 AI 开发的核心痛点,在于设备生态的碎片化。手机的 Apple A 系列芯片与安卓骁龙芯片架构不同,PC 的 CUDA 与 Metal 平台互不兼容,IoT 设备的低算力环境更是对模型提出苛刻要求。

过去,开发者需为不同设备编写专属代码,适配成本极高,这也成为端侧 AI 普及的最大障碍。

Nexa SDK 给出的解决方案,核心在于 “异构计算调度” 与 “全链路兼容”, NexaQuant 模型压缩技术是第一个支点。

图片

Nexa SDK for iOS & macOS,它能让 iOS 移动设备与 macOS 电脑本地运行最新 AI 模型,不仅实现 2 倍性能提升与 9 倍能耗节省,还只需三行代码即可启动运行,同时支持 Embedding、ASR、OCR 等功能,兼容 EmbeddingNeural、Gemma 3 等框架。

1. NexaQuant:压缩不缩水,让大模型 “瘦身” 适配端侧

###

模型体积与性能的平衡,是端侧部署的第一道关卡。即使是 3B 参数的小模型,原始格式也需占用数 GB 存储空间,推理时的内存消耗更是让普通设备难以承受。

NexaQuant 作为硬件感知型多模态模型压缩工具,通过创新的混合精度量化技术,实现了 “3 倍速度提升、4 倍存储/能耗节省,同时保证 100%+ 精度恢复” 的突破。

当应用于Llama 3.1/3.2模型(1B、3B和8B参数版本)时,在各项标准评估指标上均达到了原始BF16模型100%的性能。这种相较于基准的轻微性能提升在我们的测试套件中能稳定复现。该技术支持任何基于Transformer的模型,包括处理视觉和音频输入的多模态系统。虽然NexaQuant能够扩展以处理任何规模的模型,但我们针对 10B 参数以下的模型深度优化,发现这一范围是计算效率与实际部署需求之间的最佳平衡点

当应用于 Llama 3.1/3.2 模型(1B、3B 和 8B 参数版本)时,在各项标准评估指标上均达到了原始 BF16 模型 100% 的性能。这种相较于基准的轻微性能提升在测试套件中能稳定复现。该技术支持任何基于 Transformer 的模型,包括处理视觉和音频输入的多模态系统。虽然 NexaQuant 能够扩展以处理任何规模的模型,但针对 10B 参数以下的模型深度优化是计算效率与实际部署需求之间的最佳平衡点

NexaQuant 其核心优势在于:

借助NexaQuant,将图像生成模型的速度提升4倍,同时保持高质量的输出,从而实现更快、更安全且更注重隐私的创意体验。相较于原始模型(BF16),Nexa压缩后的FLUX.1-dev模型能够实现:原始文件大小的27.9%:23.8 GB → 6.64 GB,所需运行时内存的36%:34.66GB → 12.61 GB。与标准Q4\_0量化相比的性能指标:推理速度快9.6倍

借助 NexaQuant,将图像生成模型的速度提升 4 倍,同时保持高质量的输出,从而实现更快、更安全且更注重隐私的创意体验。相较于原始模型(BF16),Nexa 压缩后的 FLUX.1-dev 模型能够实现:原始文件大小的 27.9%:23.8 GB → 6.64 GB,所需运行时内存的 36%:34.66GB → 12.61 GB。与标准 Q4_0 量化相比的性能指标:推理速度快 9.6 倍

2. 异构后端支持:打破设备壁垒,算力自动调度,能耗大幅节省

Nexa SDK 最强大的能力,在于通过底层推理引擎 NexaML 其对全平台硬件的深度适配,真正实现 “一次开发,全设备运行”:

为了更直观、清晰地展示支持的设备与其他框架的比较,给出如下的特性支持表:

特性 Nexa SDK Ollama llama.cpp LM Studio
NPU ✅ 优先支持 NPU
Android SDK 支持 ✅ NPU/ GPU / CPU
支持 GGUF、MLX、NEXA 格式的任意模型 ✅ 底层控制
全模态支持 ✅ 支持图像、音频、文本
跨平台支持 ✅ 支持桌面端、移动端、车载端、物联网端
一行代码运行
兼容 OpenAI API + 函数调用

图例说明:✅ 支持 | ⚠ 部分支持 | ❌ 不支持


三、场景化体验——不仅是聊天,而是 “多模态” 助手

技术的最终价值,在于落地为可感知的用户体验。端侧 AI 生态,早已超越单纯的文本聊天,延伸至多模态交互、本地知识库、实时场景感知等多元场景。

###

3.1 移动端:口袋里的 “隐私 AI 管家”——EmbedNeural

###

假如您的手机相册里存着数千张照片、截图和设计素材,无需联网,用自然语言就能瞬间找到目标——这正是 Nexa SDK + EmbedNeural 带来的体验。作为全球首个专为 Apple 和 Qualcomm NPU 设计的多模态嵌入模型,它让手机成为 “永不离线的视觉搜索引擎”。

快速体验:两步完成部署

nexa pull NexaAI/EmbedNeural
nexa serve

pip install -r requirements.txt
python gradio_ui.py

####

核心亮点

###

对于需要处理大量敏感文档的知识工作者,如律师、金融从业者、医生,基于 Nexa SDK 构建的本地 AI 助手 Hyperlink 为 PC 端 AI 带来了全新体验。这款应用相当于 “私有化部署的 Perplexity”,让电脑成为能理解文件、生成洞察的智能伙伴。

Hyperlink 支持 100% 本地离线、无限制上下文同步、多硬件本地运行最新模型等全功能;ChatGPT 仅具备部分功能且不支持本地;其他本地 AI 仅实现本地离线,功能较单一

Hyperlink 支持 100% 本地离线、无限制上下文同步、多硬件本地运行最新模型等全功能;

Hyperlink 核心能力包括:

下面视频是 Hyperlink 在本地 PC 上部署 gpt-oss-20B 模型,实现本地 RAG:

###

3.3 全场景多模态:从汽车到 IoT 的 “感知大脑”

###

图片

Nexa SDK 的场景也可以延伸到汽车和 IoT 领域:

图片


四、从开发者出发,赋能端侧 AI 开发

*

##

Nexa SDK 始终从开发者角度考虑,持续致力于降低端侧 AI 开发门槛。

###

4.1 零成本迁移:OpenAI API 兼容

开发者无需改变既有的开发习惯,只需将云端 API 请求指向本地 Nexa Server,即可实现从云端到端侧的无缝迁移。无论是聊天交互、函数调用还是多模态处理,都能沿用熟悉的接口规范,迁移成本几乎为零。

4.2 极致易用:一行命令启动模型

Nexa SDK 极大简化端侧 AI 部署的复杂流程,将繁琐的配置、优化、适配工作封装为简单命令:

nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF

nexa infer NexaAI/
qwen3vl-4B-Thinking-4bit-mlx

这种 “开箱即用” 的设计,让非专业算法工程师也能快速落地端侧 AI 应用。下面视频展示了通过 NexaCLI 实现 PC 端 38 秒极速安装运行 Qwen 模型。

4.3 强大生态:覆盖主流模型与硬件伙伴

图片

1)模型支持

深度适配通义千问系列(Qwen-VL、Qwen-Audio)、Llama 3 系列、GPT-OSS 等主流模型(4/8 bit),同时支持自定义模型的快速接入。

模型能力涵盖了 Any to Text、Text to Text、Text to Image、Image to Text 以及 Image Text to Text 这类不同形式间的转换类任务,也涉及 OCR、目标检测、Speech to Text(ASR)、Embedding 以及 Rerank 这些具体的功能型任务,

模型能力涵盖了 Any to Text、Text to Text、Text to Image、Image to Text 以及 Image Text to Text 这类不同形式间的转换类任务,也涉及 OCR、目标检测、Speech to Text(ASR)、Embedding 以及 Rerank 这些具体的功能型任务,覆盖了从形式转换到特定场景处理的不同需求,这些都可以在 Model Hub 上找到。

2)硬件合作

与 Qualcomm、Apple、AMD、Intel、NVIDIA 等芯片厂商深度合作,针对特定硬件优化运行效率。例如,Hyperlink 借助 Qualcomm Hexagon NPU 的 80 TOPS 算力,实现隐私与性能的兼顾;在 AMD Ryzen AI 平台上,模型解码速度达 51.78 tok/s。

####

3)社区支持

GitHub 仓库(NexaAI/nexa-sdk)提供完整的示例代码、文档和社区支持,开发者可快速获取技术帮助,同时参与生态共建。

https://github.com/NexaAI/nexa-sdk/tree/main/demos

https://docs.nexa.ai/cn/nexa-sdk-android/overview


写在最后:端侧 AI 的未来已来

随着云端大模型的参数竞赛进入 “高投入,低收益” 阶段,或许未来的 AI 将是 “贴近用户” 的 AI——贴近用户的设备、贴近用户的场景、贴近用户对隐私和体验的核心需求。

随着模型压缩技术的持续进步和硬件算力的不断提升,未来的 AI 应用将像手机 APP 一样普及——无需联网、无需付费、随取随用。我们希望通过Nexa SDK,能够让更多开发者参与到这场变革中来。

如果您也想体验端侧 AI 的魅力,不妨前往我们的 GitHub 仓库为 Nexa SDK (https://github.com/NexaAI/nexa-sdk/)点亮 Star,或下载示例代码,用一行命令启动属于你的本地 AI 模型。

我们在 GitHub 上还发布了有奖征集活动,使用 Nexa SDK 的优秀应用开发者可以获得 1500 美元的优质应用奖励,更有5000 美金特别奖励等待你来领取哦!

图片

端侧 AI 的未来,等待你亲手开启!


如果您有兴趣,欢迎扫码加入我们国内的社群👇****

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

图片


↙↙↙阅读原文可查看相关链接,并与作者交流