对,移动端 mlc 是用 gpu opencl 加速,高通在 8gen2 之后在推他们的 npu,用 qnn 这套框架推理,snpe 用的少了。现在高通自家的量化方案很拉,gptq 和 awq 都不支持,开源的方案,跟他们的 qnn 框架又对接不上
手机厂商工作,现在只是用 mlc 来打通整个大模型端侧落地的流程,后面可能会用高通的 npu 加速方案,但是这块要 push 高通了
我用 mlc,是想部署在移动端,vllm 确实更新快,但是主要还是服务端的推理
正在用 mlc 部署大模型,为啥说落伍了。。。。