• 2024.4 记录一下。。。 at 2024年06月21日

    对,移动端 mlc 是用 gpu opencl 加速,高通在 8gen2 之后在推他们的 npu,用 qnn 这套框架推理,snpe 用的少了。现在高通自家的量化方案很拉,gptq 和 awq 都不支持,开源的方案,跟他们的 qnn 框架又对接不上

  • 2024.4 记录一下。。。 at 2024年06月20日

    手机厂商工作,现在只是用 mlc 来打通整个大模型端侧落地的流程,后面可能会用高通的 npu 加速方案,但是这块要 push 高通了

  • 2024.4 记录一下。。。 at 2024年06月14日

    我用 mlc,是想部署在移动端,vllm 确实更新快,但是主要还是服务端的推理

  • 2024.4 记录一下。。。 at 2024年06月13日

    正在用 mlc 部署大模型,为啥说落伍了。。。。