zxsong · 回帖 · 测试之家

会员

zxsong

第 92431 位会员 / 2024-06-13

0 篇帖子 • 4 条回帖

0 关注者

0 正在关注

0 收藏

未设置 GitHub 信息.

2024.4 记录一下。。。 at 2024年06月21日

对，移动端 mlc 是用 gpu opencl 加速，高通在 8gen2 之后在推他们的 npu，用 qnn 这套框架推理，snpe 用的少了。现在高通自家的量化方案很拉，gptq 和 awq 都不支持，开源的方案，跟他们的 qnn 框架又对接不上
2024.4 记录一下。。。 at 2024年06月20日

手机厂商工作，现在只是用 mlc 来打通整个大模型端侧落地的流程，后面可能会用高通的 npu 加速方案，但是这块要 push 高通了
2024.4 记录一下。。。 at 2024年06月14日

我用 mlc，是想部署在移动端，vllm 确实更新快，但是主要还是服务端的推理
2024.4 记录一下。。。 at 2024年06月13日

正在用 mlc 部署大模型，为啥说落伍了。。。。