专栏文章 2024.4 记录一下。。。

magicyang · 2024年04月23日 · 最后由 magicyang 回复于 2024年06月21日 · 12055 次阅读

研究院三年了。
地方政府没钱咯，改签孵化公司咯。

老婆问我，你们转孵化算合同继续么？
我跟她说，烦不了，至少这个 3 年周期要走也一定是我自己跑路。

花了 1 个星期想到底干啥。
摸了一下 vllm，triton，结果发现卧槽，随便一个模型训练就得 4，50G 的显存。只有单卡的我不配玩。
考虑玩小型化，看了 MLC 的量化，看了 AWQ 的开源。
然后 B 呼有人告诉我，你这落伍了，现在都是 XXX 的实现。
你妹的，去年一年卷出天际了。。。

最近再看某算子实现，发现指令完全看不懂。记得自己 2 年前，B 呼问过一个问题，CUDA PTX 到底在哪有用，根本就没人鸟我。好吧，这下暂时面前有目标了。
其实吧，最近我很摸鱼，沉迷小丑牌。上班 50% 的时间在到处扯皮，所以找点新玩意看看，万一出啥幺蛾子，只能靠技术吃饭，不能荒废的太狠。。。

1 个赞

共收到 19 条回复时间点赞

樱花小镇 #1 · 2024年04月24日

合同说改就改啊 0.0

magicyang #2 · 2024年04月24日 Author

对

樱花小镇回复

到期续签。
隔壁直接签外包。我们只是签孵化。--签外包就跑路，孵化凑合再看看。
所谓的新型研究所，就那不上不下的薪水，少的可怜的资源，能做啥。

最佳继续 #3 · 2024年04月24日

研究啥的

4楼已删除

今晚打老虎 #5 · 2024年04月24日

新厅开始公示了吗

润安 #6 · 2024年04月25日

苹果电脑内存当显存用，好不好使

magicyang #7 · 2024年04月25日 Author 2 个赞

太年轻。
非黑即白、缺乏自信找存在都是小孩的心性。
就算进了体制，也是被当傻子看。

五十二度红茶 #8 · 2024年04月26日

别尬吹咯，我家三代编制我都出来了，编制也一样，甚至比私企更复杂，编制里杀人都是不带血的，推荐你看本书，《沧浪之水》

9楼已删除

10楼已删除

12楼已删除

鲨鱼辣椒 #12 · 2024年04月26日

对

五十二度红茶回复

哈哈哈哈，之前在 B 站看了根据这本书改编的电视剧《岁月》的解说，确实真实

五十二度红茶 #13 · 2024年04月26日

对

鲨鱼辣椒回复

哈哈，这书除了男主性格经历太夸张戏剧，体制的门道写的很真实，真心推荐一下这哥们还破防发帖挂我一下

magicyang #14 · 2024年04月26日 Author 1 个赞

对

五十二度红茶回复

这小兄弟，面试前排第二，就跳出来了。还说总比企业良心。。。
体制内最忌讳的就是这个。我去跟他言下之意就是低调点。。。
而且这个世界，就算第一，不还得想办法操作操作。
指望世道公平。。。
这会又来发这个。我不知道咋想的。
搞的像是公务员就不拖欠工资似的。。。

有本事走选调啊，走社招，剩下不就看命了，就算进去故事多呢。
直接一点，就是年轻，太高看自己了。这种面试能过？没背景，你不得乖乖当牛做马，跪舔的？
--反正我是做不来，从来就没想体制。现在 40+ 了也一样，去了，搞不好也是和领导吹胡子瞪眼的，不适合不去。

小黑子-IKUN #15 · 2024年04月27日

对

五十二度红茶回复

“一家三代，薪火相传，接力守望”

zxsong #16 · 2024年06月13日

正在用 mlc 部署大模型，为啥说落伍了。。。。

magicyang #17 · 2024年06月13日 Author

对

zxsong 回复

陈天奇现在没以前卷了。。。
框架底层更新和其他框架，如 VLLM 没法比。
VLLM 已经支持 FP8 了。。。

zxsong #18 · 2024年06月14日

对

magicyang 回复

我用 mlc，是想部署在移动端，vllm 确实更新快，但是主要还是服务端的推理

magicyang #19 · 2024年06月14日 Author

对

zxsong 回复

量化 GPTQ 和 AWQ 也都不支持，只支持最基础量化。DEMO 玩玩可以，商用最好再看看。
GPTQ/AWQ，也有 MARLIN 的 FP16*INT4 的加速实现。VLLM 继承了 GPTQ 的 MARLIN，AWQ 有些小限制。

话说，你具体是什么角色呢。。。
我直接一点，看上去不像是做基础架构的啊。。。

zxsong #20 · 2024年06月20日

对

magicyang 回复

手机厂商工作，现在只是用 mlc 来打通整个大模型端侧落地的流程，后面可能会用高通的 npu 加速方案，但是这块要 push 高通了

magicyang #21 · 2024年06月20日 Author

对

zxsong 回复

MLC 好像是支持 OPENCL 的原语。
高通 SNPE 估计得自己定制。
你们没有 LEADER 带你们分析一下可行性？

zxsong #22 · 2024年06月21日

对

magicyang 回复

对，移动端 mlc 是用 gpu opencl 加速，高通在 8gen2 之后在推他们的 npu，用 qnn 这套框架推理，snpe 用的少了。现在高通自家的量化方案很拉，gptq 和 awq 都不支持，开源的方案，跟他们的 qnn 框架又对接不上

magicyang #23 · 2024年06月21日 Author

你这个问题我也想到了。最近我写知乎也提了。
这个没办法，资源投入过大，而且还有大量的不确定性。
核心有两个问题：

芯片厂商接口会开放到什么程度，短期投入一个小团队干半年会不会半年之后芯片团队就支持了。
现在需要支持的功能是否需要这么大投入，都是问题。

如果你是 HUAWEI，应该也不会用高通。
如果是 O/V 建议谨慎。我在架构层面会建议等等看。

PS：GEMM 的算子写起来不难，但是想做到 MARLIN 这种（差不多能到 3 倍），PTX 指令都得上，除了 NVIDIA，没人开放这一层指令。

需要登录后方可回复, 如果你还没有账号请点击这里注册。