一片自留地 2024.4 记录一下。。。

magicyang · April 23, 2024 · Last by magicyang replied at June 21, 2024 · 9827 hits

研究院三年了。
地方政府没钱咯,改签孵化公司咯。

老婆问我,你们转孵化算合同继续么?
我跟她说,烦不了,至少这个 3 年周期要走也一定是我自己跑路。

花了 1 个星期想到底干啥。
摸了一下 vllm,triton,结果发现卧槽,随便一个模型训练就得 4,50G 的显存。只有单卡的我不配玩。
考虑玩小型化,看了 MLC 的量化,看了 AWQ 的开源。
然后 B 呼有人告诉我,你这落伍了,现在都是 XXX 的实现。
你妹的,去年一年卷出天际了。。。

最近再看某算子实现,发现指令完全看不懂。记得自己 2 年前,B 呼问过一个问题,CUDA PTX 到底在哪有用,根本就没人鸟我。好吧,这下暂时面前有目标了。
其实吧,最近我很摸鱼,沉迷小丑牌。上班 50% 的时间在到处扯皮,所以找点新玩意看看,万一出啥幺蛾子,只能靠技术吃饭,不能荒废的太狠。。。

共收到 19 条回复 时间 点赞

合同说改就改啊 0.0

樱花小镇 回复

到期续签。
隔壁直接签外包。我们只是签孵化。--签外包就跑路,孵化凑合再看看。
所谓的新型研究所,就那不上不下的薪水,少的可怜的资源,能做啥。

研究啥的

4Floor has deleted

新厅开始公示了吗

苹果电脑内存当显存用,好不好使

太年轻。
非黑即白、缺乏自信找存在都是小孩的心性。
就算进了体制,也是被当傻子看。

别尬吹咯,我家三代编制我都出来了,编制也一样,甚至比私企更复杂,编制里杀人都是不带血的,推荐你看本书,《沧浪之水》

9Floor has deleted
10Floor has deleted
11Floor has deleted

哈哈哈哈,之前在 B 站看了根据这本书改编的电视剧《岁月》的解说,确实真实

鲨鱼辣椒 回复

哈哈,这书除了男主性格经历太夸张戏剧,体制的门道写的很真实,真心推荐一下这哥们还破防发帖挂我一下😂

这小兄弟,面试前排第二,就跳出来了。还说总比企业良心。。。
体制内最忌讳的就是这个。我去跟他言下之意就是低调点。。。
而且这个世界,就算第一,不还得想办法操作操作。
指望世道公平。。。
这会又来发这个。我不知道咋想的。
搞的像是公务员就不拖欠工资似的。。。

有本事走选调啊,走社招,剩下不就看命了,就算进去故事多呢。
直接一点,就是年轻,太高看自己了。这种面试能过?没背景,你不得乖乖当牛做马,跪舔的?
--反正我是做不来,从来就没想体制。现在 40+ 了也一样,去了,搞不好也是和领导吹胡子瞪眼的,不适合不去。

“一家三代,薪火相传,接力守望”😁

正在用 mlc 部署大模型,为啥说落伍了。。。。

magicyang #17 · June 13, 2024 Author
zxsong 回复

陈天奇现在没以前卷了。。。
框架底层更新和其他框架,如 VLLM 没法比。
VLLM 已经支持 FP8 了。。。

magicyang 回复

我用 mlc,是想部署在移动端,vllm 确实更新快,但是主要还是服务端的推理

magicyang #19 · June 14, 2024 Author
zxsong 回复

量化 GPTQ 和 AWQ 也都不支持,只支持最基础量化。DEMO 玩玩可以,商用最好再看看。
GPTQ/AWQ,也有 MARLIN 的 FP16*INT4 的加速实现。VLLM 继承了 GPTQ 的 MARLIN,AWQ 有些小限制。

话说,你具体是什么角色呢。。。
我直接一点,看上去不像是做基础架构的啊。。。

magicyang 回复

手机厂商工作,现在只是用 mlc 来打通整个大模型端侧落地的流程,后面可能会用高通的 npu 加速方案,但是这块要 push 高通了

magicyang #21 · June 20, 2024 Author
zxsong 回复

MLC 好像是支持 OPENCL 的原语。
高通 SNPE 估计得自己定制。
你们没有 LEADER 带你们分析一下可行性?

magicyang 回复

对,移动端 mlc 是用 gpu opencl 加速,高通在 8gen2 之后在推他们的 npu,用 qnn 这套框架推理,snpe 用的少了。现在高通自家的量化方案很拉,gptq 和 awq 都不支持,开源的方案,跟他们的 qnn 框架又对接不上

magicyang #23 · June 21, 2024 Author

你这个问题我也想到了。最近我写知乎也提了。
这个没办法,资源投入过大,而且还有大量的不确定性。
核心有两个问题:

  1. 芯片厂商接口会开放到什么程度,短期投入一个小团队干半年会不会半年之后芯片团队就支持了。
  2. 现在需要支持的功能是否需要这么大投入,都是问题。

如果你是 HUAWEI,应该也不会用高通。
如果是 O/V 建议谨慎。我在架构层面会建议等等看。

PS:GEMM 的算子写起来不难,但是想做到 MARLIN 这种(差不多能到 3 倍),PTX 指令都得上,除了 NVIDIA,没人开放这一层指令。

需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up