一片自留地 2024.4 记录一下。。。

magicyang · 2024年04月23日 · 最后由 magicyang 回复于 2024年06月21日 · 8752 次阅读

研究院三年了。
地方政府没钱咯,改签孵化公司咯。

老婆问我,你们转孵化算合同继续么?
我跟她说,烦不了,至少这个 3 年周期要走也一定是我自己跑路。

花了 1 个星期想到底干啥。
摸了一下 vllm,triton,结果发现卧槽,随便一个模型训练就得 4,50G 的显存。只有单卡的我不配玩。
考虑玩小型化,看了 MLC 的量化,看了 AWQ 的开源。
然后 B 呼有人告诉我,你这落伍了,现在都是 XXX 的实现。
你妹的,去年一年卷出天际了。。。

最近再看某算子实现,发现指令完全看不懂。记得自己 2 年前,B 呼问过一个问题,CUDA PTX 到底在哪有用,根本就没人鸟我。好吧,这下暂时面前有目标了。
其实吧,最近我很摸鱼,沉迷小丑牌。上班 50% 的时间在到处扯皮,所以找点新玩意看看,万一出啥幺蛾子,只能靠技术吃饭,不能荒废的太狠。。。

共收到 19 条回复 时间 点赞

合同说改就改啊 0.0

樱花小镇 回复

到期续签。
隔壁直接签外包。我们只是签孵化。--签外包就跑路,孵化凑合再看看。
所谓的新型研究所,就那不上不下的薪水,少的可怜的资源,能做啥。

研究啥的

20楼 已删除

新厅开始公示了吗

苹果电脑内存当显存用,好不好使

太年轻。
非黑即白、缺乏自信找存在都是小孩的心性。
就算进了体制,也是被当傻子看。

别尬吹咯,我家三代编制我都出来了,编制也一样,甚至比私企更复杂,编制里杀人都是不带血的,推荐你看本书,《沧浪之水》

15楼 已删除
10楼 已删除
11楼 已删除

哈哈哈哈,之前在 B 站看了根据这本书改编的电视剧《岁月》的解说,确实真实

CmYzzZ 回复

哈哈,这书除了男主性格经历太夸张戏剧,体制的门道写的很真实,真心推荐一下这哥们还破防发帖挂我一下😂

这小兄弟,面试前排第二,就跳出来了。还说总比企业良心。。。
体制内最忌讳的就是这个。我去跟他言下之意就是低调点。。。
而且这个世界,就算第一,不还得想办法操作操作。
指望世道公平。。。
这会又来发这个。我不知道咋想的。
搞的像是公务员就不拖欠工资似的。。。

有本事走选调啊,走社招,剩下不就看命了,就算进去故事多呢。
直接一点,就是年轻,太高看自己了。这种面试能过?没背景,你不得乖乖当牛做马,跪舔的?
--反正我是做不来,从来就没想体制。现在 40+ 了也一样,去了,搞不好也是和领导吹胡子瞪眼的,不适合不去。

“一家三代,薪火相传,接力守望”😁

正在用 mlc 部署大模型,为啥说落伍了。。。。

zxsong 回复

陈天奇现在没以前卷了。。。
框架底层更新和其他框架,如 VLLM 没法比。
VLLM 已经支持 FP8 了。。。

magicyang 回复

我用 mlc,是想部署在移动端,vllm 确实更新快,但是主要还是服务端的推理

zxsong 回复

量化 GPTQ 和 AWQ 也都不支持,只支持最基础量化。DEMO 玩玩可以,商用最好再看看。
GPTQ/AWQ,也有 MARLIN 的 FP16*INT4 的加速实现。VLLM 继承了 GPTQ 的 MARLIN,AWQ 有些小限制。

话说,你具体是什么角色呢。。。
我直接一点,看上去不像是做基础架构的啊。。。

magicyang 回复

手机厂商工作,现在只是用 mlc 来打通整个大模型端侧落地的流程,后面可能会用高通的 npu 加速方案,但是这块要 push 高通了

zxsong 回复

MLC 好像是支持 OPENCL 的原语。
高通 SNPE 估计得自己定制。
你们没有 LEADER 带你们分析一下可行性?

magicyang 回复

对,移动端 mlc 是用 gpu opencl 加速,高通在 8gen2 之后在推他们的 npu,用 qnn 这套框架推理,snpe 用的少了。现在高通自家的量化方案很拉,gptq 和 awq 都不支持,开源的方案,跟他们的 qnn 框架又对接不上

你这个问题我也想到了。最近我写知乎也提了。
这个没办法,资源投入过大,而且还有大量的不确定性。
核心有两个问题:

  1. 芯片厂商接口会开放到什么程度,短期投入一个小团队干半年会不会半年之后芯片团队就支持了。
  2. 现在需要支持的功能是否需要这么大投入,都是问题。

如果你是 HUAWEI,应该也不会用高通。
如果是 O/V 建议谨慎。我在架构层面会建议等等看。

PS:GEMM 的算子写起来不难,但是想做到 MARLIN 这种(差不多能到 3 倍),PTX 指令都得上,除了 NVIDIA,没人开放这一层指令。

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册