研究院三年了。
地方政府没钱咯,改签孵化公司咯。
老婆问我,你们转孵化算合同继续么?
我跟她说,烦不了,至少这个 3 年周期要走也一定是我自己跑路。
花了 1 个星期想到底干啥。
摸了一下 vllm,triton,结果发现卧槽,随便一个模型训练就得 4,50G 的显存。只有单卡的我不配玩。
考虑玩小型化,看了 MLC 的量化,看了 AWQ 的开源。
然后 B 呼有人告诉我,你这落伍了,现在都是 XXX 的实现。
你妹的,去年一年卷出天际了。。。
最近再看某算子实现,发现指令完全看不懂。记得自己 2 年前,B 呼问过一个问题,CUDA PTX 到底在哪有用,根本就没人鸟我。好吧,这下暂时面前有目标了。
其实吧,最近我很摸鱼,沉迷小丑牌。上班 50% 的时间在到处扯皮,所以找点新玩意看看,万一出啥幺蛾子,只能靠技术吃饭,不能荒废的太狠。。。
合同说改就改啊 0.0
到期续签。
隔壁直接签外包。我们只是签孵化。--签外包就跑路,孵化凑合再看看。
所谓的新型研究所,就那不上不下的薪水,少的可怜的资源,能做啥。
研究啥的
新厅开始公示了吗
苹果电脑内存当显存用,好不好使
太年轻。
非黑即白、缺乏自信找存在都是小孩的心性。
就算进了体制,也是被当傻子看。
别尬吹咯,我家三代编制我都出来了,编制也一样,甚至比私企更复杂,编制里杀人都是不带血的,推荐你看本书,《沧浪之水》
这小兄弟,面试前排第二,就跳出来了。还说总比企业良心。。。
体制内最忌讳的就是这个。我去跟他言下之意就是低调点。。。
而且这个世界,就算第一,不还得想办法操作操作。
指望世道公平。。。
这会又来发这个。我不知道咋想的。
搞的像是公务员就不拖欠工资似的。。。
有本事走选调啊,走社招,剩下不就看命了,就算进去故事多呢。
直接一点,就是年轻,太高看自己了。这种面试能过?没背景,你不得乖乖当牛做马,跪舔的?
--反正我是做不来,从来就没想体制。现在 40+ 了也一样,去了,搞不好也是和领导吹胡子瞪眼的,不适合不去。
正在用 mlc 部署大模型,为啥说落伍了。。。。
陈天奇现在没以前卷了。。。
框架底层更新和其他框架,如 VLLM 没法比。
VLLM 已经支持 FP8 了。。。
量化 GPTQ 和 AWQ 也都不支持,只支持最基础量化。DEMO 玩玩可以,商用最好再看看。
GPTQ/AWQ,也有 MARLIN 的 FP16*INT4 的加速实现。VLLM 继承了 GPTQ 的 MARLIN,AWQ 有些小限制。
话说,你具体是什么角色呢。。。
我直接一点,看上去不像是做基础架构的啊。。。
手机厂商工作,现在只是用 mlc 来打通整个大模型端侧落地的流程,后面可能会用高通的 npu 加速方案,但是这块要 push 高通了
MLC 好像是支持 OPENCL 的原语。
高通 SNPE 估计得自己定制。
你们没有 LEADER 带你们分析一下可行性?
对,移动端 mlc 是用 gpu opencl 加速,高通在 8gen2 之后在推他们的 npu,用 qnn 这套框架推理,snpe 用的少了。现在高通自家的量化方案很拉,gptq 和 awq 都不支持,开源的方案,跟他们的 qnn 框架又对接不上
你这个问题我也想到了。最近我写知乎也提了。
这个没办法,资源投入过大,而且还有大量的不确定性。
核心有两个问题:
如果你是 HUAWEI,应该也不会用高通。
如果是 O/V 建议谨慎。我在架构层面会建议等等看。
PS:GEMM 的算子写起来不难,但是想做到 MARLIN 这种(差不多能到 3 倍),PTX 指令都得上,除了 NVIDIA,没人开放这一层指令。