我輩樹である
发表于 2025-2-12 16:10
wjm47196 发表于 2025-2-12 16:01
问题是最后效果如何?选这么少的专家单元感觉会有影响啊
原版就是选8。不这么搞内存带宽需求还要涨几倍。
按照论文它只需要激活37b的参数就有现在这个效果。你想想,以前那些非moe架构的37b模型是多弱。
williamqh
发表于 2025-2-12 16:11
可以买大英股票了。
zhuifeng88
发表于 2025-2-12 16:11
我輩樹である 发表于 2025-2-12 15:39
专家模型都存在cpu里面,每次推理的时候,按照router专家给出的建议,将需要参与激活的专家模型从cpu交换 ...
不交换到GPU的,就CPU推理,交换到GPU激活expert也有20B参数量,别说pcie了,nvlink4都不如CPU直接推快,这也是为什么需要amx
KimmyGLM
发表于 2025-2-12 16:13
zhuifeng88 发表于 2025-2-12 16:11
不交换到GPU的,就CPU推理,交换到GPU激活expert也有20B参数量,别说pcie了,nvlink4都不如CPU直接推快, ...
作为菜鸡问下,那为何不能直接效仿矿机,搞ASIC+大显存+NPU来做?
zhuifeng88
发表于 2025-2-12 16:14
KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下,那为何不能直接效仿矿机,搞ASIC+大显存+NPU来做?
做完发现已经没用了
赫敏
发表于 2025-2-12 16:14
牢英生不逢时。还有救吗?
我輩樹である
发表于 2025-2-12 16:16
赫敏 发表于 2025-2-12 16:14
牢英生不逢时。还有救吗?
都是无心插柳啊,这次amd还学不了,它的矩阵指令还在研发么。。。
我輩樹である
发表于 2025-2-12 16:17
KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下,那为何不能直接效仿矿机,搞ASIC+大显存+NPU来做?
能别提npu么。。。npu是做无感推理用的。不是搞这种重负荷的东西。
zhuifeng88
发表于 2025-2-12 16:17
我輩樹である 发表于 2025-2-12 16:17
能别提npu么。。。npu是做无感推理用的。不是搞这种重负荷的东西。
那就npu九宫格了 910c官方也叫npu
StevenG
发表于 2025-2-12 16:22
wjm47196 发表于 2025-2-12 15:54
github开源页面有写啊,树大已经丢了
255.26 (optimized AMX-based MoE kernel, V0.3 only)
...
这是最新版本支持了amx加速,我说的不是官方的总结,你看贴的新闻链接,原始的新闻里,有网友用3090和7402试了,也有不小提升
zhuifeng88
发表于 2025-2-12 16:24
StevenG 发表于 2025-2-12 16:22
这是最新版本支持了amx加速,我说的不是官方的总结,你看贴的新闻链接,原始的新闻里,有网友用3090和740 ...
不小提升是肯定的 GPU的加入保底给CPU分担了25-30%的激活参数量,也就是这么多带宽分担
zcyandrew
发表于 2025-2-12 16:25
我輩樹である 发表于 2025-2-12 15:26
说下它们的配置:
CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)
它大概的idea是模型放cpu里,用4090来加速一些适合gpu架构的运算?
我輩樹である
发表于 2025-2-12 16:25
zcyandrew 发表于 2025-2-12 16:25
它大概的idea是模型放cpu里,用4090来加速一些适合gpu架构的运算?
看这个解析:
https://zhuanlan.zhihu.com/p/23212558318
allensakura
发表于 2025-2-12 16:26
之前我就猜,moe事实上有大幅减少高速显存需求的能力,不需要的部份完全可以放在内存做缓存,这麽快就有人实现
人脑显然也不是每次思考都要扫一遍神经元,不然功耗不知道要翻多少倍[狂笑]
ITNewTyper
发表于 2025-2-12 16:27
按照这个趋势 到时候16GB也能跑了。
显卡危机来了
zhuifeng88
发表于 2025-2-12 16:27
zcyandrew 发表于 2025-2-12 16:25
它大概的idea是模型放cpu里,用4090来加速一些适合gpu架构的运算?
不完全是模型放CPU里,是把expert放CPU里,expert是路由动态选择的,其他必定激活的参数放GPU比如attention
attention参数量11B左右 expert激活参数量每次20B左右,总共650B左右
zhuifeng88
发表于 2025-2-12 16:28
ITNewTyper 发表于 2025-2-12 16:27
按照这个趋势 到时候16GB也能跑了。
显卡危机来了
这只解决能跑...如果算单位吞吐的成本的话8卡H200仍然更便宜
auronma
发表于 2025-2-12 16:29
如果不挑显卡 AMD intel的显卡也可以用的话
老黄就要结束了
fcs15963
发表于 2025-2-12 16:35
后天 发表于 2025-2-12 15:29
内存对于显卡来说 不算贵了而且没有卡脖子
6000的内存,12000的显卡[偷笑]
qdzx123
发表于 2025-2-12 16:50
fcs15963 发表于 2025-2-12 16:35
6000的内存,12000的显卡
6000的内存 1000的显卡 [困惑]
16g显卡随便抓 v100就行了
mdeu
发表于 2025-2-12 16:54
[偷笑]只要14g+cuda,那目前最便宜的新卡那不就是4060ti 16g
我輩樹である
发表于 2025-2-12 16:58
10号的更新,感觉已经传导到了咸鱼市场了。
atiufo
发表于 2025-2-12 17:07
显卡市场雪上加霜啊[流汗]
ltpterry
发表于 2025-2-12 17:38
KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下,那为何不能直接效仿矿机,搞ASIC+大显存+NPU来做?
Cerebras,Groq,还有某些Google TPU出来自己做的(他们是不是给自己取了一个LPU的新名字)。
具体到部署大语言模型的话他们愿意搞MAAS,把模型提前部署好然后给你一个OAI的API,直接调用去吧,少了很多折腾的乐趣嗯。。
哦对了,Gitee最近联合一堆国内的厂商上线了几个基于国产算力的DS,智算什么的。问题是看不到后端的算力,这里操作空间就有点大了
KimmyGLM
发表于 2025-2-12 17:43
ltpterry 发表于 2025-2-12 17:38
Cerebras,Groq,还有某些Google TPU出来自己做的(他们是不是给自己取了一个LPU的新名字)。
具体到部 ...
预制菜也不是不行,便宜,货物对版能跑到标称性能即可,一次性买卖。
uprit
发表于 2025-2-12 17:46
你们下次说准确点,实际跑起来只需要14GB显存,明明16G显存就够了,说什么24G?咋不说32G呢?建议修改标题。
uprit
发表于 2025-2-12 17:47
ITNewTyper 发表于 2025-2-12 16:27
按照这个趋势 到时候16GB也能跑了。
显卡危机来了
实际跑起来就需要14G显存,16G完全够用[偷笑]
wuxi001
发表于 2025-2-12 17:48
4090 , 5090 ,高高在上,遥遥无期了
zhuifeng88
发表于 2025-2-12 17:52
uprit 发表于 2025-2-12 17:47
实际跑起来就需要14G显存,16G完全够用
没跑过才说的出这话...16g几百context就不行了,几百context给谁用啊,拉起来就跑个hello llm图一乐吗
zhuifeng88
发表于 2025-2-12 17:55
本帖最后由 zhuifeng88 于 2025-2-12 17:59 编辑
KimmyGLM 发表于 2025-2-12 16:06
8 expert正好就对应一张显卡,等于KTransfomer 把其他层的expert都砍了;
没砍啊....MoE就是这样工作的 原始的是每层256 expert 每个token都动态选中top8 对于每一个token,在每层的选择都是不一样的 ktransformer那个说的是*可选的*改成选中top6 比选中top8能提速20%左右