4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破模型推理门槛

我輩樹である · 发表于 2025-2-12 16:10

wjm47196 发表于 2025-2-12 16:01
问题是最后效果如何？选这么少的专家单元感觉会有影响啊

原版就是选8。不这么搞内存带宽需求还要涨几倍。

按照论文它只需要激活37b的参数就有现在这个效果。你想想，以前那些非moe架构的37b模型是多弱。

williamqh · 发表于 2025-2-12 16:11

可以买大英股票了。

zhuifeng88 · 发表于 2025-2-12 16:11

我輩樹である发表于 2025-2-12 15:39
专家模型都存在cpu里面，每次推理的时候，按照router专家给出的建议，将需要参与激活的专家模型从cpu交换 ...

不交换到GPU的，就CPU推理，交换到GPU激活expert也有20B参数量，别说pcie了，nvlink4都不如CPU直接推快，这也是为什么需要amx

KimmyGLM · 发表于 2025-2-12 16:13

zhuifeng88 发表于 2025-2-12 16:11
不交换到GPU的，就CPU推理，交换到GPU激活expert也有20B参数量，别说pcie了，nvlink4都不如CPU直接推快， ...

作为菜鸡问下，那为何不能直接效仿矿机，搞ASIC+大显存+NPU来做？

zhuifeng88 · 发表于 2025-2-12 16:14

KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下，那为何不能直接效仿矿机，搞ASIC+大显存+NPU来做？

做完发现已经没用了

赫敏 · 发表于 2025-2-12 16:14

牢英生不逢时。还有救吗？

我輩樹である · 发表于 2025-2-12 16:16

赫敏发表于 2025-2-12 16:14
牢英生不逢时。还有救吗？

都是无心插柳啊，这次amd还学不了，它的矩阵指令还在研发么。。。

我輩樹である · 发表于 2025-2-12 16:17

KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下，那为何不能直接效仿矿机，搞ASIC+大显存+NPU来做？

能别提npu么。。。npu是做无感推理用的。不是搞这种重负荷的东西。

zhuifeng88 · 发表于 2025-2-12 16:17

我輩樹である发表于 2025-2-12 16:17
能别提npu么。。。npu是做无感推理用的。不是搞这种重负荷的东西。

那就npu九宫格了 910c官方也叫npu

StevenG · 发表于 2025-2-12 16:22

wjm47196 发表于 2025-2-12 15:54
github开源页面有写啊，树大已经丢了
255.26 (optimized AMX-based MoE kernel, V0.3 only)
...

这是最新版本支持了amx加速，我说的不是官方的总结，你看贴的新闻链接，原始的新闻里，有网友用3090和7402试了，也有不小提升

zhuifeng88 · 发表于 2025-2-12 16:24

StevenG 发表于 2025-2-12 16:22
这是最新版本支持了amx加速，我说的不是官方的总结，你看贴的新闻链接，原始的新闻里，有网友用3090和740 ...

不小提升是肯定的 GPU的加入保底给CPU分担了25-30%的激活参数量，也就是这么多带宽分担

zcyandrew · 发表于 2025-2-12 16:25

我輩樹である发表于 2025-2-12 15:26
说下它们的配置：

CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)

它大概的idea是模型放cpu里，用4090来加速一些适合gpu架构的运算？

我輩樹である · 发表于 2025-2-12 16:25

zcyandrew 发表于 2025-2-12 16:25
它大概的idea是模型放cpu里，用4090来加速一些适合gpu架构的运算？

看这个解析：

https://zhuanlan.zhihu.com/p/23212558318

allensakura · 发表于 2025-2-12 16:26

之前我就猜，moe事实上有大幅减少高速显存需求的能力，不需要的部份完全可以放在内存做缓存，这麽快就有人实现
人脑显然也不是每次思考都要扫一遍神经元，不然功耗不知道要翻多少倍

ITNewTyper · 发表于 2025-2-12 16:27

按照这个趋势到时候16GB也能跑了。
显卡危机来了

zhuifeng88 · 发表于 2025-2-12 16:27

zcyandrew 发表于 2025-2-12 16:25
它大概的idea是模型放cpu里，用4090来加速一些适合gpu架构的运算？

不完全是模型放CPU里，是把expert放CPU里，expert是路由动态选择的，其他必定激活的参数放GPU比如attention
attention参数量11B左右 expert激活参数量每次20B左右，总共650B左右

zhuifeng88 · 发表于 2025-2-12 16:28

ITNewTyper 发表于 2025-2-12 16:27
按照这个趋势到时候16GB也能跑了。
显卡危机来了

这只解决能跑...如果算单位吞吐的成本的话8卡H200仍然更便宜

auronma · 发表于 2025-2-12 16:29

如果不挑显卡 AMD intel的显卡也可以用的话
老黄就要结束了

fcs15963 · 发表于 2025-2-12 16:35

后天发表于 2025-2-12 15:29
内存对于显卡来说不算贵了而且没有卡脖子

6000的内存，12000的显卡

qdzx123 · 发表于 2025-2-12 16:50

fcs15963 发表于 2025-2-12 16:35
6000的内存，12000的显卡

6000的内存 1000的显卡

16g显卡随便抓 v100就行了

mdeu · 发表于 2025-2-12 16:54

只要14g+cuda，那目前最便宜的新卡那不就是4060ti 16g

我輩樹である · 发表于 2025-2-12 16:58

10号的更新，感觉已经传导到了咸鱼市场了。

atiufo · 发表于 2025-2-12 17:07

显卡市场雪上加霜啊

ltpterry · 发表于 2025-2-12 17:38

KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下，那为何不能直接效仿矿机，搞ASIC+大显存+NPU来做？

Cerebras，Groq，还有某些Google TPU出来自己做的（他们是不是给自己取了一个LPU的新名字）。

具体到部署大语言模型的话他们愿意搞MAAS，把模型提前部署好然后给你一个OAI的API，直接调用去吧，少了很多折腾的乐趣嗯。。

哦对了，Gitee最近联合一堆国内的厂商上线了几个基于国产算力的DS，智算什么的。问题是看不到后端的算力，这里操作空间就有点大了

KimmyGLM · 发表于 2025-2-12 17:43

ltpterry 发表于 2025-2-12 17:38
Cerebras，Groq，还有某些Google TPU出来自己做的（他们是不是给自己取了一个LPU的新名字）。

具体到部 ...

预制菜也不是不行，便宜，货物对版能跑到标称性能即可，一次性买卖。

uprit · 发表于 2025-2-12 17:46

你们下次说准确点，实际跑起来只需要14GB显存，明明16G显存就够了，说什么24G？咋不说32G呢？建议修改标题。

uprit · 发表于 2025-2-12 17:47

ITNewTyper 发表于 2025-2-12 16:27
按照这个趋势到时候16GB也能跑了。
显卡危机来了

实际跑起来就需要14G显存，16G完全够用

wuxi001 · 发表于 2025-2-12 17:48

4090 ， 5090 ，高高在上，遥遥无期了

zhuifeng88 · 发表于 2025-2-12 17:52

uprit 发表于 2025-2-12 17:47
实际跑起来就需要14G显存，16G完全够用

没跑过才说的出这话...16g几百context就不行了，几百context给谁用啊，拉起来就跑个hello llm图一乐吗

zhuifeng88 · 发表于 2025-2-12 17:55

本帖最后由 zhuifeng88 于 2025-2-12 17:59 编辑

KimmyGLM 发表于 2025-2-12 16:06
8 expert正好就对应一张显卡，等于KTransfomer 把其他层的expert都砍了；

没砍啊....MoE就是这样工作的原始的是每层256 expert 每个token都动态选中top8 对于每一个token,在每层的选择都是不一样的 ktransformer那个说的是*可选的*改成选中top6 比选中top8能提速20%左右

账号		自动登录	找回密码
密码			加入我们

[显卡] 4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破模型推理门槛

浏览过的版块