Chiphell - 分享与交流用户体验

标题: 4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛 [打印本页]

作者: amagene    时间: 2025-2-12 15:21
标题: 4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛
https://news.qq.com/rain/a/20250212A04LGE00
DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。

而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。

但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:

支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。

其实早在DeepSeek-V2 时代,这个项目就因“专家卸载”技术而备受关注——它支持了236B的大模型在仅有24GB显存的消费级显卡上流畅运行,把显存需求砍到10分之一。
随着DeepSeek-R1的发布,社区的需求迅速激增,在GitHub盖起上百楼的issue,呼吁对其进行支持。

版本更新发布后,不少开发者也纷纷用自己的3090显卡和200GB内存进行实测,借助与Unsloth优化的组合,Q2_K_XL模型的推理速度已达到9.1 tokens/s,真正实现了千亿级模型的“家庭化”。

此外,KTransformers团队还公布了v0.3预览版的性能指标,将通过整合Intel AMX指令集,CPU预填充速度最高至286 tokens/s,相比llama.cpp快了近28倍。对于那些需要处理上万级Token上下文的长序列任务(比如大规模代码库分析)来说,相当于能够从“分钟级等待”瞬间迈入“秒级响应”,彻底释放CPU的算力潜能。
...
作者: dexterchen    时间: 2025-2-12 15:24
哈哈
32G的9070XT市场来了
作者: 我輩樹である    时间: 2025-2-12 15:26
说下它们的配置:

CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)
GPU: 4090D 24G VRAM
Memory: standard DDR5-4800 server DRAM (1 TB)

性能提升:

[NEW!!!] Local 671B DeepSeek-Coder-V3/R1: Running its Q4_K_M version using only 14GB VRAM and 382GB DRAM.
Prefill Speed (tokens/s):
KTransfermor: 54.21 (32 cores) → 74.362 (dual-socket, 2×32 cores) → 255.26 (optimized AMX-based MoE kernel, V0.3 only) → 286.55 (selectively using 6 experts, V0.3 only)
Compared to 10.31 tokens/s in llama.cpp with 2×32 cores, achieving up to 27.79× speedup.
Decode Speed (tokens/s):
KTransfermor: 8.73 (32 cores) → 11.26 (dual-socket, 2×32 cores) → 13.69 (selectively using 6 experts, V0.3 only)
Compared to 4.51 tokens/s in llama.cpp with 2×32 cores, achieving up to 3.03× speedup.
作者: a010301208    时间: 2025-2-12 15:26
要382GB内存的
作者: 后天    时间: 2025-2-12 15:29
a010301208 发表于 2025-2-12 15:26
要382GB内存的

内存对于显卡来说 不算贵了  而且没有卡脖子
作者: 我輩樹である    时间: 2025-2-12 15:30
它的性能提升是基于selectively using 6 experts的。deepseek r1有256个专家模型,按top8来选择激活。
作者: a010301208    时间: 2025-2-12 15:31
本帖最后由 a010301208 于 2025-2-12 15:44 编辑
后天 发表于 2025-2-12 15:29
内存对于显卡来说 不算贵了  而且没有卡脖子


这倒是,DDR5服务器主板插4根就够了,什么时候国产DDR5出点家用主板96G单条就绝杀了
作者: bigeblis    时间: 2025-2-12 15:34
提示: 作者被禁止或删除 内容自动屏蔽
作者: bigeblis    时间: 2025-2-12 15:35
提示: 作者被禁止或删除 内容自动屏蔽
作者: 我輩樹である    时间: 2025-2-12 15:35
bigeblis 发表于 2025-2-12 15:34
4090岂不是还要涨????

已经涨了吧。
作者: yuwl3000    时间: 2025-2-12 15:36
1t 内存,对于个人来说也不容易实现啊
作者: StevenG    时间: 2025-2-12 15:36
我輩樹である 发表于 2025-2-12 15:30
它的性能提升是基于selectively using 6 experts的。deepseek r1有256个专家模型,按top8来选择激活。 ...

简单点来说,就是处理一次请求时,只加载部分模型?
作者: bigeblis    时间: 2025-2-12 15:37
提示: 作者被禁止或删除 内容自动屏蔽
作者: StevenG    时间: 2025-2-12 15:37
内存频率有要求吗?d4能行吗?
作者: KimmyGLM    时间: 2025-2-12 15:38
本帖最后由 KimmyGLM 于 2025-2-12 15:39 编辑
我輩樹である 发表于 2025-2-12 15:26
说下它们的配置:

CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)


真牛逼老英啥时候把AMX 下放给消费级?
还有就是家用级的64G 单条D5赶紧上市啊
作者: qiuhepeng    时间: 2025-2-12 15:39
bigeblis 发表于 2025-2-12 15:37
666666
魔幻
我用了两年的卡,现在卖了不但不会亏钱,还能赚一笔。

?5700xt 2000买的 6000卖的
作者: 我輩樹である    时间: 2025-2-12 15:39
StevenG 发表于 2025-2-12 15:36
简单点来说,就是处理一次请求时,只加载部分模型?

专家模型都存在cpu里面,每次推理的时候,按照router专家给出的建议,将需要参与激活的专家模型从cpu交换到gpu里面。大概是这个意思。
作者: equaliser    时间: 2025-2-12 15:40
大陆存量4090越来越值钱了
作者: MikuLuka    时间: 2025-2-12 15:40
a010301208 发表于 2025-2-12 15:26
要382GB内存的

手里二手ESC4000A-E10 DDR4*8都能512,,如果是真的那条件要求阵地
看U的需求了7002/7003好多定制版U贼便宜就是主板血贵
作者: KimmyGLM    时间: 2025-2-12 15:41
MikuLuka 发表于 2025-2-12 15:40
手里二手ESC4000A-E10 DDR4*8都能512,,如果是真的那条件要求阵地
看U的需求了7002/7003好多定制版U贼便 ...

D4 没前途的,早点切换为D5
作者: wjm47196    时间: 2025-2-12 15:48
dexterchen 发表于 2025-2-12 15:24
哈哈
32G的9070XT市场来了

要cuda环境和牙膏amx指令集加速,看看后面有没有大佬弄rocm和epyc版的
作者: MikuLuka    时间: 2025-2-12 15:48
本帖最后由 MikuLuka 于 2025-2-12 15:49 编辑
KimmyGLM 发表于 2025-2-12 15:41
D4 没前途的,早点切换为D5


早年以物易物屯手里的 我用7K62*2跟朋友换了华硕的2U服务器准系统,大哥以搞渲染的 矿潮吧3090卖了空机器一人分了几台留着搞事情的
按照上面的说法华硕的E12系列的2U ESC4000A-E12 这种4卡 EPYC9004/5的准系统搞本地部署香疯了
作者: 网仙    时间: 2025-2-12 15:50
单路5代至强+4090,可以玩起来了
作者: a010301208    时间: 2025-2-12 15:50
equaliser 发表于 2025-2-12 15:40
大陆存量4090越来越值钱了

我怎么感觉利好16G显存,毕竟只是要求14G显存
作者: StevenG    时间: 2025-2-12 15:52
wjm47196 发表于 2025-2-12 15:48
要cuda环境和牙膏amx指令集加速,看看后面有没有大佬弄rocm和epyc版的

看原始新闻的截图,就是3090+epyc7402+200g内存
作者: wjm47196    时间: 2025-2-12 15:52
我輩樹である 发表于 2025-2-12 15:30
它的性能提升是基于selectively using 6 experts的。deepseek r1有256个专家模型,按top8来选择激活。 ...

不用这个选项就好了,255个token/s还不够用?
作者: wjm47196    时间: 2025-2-12 15:54
StevenG 发表于 2025-2-12 15:52
看原始新闻的截图,就是3090+epyc7402+200g内存

github开源页面有写啊,树大已经丢了
255.26 (optimized AMX-based MoE kernel, V0.3 only)

作者: 我輩樹である    时间: 2025-2-12 15:59
wjm47196 发表于 2025-2-12 15:52
不用这个选项就好了,255个token/s还不够用?


top8其实差不多。prefill阶段的。


作者: wjm47196    时间: 2025-2-12 16:01
我輩樹である 发表于 2025-2-12 15:59
top8其实差不多。prefill阶段的。

问题是最后效果如何?选这么少的专家单元感觉会有影响啊
作者: KimmyGLM    时间: 2025-2-12 16:06
wjm47196 发表于 2025-2-12 16:01
问题是最后效果如何?选这么少的专家单元感觉会有影响啊

8 expert正好就对应一张显卡,等于KTransfomer 把其他层的expert都砍了;

作者: 我輩樹である    时间: 2025-2-12 16:10
wjm47196 发表于 2025-2-12 16:01
问题是最后效果如何?选这么少的专家单元感觉会有影响啊

原版就是选8。不这么搞内存带宽需求还要涨几倍。

按照论文它只需要激活37b的参数就有现在这个效果。你想想,以前那些非moe架构的37b模型是多弱。
作者: williamqh    时间: 2025-2-12 16:11
可以买大英股票了。
作者: zhuifeng88    时间: 2025-2-12 16:11
我輩樹である 发表于 2025-2-12 15:39
专家模型都存在cpu里面,每次推理的时候,按照router专家给出的建议,将需要参与激活的专家模型从cpu交换 ...

不交换到GPU的,就CPU推理,交换到GPU激活expert也有20B参数量,别说pcie了,nvlink4都不如CPU直接推快,这也是为什么需要amx
作者: KimmyGLM    时间: 2025-2-12 16:13
zhuifeng88 发表于 2025-2-12 16:11
不交换到GPU的,就CPU推理,交换到GPU激活expert也有20B参数量,别说pcie了,nvlink4都不如CPU直接推快, ...

作为菜鸡问下,那为何不能直接效仿矿机,搞ASIC+大显存+NPU来做?

作者: zhuifeng88    时间: 2025-2-12 16:14
KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下,那为何不能直接效仿矿机,搞ASIC+大显存+NPU来做?

做完发现已经没用了
作者: 赫敏    时间: 2025-2-12 16:14
牢英生不逢时。还有救吗?
作者: 我輩樹である    时间: 2025-2-12 16:16
赫敏 发表于 2025-2-12 16:14
牢英生不逢时。还有救吗?

都是无心插柳啊,这次amd还学不了,它的矩阵指令还在研发么。。。
作者: 我輩樹である    时间: 2025-2-12 16:17
KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下,那为何不能直接效仿矿机,搞ASIC+大显存+NPU来做?

能别提npu么。。。npu是做无感推理用的。不是搞这种重负荷的东西。
作者: zhuifeng88    时间: 2025-2-12 16:17
我輩樹である 发表于 2025-2-12 16:17
能别提npu么。。。npu是做无感推理用的。不是搞这种重负荷的东西。

那就npu九宫格了 910c官方也叫npu
作者: StevenG    时间: 2025-2-12 16:22
wjm47196 发表于 2025-2-12 15:54
github开源页面有写啊,树大已经丢了
255.26 (optimized AMX-based MoE kernel, V0.3 only)
...

这是最新版本支持了amx加速,我说的不是官方的总结,你看贴的新闻链接,原始的新闻里,有网友用3090和7402试了,也有不小提升
作者: zhuifeng88    时间: 2025-2-12 16:24
StevenG 发表于 2025-2-12 16:22
这是最新版本支持了amx加速,我说的不是官方的总结,你看贴的新闻链接,原始的新闻里,有网友用3090和740 ...

不小提升是肯定的 GPU的加入保底给CPU分担了25-30%的激活参数量,也就是这么多带宽分担
作者: zcyandrew    时间: 2025-2-12 16:25
我輩樹である 发表于 2025-2-12 15:26
说下它们的配置:

CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)

它大概的idea是模型放cpu里,用4090来加速一些适合gpu架构的运算?
作者: 我輩樹である    时间: 2025-2-12 16:25
zcyandrew 发表于 2025-2-12 16:25
它大概的idea是模型放cpu里,用4090来加速一些适合gpu架构的运算?

看这个解析:

https://zhuanlan.zhihu.com/p/23212558318
作者: allensakura    时间: 2025-2-12 16:26
之前我就猜,moe事实上有大幅减少高速显存需求的能力,不需要的部份完全可以放在内存做缓存,这麽快就有人实现
人脑显然也不是每次思考都要扫一遍神经元,不然功耗不知道要翻多少倍
作者: ITNewTyper    时间: 2025-2-12 16:27
按照这个趋势 到时候16GB也能跑了。
显卡危机来了
作者: zhuifeng88    时间: 2025-2-12 16:27
zcyandrew 发表于 2025-2-12 16:25
它大概的idea是模型放cpu里,用4090来加速一些适合gpu架构的运算?

不完全是模型放CPU里,是把expert放CPU里,expert是路由动态选择的,其他必定激活的参数放GPU比如attention
attention参数量11B左右 expert激活参数量每次20B左右,总共650B左右
作者: zhuifeng88    时间: 2025-2-12 16:28
ITNewTyper 发表于 2025-2-12 16:27
按照这个趋势 到时候16GB也能跑了。
显卡危机来了

这只解决能跑...如果算单位吞吐的成本的话8卡H200仍然更便宜
作者: auronma    时间: 2025-2-12 16:29
如果不挑显卡 AMD intel的显卡也可以用的话
老黄就要结束了
作者: fcs15963    时间: 2025-2-12 16:35
后天 发表于 2025-2-12 15:29
内存对于显卡来说 不算贵了  而且没有卡脖子

6000的内存,12000的显卡
作者: qdzx123    时间: 2025-2-12 16:50
fcs15963 发表于 2025-2-12 16:35
6000的内存,12000的显卡

6000的内存 1000的显卡
16g显卡随便抓 v100就行了
作者: mdeu    时间: 2025-2-12 16:54
只要14g+cuda,那目前最便宜的新卡那不就是4060ti 16g
作者: 我輩樹である    时间: 2025-2-12 16:58
10号的更新,感觉已经传导到了咸鱼市场了。
作者: atiufo    时间: 2025-2-12 17:07
显卡市场雪上加霜啊
作者: ltpterry    时间: 2025-2-12 17:38
KimmyGLM 发表于 2025-2-12 16:13
作为菜鸡问下,那为何不能直接效仿矿机,搞ASIC+大显存+NPU来做?

Cerebras,Groq,还有某些Google TPU出来自己做的(他们是不是给自己取了一个LPU的新名字)。

具体到部署大语言模型的话他们愿意搞MAAS,把模型提前部署好然后给你一个OAI的API,直接调用去吧,少了很多折腾的乐趣嗯。。

哦对了,Gitee最近联合一堆国内的厂商上线了几个基于国产算力的DS,智算什么的。问题是看不到后端的算力,这里操作空间就有点大了
作者: KimmyGLM    时间: 2025-2-12 17:43
ltpterry 发表于 2025-2-12 17:38
Cerebras,Groq,还有某些Google TPU出来自己做的(他们是不是给自己取了一个LPU的新名字)。

具体到部 ...

预制菜也不是不行,便宜,货物对版能跑到标称性能即可,一次性买卖。
作者: uprit    时间: 2025-2-12 17:46
你们下次说准确点,实际跑起来只需要14GB显存,明明16G显存就够了,说什么24G?咋不说32G呢?建议修改标题。


作者: uprit    时间: 2025-2-12 17:47
ITNewTyper 发表于 2025-2-12 16:27
按照这个趋势 到时候16GB也能跑了。
显卡危机来了

实际跑起来就需要14G显存,16G完全够用


作者: wuxi001    时间: 2025-2-12 17:48
4090 , 5090 ,高高在上,遥遥无期了

作者: zhuifeng88    时间: 2025-2-12 17:52
uprit 发表于 2025-2-12 17:47
实际跑起来就需要14G显存,16G完全够用

没跑过才说的出这话...16g几百context就不行了,几百context给谁用啊,拉起来就跑个hello llm图一乐吗
作者: zhuifeng88    时间: 2025-2-12 17:55
本帖最后由 zhuifeng88 于 2025-2-12 17:59 编辑
KimmyGLM 发表于 2025-2-12 16:06
8 expert正好就对应一张显卡,等于KTransfomer 把其他层的expert都砍了;


没砍啊....MoE就是这样工作的 原始的是每层256 expert 每个token都动态选中top8 对于每一个token,在每层的选择都是不一样的 ktransformer那个说的是*可选的*改成选中top6 比选中top8能提速20%左右
作者: uprit    时间: 2025-2-12 17:55
zhuifeng88 发表于 2025-2-12 17:52
没跑过才说的出这话...16g几百context就不行了,几百context给谁用啊,拉起来就跑个hello llm图一乐吗 ...

你就说16G能不能跑起来嘛!
你真想要长上下文64k那种,单卡4090它也不够呀。


作者: oolmfoo    时间: 2025-2-12 18:16
Intel 又贏了,AMX才有用
作者: Vossk    时间: 2025-2-12 22:27
真不错,都是没卡、天价卡逼出来的
作者: 赫敏    时间: 2025-2-13 02:01
zhuifeng88 发表于 2025-2-12 04:55
没砍啊....MoE就是这样工作的 原始的是每层256 expert 每个token都动态选中top8 对于每一个token,在每层 ...

每一个token都选不同模型,那输出token不是乱了?
作者: 用户    时间: 2025-2-13 02:56
我刚下单了双路9480 hbm版,cpu应该是128gb的**,到时看看速度怎么样。
作者: zhuifeng88    时间: 2025-2-13 06:55
赫敏 发表于 2025-2-13 02:01
每一个token都选不同模型,那输出token不是乱了?

推理只要选就完事了,而训练要考虑的就多了(
作者: gyc    时间: 2025-2-13 07:31
还有个问题没有说, 虽然能运行了,但智力是不是受损就不好说了,
如果提问一个非常复杂的问题,是不是就不行?



作者: hawie    时间: 2025-2-13 07:36
加油,全民满血DS不远了,最好朝9950x +192GB+5080/5090这个方向努力一下,上下文128k, 有个10 token以上就可以实用了。
作者: nagashinn    时间: 2025-2-13 09:54
民用主板pc平台,1000w 跑得动就是好,人类大脑思考也用不了1000瓦吧
作者: Oxyer    时间: 2025-2-13 14:12
指着我的4080FE气急败坏中:瞅瞅人家4090,再看看你,你个废物典型!.......jpg




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5