找回密码
 加入我们
搜索
      
查看: 9419|回复: 69

[显卡] 4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛

[复制链接]
发表于 2025-2-12 15:21 | 显示全部楼层 |阅读模式
https://news.qq.com/rain/a/20250212A04LGE00
DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。

而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。

但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:

支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。

其实早在DeepSeek-V2 时代,这个项目就因“专家卸载”技术而备受关注——它支持了236B的大模型在仅有24GB显存的消费级显卡上流畅运行,把显存需求砍到10分之一。
随着DeepSeek-R1的发布,社区的需求迅速激增,在GitHub盖起上百楼的issue,呼吁对其进行支持。

版本更新发布后,不少开发者也纷纷用自己的3090显卡和200GB内存进行实测,借助与Unsloth优化的组合,Q2_K_XL模型的推理速度已达到9.1 tokens/s,真正实现了千亿级模型的“家庭化”。

此外,KTransformers团队还公布了v0.3预览版的性能指标,将通过整合Intel AMX指令集,CPU预填充速度最高至286 tokens/s,相比llama.cpp快了近28倍。对于那些需要处理上万级Token上下文的长序列任务(比如大规模代码库分析)来说,相当于能够从“分钟级等待”瞬间迈入“秒级响应”,彻底释放CPU的算力潜能。
...
发表于 2025-2-12 15:24 | 显示全部楼层
哈哈
32G的9070XT市场来了
发表于 2025-2-12 15:26 | 显示全部楼层
说下它们的配置:

CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)
GPU: 4090D 24G VRAM
Memory: standard DDR5-4800 server DRAM (1 TB)

性能提升:

[NEW!!!] Local 671B DeepSeek-Coder-V3/R1: Running its Q4_K_M version using only 14GB VRAM and 382GB DRAM.
Prefill Speed (tokens/s):
KTransfermor: 54.21 (32 cores) → 74.362 (dual-socket, 2×32 cores) → 255.26 (optimized AMX-based MoE kernel, V0.3 only) → 286.55 (selectively using 6 experts, V0.3 only)
Compared to 10.31 tokens/s in llama.cpp with 2×32 cores, achieving up to 27.79× speedup.
Decode Speed (tokens/s):
KTransfermor: 8.73 (32 cores) → 11.26 (dual-socket, 2×32 cores) → 13.69 (selectively using 6 experts, V0.3 only)
Compared to 4.51 tokens/s in llama.cpp with 2×32 cores, achieving up to 3.03× speedup.
发表于 2025-2-12 15:26 | 显示全部楼层
要382GB内存的
发表于 2025-2-12 15:29 | 显示全部楼层

内存对于显卡来说 不算贵了  而且没有卡脖子
发表于 2025-2-12 15:30 | 显示全部楼层
它的性能提升是基于selectively using 6 experts的。deepseek r1有256个专家模型,按top8来选择激活。
发表于 2025-2-12 15:31 | 显示全部楼层
本帖最后由 a010301208 于 2025-2-12 15:44 编辑
后天 发表于 2025-2-12 15:29
内存对于显卡来说 不算贵了  而且没有卡脖子


这倒是,DDR5服务器主板插4根就够了,什么时候国产DDR5出点家用主板96G单条就绝杀了
发表于 2025-2-12 15:34 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-2-12 15:35 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-2-12 15:35 | 显示全部楼层
bigeblis 发表于 2025-2-12 15:34
4090岂不是还要涨????

已经涨了吧。
发表于 2025-2-12 15:36 来自手机 | 显示全部楼层
1t 内存,对于个人来说也不容易实现啊
发表于 2025-2-12 15:36 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-12 15:30
它的性能提升是基于selectively using 6 experts的。deepseek r1有256个专家模型,按top8来选择激活。 ...

简单点来说,就是处理一次请求时,只加载部分模型?
发表于 2025-2-12 15:37 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-2-12 15:37 来自手机 | 显示全部楼层
内存频率有要求吗?d4能行吗?
发表于 2025-2-12 15:38 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-12 15:39 编辑
我輩樹である 发表于 2025-2-12 15:26
说下它们的配置:

CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)


真牛逼老英啥时候把AMX 下放给消费级?
还有就是家用级的64G 单条D5赶紧上市啊
发表于 2025-2-12 15:39 来自手机 | 显示全部楼层
bigeblis 发表于 2025-2-12 15:37
666666
魔幻
我用了两年的卡,现在卖了不但不会亏钱,还能赚一笔。

?5700xt 2000买的 6000卖的
发表于 2025-2-12 15:39 | 显示全部楼层
StevenG 发表于 2025-2-12 15:36
简单点来说,就是处理一次请求时,只加载部分模型?

专家模型都存在cpu里面,每次推理的时候,按照router专家给出的建议,将需要参与激活的专家模型从cpu交换到gpu里面。大概是这个意思。
发表于 2025-2-12 15:40 来自手机 | 显示全部楼层
大陆存量4090越来越值钱了
发表于 2025-2-12 15:40 | 显示全部楼层

手里二手ESC4000A-E10 DDR4*8都能512,,如果是真的那条件要求阵地
看U的需求了7002/7003好多定制版U贼便宜就是主板血贵
发表于 2025-2-12 15:41 | 显示全部楼层
MikuLuka 发表于 2025-2-12 15:40
手里二手ESC4000A-E10 DDR4*8都能512,,如果是真的那条件要求阵地
看U的需求了7002/7003好多定制版U贼便 ...

D4 没前途的,早点切换为D5
发表于 2025-2-12 15:48 | 显示全部楼层
dexterchen 发表于 2025-2-12 15:24
哈哈
32G的9070XT市场来了

要cuda环境和牙膏amx指令集加速,看看后面有没有大佬弄rocm和epyc版的
发表于 2025-2-12 15:48 | 显示全部楼层
本帖最后由 MikuLuka 于 2025-2-12 15:49 编辑
KimmyGLM 发表于 2025-2-12 15:41
D4 没前途的,早点切换为D5


早年以物易物屯手里的 我用7K62*2跟朋友换了华硕的2U服务器准系统,大哥以搞渲染的 矿潮吧3090卖了空机器一人分了几台留着搞事情的
按照上面的说法华硕的E12系列的2U ESC4000A-E12 这种4卡 EPYC9004/5的准系统搞本地部署香疯了
发表于 2025-2-12 15:50 | 显示全部楼层
单路5代至强+4090,可以玩起来了
发表于 2025-2-12 15:50 | 显示全部楼层
equaliser 发表于 2025-2-12 15:40
大陆存量4090越来越值钱了

我怎么感觉利好16G显存,毕竟只是要求14G显存
发表于 2025-2-12 15:52 来自手机 | 显示全部楼层
wjm47196 发表于 2025-2-12 15:48
要cuda环境和牙膏amx指令集加速,看看后面有没有大佬弄rocm和epyc版的

看原始新闻的截图,就是3090+epyc7402+200g内存
发表于 2025-2-12 15:52 | 显示全部楼层
我輩樹である 发表于 2025-2-12 15:30
它的性能提升是基于selectively using 6 experts的。deepseek r1有256个专家模型,按top8来选择激活。 ...

不用这个选项就好了,255个token/s还不够用?
发表于 2025-2-12 15:54 | 显示全部楼层
StevenG 发表于 2025-2-12 15:52
看原始新闻的截图,就是3090+epyc7402+200g内存

github开源页面有写啊,树大已经丢了
255.26 (optimized AMX-based MoE kernel, V0.3 only)
发表于 2025-2-12 15:59 | 显示全部楼层
wjm47196 发表于 2025-2-12 15:52
不用这个选项就好了,255个token/s还不够用?


top8其实差不多。prefill阶段的。

发表于 2025-2-12 16:01 | 显示全部楼层
我輩樹である 发表于 2025-2-12 15:59
top8其实差不多。prefill阶段的。

问题是最后效果如何?选这么少的专家单元感觉会有影响啊
发表于 2025-2-12 16:06 | 显示全部楼层
wjm47196 发表于 2025-2-12 16:01
问题是最后效果如何?选这么少的专家单元感觉会有影响啊

8 expert正好就对应一张显卡,等于KTransfomer 把其他层的expert都砍了;
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 14:40 , Processed in 0.012476 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表