Chiphell - 分享与交流用户体验

标题: 3995WX+8路2666内存跑Deepseek速度实测 [打印本页]

作者: cn88695 时间: 2025-2-18 16:01
标题: 3995WX+8路2666内存跑Deepseek速度实测
哈喽，大家好。这是我第一次在chiphell上发帖子，还请大家多多指教。
我在某宝上买了一台工作站，配置是技嘉的WRX80主板+Ryzen Threadripper Pro 3995WX（64H128线程，默频2.9，睿频4.2），4通道DDR4 2666Mhz 64G内存，宙斯盾机箱，大概17000元。
自己有一个固态硬盘（致钛TiPro7000 2TB），又自行购买了4根一模一样的内存条，花了1270。
现在公布纯CPU模式下的结果：
正如大家所见，4通道下所有模型基本都不能用，70b甚至跑出了0.48t/s的光辉战绩，内存条插满以后，速度提升飞快，平均跑出来2.38t/s的速度，这速度不能说不能用吧，离好用肯定还差很长距离。
为什么没跑671b：因为我的ollama下载稍微大一点的模型，下载一会儿就报max retried，不挂**又慢，所以没下载成功，就没跑。我预估纯CPU模式下不超过0.3t/s，这是完全不可用的。
下一步计划：准备弄个3090，借助kttransformer架构看跑671b能跑到什么速度，哦对了，ollama pull不稳定的问题也需要解决。
欢迎大家理性讨论。

作者: amagene 时间: 2025-2-18 16:11
直接买17000左右的Mac mini，比你的速度要快
而且更加节能

作者: cn88695 时间: 2025-2-18 16:13

amagene 发表于 2025-2-18 16:11
直接买17000左右的Mac mini，比你的速度要快
而且更加节能

mac的拓展性太差了，以及我肯定不是买了个工作站专门跑ds嘛，还有其他需求。

作者: oolmfoo 时间: 2025-2-18 16:16
你AMD 只能 v0.2.1
v3 的賣點是 AMX, 要Xeon 4代以上

作者: pdvc 时间: 2025-2-18 16:17
很多槽点。

直接去hf下gguf文件。

另外，你这70b速度还不如macnini m4 64gb的，那个只要16900。

还有，kt方案是牙膏平台的。

最后，D4别折腾了，没意义。

作者: wuxi001 时间: 2025-2-18 16:20
直接购买128G （或64G）的 MAC MINI (内存及显存架构），一个不行，两个集成 CLUSTER或者更多 , EXO 组成集群，雷电4互联。比使用显卡廉价太多了。也比服务器廉价太多了。 YOUTUBE 上有人直接5个集成，跑405B大小的模型。

作者: 翰墨留香 时间: 2025-2-18 16:21
本帖最后由翰墨留香于 2025-2-18 16:23 编辑

限制一下处理器线程数量，671b估计也能跑个2tokens……64*8=512GB能用了

作者: cn88695 时间: 2025-2-18 16:24

翰墨留香发表于 2025-2-18 16:21
限制一下处理器线程数量，671b估计也能跑个2tokens……64*8=512GB能用了

我有空试试看能不能达到这个速度

作者: cn88695 时间: 2025-2-18 16:26

pdvc 发表于 2025-2-18 16:17
很多槽点。

直接去hf下gguf文件。

KT又不是只有英特尔可以用，只是不能用CPU的优化而已。等我过几天实测吧，期待有个6-8就满足了。

作者: 翰墨留香 时间: 2025-2-18 16:26

cn88695 发表于 2025-2-18 16:24
我有空试试看能不能达到这个速度

可以参考一下这个

https://www.bilibili.com/video/BV1REPqeFE6d

作者: cn88695 时间: 2025-2-18 16:27

wuxi001 发表于 2025-2-18 16:20
直接购买128G （或64G）的 MAC MINI (内存及显存架构），一个不行，两个集成 CLUSTER或者更多 , EXO 组 ...

有别的需求啊，ds只是跑着玩玩

作者: darkness66201 时间: 2025-2-18 16:37
最新一代的至强或者EPYC 上12通道DDR5 6000比起八通道DDR2666要强太多了，光是带宽就多了三倍都不止...

作者: agrant 时间: 2025-2-18 16:58
ollama pull 要看网络
或者从其他地方下载下来，然后导入转换一下

顺便请教一下，我用命令行
ollama run hf.co/{username}/{reponame}
拉取huggingface的模型
可以拉取下来，但后面有几个小文件总是不成功，不知道是校验还是什么？

作者: 暂时是猫 时间: 2025-2-18 17:00
671B可以一试，因为是MOE架构，未必会比70B慢这么多。估计有3 tokens/s

作者: coolcoolbear 时间: 2025-2-18 17:59
我用14700kf/7900xtx/32g d5(6800), 跑32b，大概30 tokens/s, 70b, 2.xx tokens/s。
70b的效果不错，内存不够，671b的就没试。
周末捣鼓下闲置的x299平台，看看能凑够256g的内存+3080ti跑下671b

作者: chiyiangel 时间: 2025-2-18 18:01
ollama pull 挂了**应该还好吧，没觉得不稳定啊

作者: Vossk 时间: 2025-2-18 18:05

amagene 发表于 2025-2-18 16:11
直接买17000左右的Mac mini，比你的速度要快
而且更加节能

mac mini m4 pro 64G跑不了671b，楼主64G*8+1x gpu可以跑4bit 671b

作者: pdvc 时间: 2025-2-18 19:13

cn88695 发表于 2025-2-18 16:26
KT又不是只有英特尔可以用，只是不能用CPU的优化而已。等我过几天实测吧，期待有个6-8就满足了。 ...

估计能有2-3t就不错了……

作者: kkiller007 时间: 2025-2-18 19:25
感觉有点慢我那破烂的2700x跑32b也有2t左右的速度

作者: bennq 时间: 2025-2-18 19:41
16G显存跑32bQ4,爆显存后也有10t/s

作者: StevenG 时间: 2025-2-18 21:09
ollama北方用联通，几乎满速下载，没用科技

作者: ruo101 时间: 2025-2-18 21:13
厉害厉害· ··我有点像试试8B的好不好使· ·核显分配16G显存，物理机64G内存

作者: ccceee 时间: 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存，跑14b有30tokens/s，还比较流畅；跑32b爆显存就只有3tokens/s，勉强能用；跑70b就是1秒蹦1个字的样子了。

作者: 我輩樹である 时间: 2025-2-18 23:52
去镜像站下：

https://hf-mirror.com/unsloth/De ... in/DeepSeek-R1-Q8_0

作者: BetaHT 时间: 2025-2-19 07:48
设置的肯定有问题。我32g内存+137k都能跑2t/s

作者: cn88695 时间: 2025-2-19 11:27

BetaHT 发表于 2025-2-19 07:48
设置的肯定有问题。我32g内存+137k都能跑2t/s

你跑的模型有多大？

作者: cn88695 时间: 2025-2-19 11:27

我輩樹である发表于 2025-2-18 23:52
去镜像站下：

https://hf-mirror.com/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-Q8_0

好的好的，谢谢！

作者: cn88695 时间: 2025-2-19 11:29
最新实测，跑deepseek-coder-v2:236b（模型大小133GB）的速度如下：
total duration:    3m23.6019481s
load duration:       15.2047ms
prompt eval count: 49 token(s)
prompt eval duration: 18.429s
prompt eval rate:    2.66 tokens/s
eval count:          574 token(s)
eval duration:       3m5.157s
eval rate:          3.10 tokens/s
671b的还在下载，等我下载完了测一下

作者: cn88695 时间: 2025-2-19 11:30

ccceee 发表于 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存，跑14b有30tokens/s，还比较流畅；跑32b爆显存就只有3tokens/s， ...

你再弄4根内存条回来，成本大概1300（64*4），应该会对速度有很大帮助。

作者: cn88695 时间: 2025-2-19 11:31

ruo101 发表于 2025-2-18 21:13
厉害厉害· ··我有点像试试8B的好不好使· ·核显分配16G显存，物理机64G内存 ...

模型太小，就算能跑意义是不是也不大啊？7b的ds像智障一样。

作者: cn88695 时间: 2025-2-19 11:32

Vossk 发表于 2025-2-18 18:05
mac mini m4 pro 64G跑不了671b，楼主64G*8+1x gpu可以跑4bit 671b

这才是正解，而且搞个服务器又不止跑ds

作者: cn88695 时间: 2025-2-19 11:32

coolcoolbear 发表于 2025-2-18 17:59
我用14700kf/7900xtx/32g d5(6800), 跑32b，大概30 tokens/s, 70b, 2.xx tokens/s。
70b的效果不错，内存不 ...

哈哈，期待反馈

作者: cn88695 时间: 2025-2-19 11:33

暂时是猫发表于 2025-2-18 17:00
671B可以一试，因为是MOE架构，未必会比70B慢这么多。估计有3 tokens/s

正在下载，等下载完了试试看，ollama官网的那个就可以吧？400多GB的

作者: cn88695 时间: 2025-2-19 11:34

agrant 发表于 2025-2-18 16:58
ollama pull 要看网络
或者从其他地方下载下来，然后导入转换一下

不太清楚诶，要不直接把小文件下载到对应的文件夹内？

作者: cn88695 时间: 2025-2-19 11:35

darkness66201 发表于 2025-2-18 16:37
最新一代的至强或者EPYC 上12通道DDR5 6000比起八通道DDR2666要强太多了，光是带宽就多了三倍都不止... ...

有没有可能价格也贵太多了，同样的64G，D4卖300多，D5卖1800+。我也知道D5比D4强啊，这价格差的也太大了（6倍），性能能快6倍吗？显然不能，而且你也不看9005啥价格，3995啥价格。

作者: ccceee 时间: 2025-2-19 12:08

cn88695 发表于 2025-2-19 11:30
你再弄4根内存条回来，成本大概1300（64*4），应该会对速度有很大帮助。

这个处理器只支持4通道，8个内存槽都插满了，插满顶天也就256G。

作者: darkness66201 时间: 2025-2-19 12:41

cn88695 发表于 2025-2-19 11:35
有没有可能价格也贵太多了，同样的64G，D4卖300多，D5卖1800+。我也知道D5比D4强啊，这价格差的也太大了 ...

那肯定贵的啊，不然价值体现在哪里，本来时间就是巨大的价值，H100和3060比也没有上百倍的性能差距啊.....

作者: cn88695 时间: 2025-2-19 13:04

darkness66201 发表于 2025-2-19 12:41
那肯定贵的啊，不然价值体现在哪里，本来时间就是巨大的价值，H100和3060比也没有上百倍的性能差距啊.... ...

个人玩家玩玩搞个d4得了呗，企业才追求极致效率（企业也不是个个不差钱啊），八条内存价格抵一个4090了，话说我要那么不差钱还搞个毛的纯CPU啊，直接上能买到的最好显卡得了呗。。。

作者: BetaHT 时间: 2025-2-19 17:13

cn88695 发表于 2025-2-19 11:27
你跑的模型有多大？

32b zsbd

作者: cn88695 时间: 2025-2-20 12:51
运行deepseek-r1:671b（404GB）速度实测：
CPU占用75%，内存占用435GB（共512G），随便问了一个简单的问题，得到的速度如下：
total duration:    14m16.8031872s
load duration:       22.5209ms
prompt eval count: 22 token(s)
prompt eval duration: 3.257s
prompt eval rate:    6.75 tokens/s
eval count:          1572 token(s)
eval duration:       14m13.521s
eval rate:          1.84 tokens/s
还行吧，比我想象的快很多。

作者: testmepro 时间: 2025-2-20 13:35

cn88695 发表于 2025-2-20 12:51
运行deepseek-r1:671b（404GB）速度实测：
CPU占用75%，内存占用435GB（共512G），随便问了一个简单的问题 ...

不错呀,我也打算按老哥套路来一套 pro ws wrx80 e sage wifi ii +5975wx+512g内存,显卡暂时用原来的2080ti,等5090d价格回落稳定再说

作者: cn88695 时间: 2025-2-20 14:05

testmepro 发表于 2025-2-20 13:35
不错呀,我也打算按老哥套路来一套 pro ws wrx80 e sage wifi ii +5975wx+512g内存,显卡暂时用原来的2080t ...

5975的架构更新，主频也更高，没准比3995wx效果还要好些。不过wrx80最多支持八通道，要是支持16通道就好了，插16根32的带宽翻一倍，没准速度也能翻一倍。

作者: testmepro 时间: 2025-2-20 15:05

cn88695 发表于 2025-2-20 14:05
5975的架构更新，主频也更高，没准比3995wx效果还要好些。不过wrx80最多支持八通道，要是支持16通道就好 ...

什么时候内存带宽能过1T/s 速度就上来了

作者: cn88695 时间: 2025-2-20 15:21

testmepro 发表于 2025-2-20 15:05
什么时候内存带宽能过1T/s 速度就上来了

害那还有GPU啥事儿，直接CPU强推呗，不过我算了，要23根ddr5 5600mhz的才能达到1tb/s，一根64g的1900 也就是44000（只是内存哦）

作者: deepfishing 时间: 2025-2-20 15:26
我用的撕裂者跑1.58bit的模型效果不咋样，撕裂者配4张3090，不如看看4张4090 48G插上，然后尽量把模型放GPU山速度咋样了，四通道ddr4我跑的测速很慢，也许可以期待ai395这种再配gpu跑起来咋样。
1.58bit效果不咋样，但是2.22bit效果还行，看后续优化了。

作者: darkness66201 时间: 2025-2-20 15:30

testmepro 发表于 2025-2-20 15:05
什么时候内存带宽能过1T/s 速度就上来了

12通道DDR5上双路就可以了，当然光内存就二十多条，和八通道DDR4成本就两码事了。

作者: cn88695 时间: 2025-2-20 15:31

deepfishing 发表于 2025-2-20 15:26
我用的撕裂者跑1.58bit的模型效果不咋样，撕裂者配4张3090，不如看看4张4090 48G插上，然后尽量把模型放GPU ...

能上八通道尽量八通道，d4又不贵，看我上面的实测结果，效果很明显。不过你都有四张4090了，不应该呀，应该速度很快才对。我在纠结买一张魔改的4090d还是两张3090 价格分别是18000和13500的样子。

作者: cn88695 时间: 2025-2-20 15:34

darkness66201 发表于 2025-2-20 15:30
12通道DDR5上双路就可以了，当然光内存就二十多条，和八通道DDR4成本就两码事了。 ...

对啊，我八条64g的d4才两千多吧好像，一条d5都1900了

作者: testmepro 时间: 2025-2-20 16:15

darkness66201 发表于 2025-2-20 15:30
12通道DDR5上双路就可以了，当然光内存就二十多条，和八通道DDR4成本就两码事了。 ...

内存加起来比主板+cpu还贵吧

作者: cn88695 时间: 2025-2-20 16:54

testmepro 发表于 2025-2-20 16:15
内存加起来比主板+cpu还贵吧

23条d5 64g大概4万4？🌝🌝

作者: darkness66201 时间: 2025-2-20 17:46

testmepro 发表于 2025-2-20 16:15
内存加起来比主板+cpu还贵吧

那倒也没有吧，双路cpu加起来官方报价怎么也得十几二十万吧，淘宝大船货当然便宜了。

作者: ykdo 时间: 2025-2-20 17:48

cn88695 发表于 2025-2-18 16:13
mac的拓展性太差了，以及我肯定不是买了个工作站专门跑ds嘛，还有其他需求。 ...

4090加3090各一张，能跑多大参数的DS啊

作者: cn88695 时间: 2025-2-20 17:56

ykdo 发表于 2025-2-20 17:48
4090加3090各一张，能跑多大参数的DS啊

那就是48G显存呗，跑70b没啥问题，ollama的70b只有40G，不过上下文高了有可能爆显存，放一部分去内存跑。你可以试试，试完欢迎交流。

作者: trashgod 时间: 2025-2-20 18:09

ccceee 发表于 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存，跑14b有30tokens/s，还比较流畅；跑32b爆显存就只有3tokens/s， ...

为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话，不可能真的是一个个字计算出来的啊。
好神奇，做过渡效果也不需要这样吧

作者: cn88695 时间: 2025-2-20 18:59

trashgod 发表于 2025-2-20 18:09
为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话，不可能真的是一个个字计算出来 ...

没错，就是一个字一个字蹦的，速度快了就一句话一起说了

作者: pooChai 时间: 2025-2-20 19:29

trashgod 发表于 2025-2-20 18:09
为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话，不可能真的是一个个字计算出来 ...

一个token一般映射一个字或词, 5t/s,就意味着每秒能蹦出10来个字

作者: ttt5t5t 时间: 2025-2-20 20:47
兄弟你这个好像买错平台了
intel 5代Xeon或者AMD 3代EPYC才比较合适
县城说白了也只是工作站桌面++罢了

作者: cn88695 时间: 2025-2-20 21:22

ttt5t5t 发表于 2025-2-20 20:47
兄弟你这个好像买错平台了
intel 5代Xeon或者AMD 3代EPYC才比较合适
县城说白了也只是工作站桌面++罢了 ...

就是要工作站呀，我的主要需求是MATLAB并行计算，7003主频太低了，核心太多其实用处不大。

作者: coolcoolbear 时间: 2025-2-21 17:33

cn88695 发表于 2025-2-19 11:32
哈哈，期待反馈

我把老电脑装好了，老机x299/9900x/256g/3080ti

671b 1.73bit的模型，token大概在0.5，基本上随便问个问题到得到反馈要10~20分钟。

然后分别拽了7b, 14， 32b, 70b的模型测试，7b很流畅，14b速度大概30tokens/s左右，32b个位数的token，比现在用的电脑跑70b的速度稍快一点点。
看来是需要大显存+高带宽大内存才能跑流畅。

作者: coolcoolbear 时间: 2025-2-21 17:37
对了，7900xtx的机器，24g显存会被占满，但是gpu用利率很小，基本不工作，cpu利用率50%左右。
3080ti, 12g显存会被占满，gpu利用率一直100%, 虽说gpu满载运行，运行速度还是比大显存的机器差很多。

作者: 6892731 时间: 2025-2-21 18:02

cn88695 发表于 2025-2-20 12:51
运行deepseek-r1:671b（404GB）速度实测：
CPU占用75%，内存占用435GB（共512G），随便问了一个简单的问题 ...

没用显卡？

作者: cn88695 时间: 2025-2-21 18:12

6892731 发表于 2025-2-21 18:02
没用显卡？

纯CPU推理

作者: cn88695 时间: 2025-2-21 20:28

coolcoolbear 发表于 2025-2-21 17:37
对了，7900xtx的机器，24g显存会被占满，但是gpu用利率很小，基本不工作，cpu利用率50%左右。
3080ti, 12g ...

我觉得7900xtx是因为框架对amd的显卡支持不足，llama.cpp好像有个专门针对AMD优化的版本，你可以试试

欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/)