Chiphell - 分享与交流用户体验

标题: 3995WX+8路2666内存跑Deepseek速度实测 [打印本页]

作者: cn88695    时间: 2025-2-18 16:01
标题: 3995WX+8路2666内存跑Deepseek速度实测
哈喽,大家好。这是我第一次在chiphell上发帖子,还请大家多多指教。
我在某宝上买了一台工作站,配置是技嘉的WRX80主板+Ryzen Threadripper Pro 3995WX(64H128线程,默频2.9,睿频4.2),4通道DDR4 2666Mhz 64G内存,宙斯盾机箱,大概17000元。
自己有一个固态硬盘(致钛TiPro7000 2TB),又自行购买了4根一模一样的内存条,花了1270。
现在公布纯CPU模式下的结果:
正如大家所见,4通道下所有模型基本都不能用,70b甚至跑出了0.48t/s的光辉战绩,内存条插满以后,速度提升飞快,平均跑出来2.38t/s的速度,这速度不能说不能用吧,离好用肯定还差很长距离。
为什么没跑671b:因为我的ollama下载稍微大一点的模型,下载一会儿就报max retried,不挂**又慢,所以没下载成功,就没跑。我预估纯CPU模式下不超过0.3t/s,这是完全不可用的。
下一步计划:准备弄个3090,借助kttransformer架构看跑671b能跑到什么速度,哦对了,ollama pull不稳定的问题也需要解决。
欢迎大家理性讨论。

作者: amagene    时间: 2025-2-18 16:11
直接买17000左右的Mac mini,比你的速度要快
而且更加节能
作者: cn88695    时间: 2025-2-18 16:13
amagene 发表于 2025-2-18 16:11
直接买17000左右的Mac mini,比你的速度要快
而且更加节能

mac的拓展性太差了,以及我肯定不是买了个工作站专门跑ds嘛,还有其他需求。
作者: oolmfoo    时间: 2025-2-18 16:16
你AMD 只能 v0.2.1
v3 的賣點是 AMX, 要Xeon 4代以上
作者: pdvc    时间: 2025-2-18 16:17
很多槽点。

直接去hf下gguf文件。

另外,你这70b速度还不如macnini m4 64gb的,那个只要16900。

还有,kt方案是牙膏平台的。

最后,D4别折腾了,没意义。
作者: wuxi001    时间: 2025-2-18 16:20
直接购买128G (或64G)  的 MAC MINI (内存及显存架构),一个不行,两个集成 CLUSTER或者更多 ,  EXO 组成集群,雷电4互联。 比使用显卡廉价太多了。 也比服务器廉价太多了。 YOUTUBE 上有人直接5个集成,跑405B大小的模型。
作者: 翰墨留香    时间: 2025-2-18 16:21
本帖最后由 翰墨留香 于 2025-2-18 16:23 编辑

限制一下处理器线程数量,671b估计也能跑个2tokens……64*8=512GB能用了
作者: cn88695    时间: 2025-2-18 16:24
翰墨留香 发表于 2025-2-18 16:21
限制一下处理器线程数量,671b估计也能跑个2tokens……64*8=512GB能用了

我有空试试看能不能达到这个速度
作者: cn88695    时间: 2025-2-18 16:26
pdvc 发表于 2025-2-18 16:17
很多槽点。

直接去hf下gguf文件。

KT又不是只有英特尔可以用,只是不能用CPU的优化而已。等我过几天实测吧,期待有个6-8就满足了。
作者: 翰墨留香    时间: 2025-2-18 16:26
cn88695 发表于 2025-2-18 16:24
我有空试试看能不能达到这个速度

可以参考一下这个

https://www.bilibili.com/video/BV1REPqeFE6d
作者: cn88695    时间: 2025-2-18 16:27
wuxi001 发表于 2025-2-18 16:20
直接购买128G (或64G)  的 MAC MINI (内存及显存架构),一个不行,两个集成 CLUSTER或者更多 ,  EXO 组 ...

有别的需求啊,ds只是跑着玩玩
作者: darkness66201    时间: 2025-2-18 16:37
最新一代的至强或者EPYC 上12通道DDR5 6000比起八通道DDR2666要强太多了,光是带宽就多了三倍都不止...
作者: agrant    时间: 2025-2-18 16:58
ollama pull 要看网络
或者从其他地方下载下来,然后导入转换一下

顺便请教一下,我用命令行
ollama run hf.co/{username}/{reponame}
拉取huggingface的模型
可以拉取下来,但后面有几个小文件总是不成功,不知道是校验还是什么?
作者: 暂时是猫    时间: 2025-2-18 17:00
671B可以一试,因为是MOE架构,未必会比70B慢这么多。估计有3 tokens/s
作者: coolcoolbear    时间: 2025-2-18 17:59
我用14700kf/7900xtx/32g d5(6800), 跑32b,大概30 tokens/s, 70b, 2.xx tokens/s。
70b的效果不错,内存不够,671b的就没试。
周末捣鼓下闲置的x299平台,看看能凑够256g的内存+3080ti跑下671b
作者: chiyiangel    时间: 2025-2-18 18:01
ollama pull 挂了**应该还好吧,没觉得不稳定啊
作者: Vossk    时间: 2025-2-18 18:05
amagene 发表于 2025-2-18 16:11
直接买17000左右的Mac mini,比你的速度要快
而且更加节能

mac mini m4 pro 64G跑不了671b,楼主64G*8+1x gpu可以跑4bit 671b
作者: pdvc    时间: 2025-2-18 19:13
cn88695 发表于 2025-2-18 16:26
KT又不是只有英特尔可以用,只是不能用CPU的优化而已。等我过几天实测吧,期待有个6-8就满足了。 ...

估计能有2-3t就不错了……
作者: kkiller007    时间: 2025-2-18 19:25
感觉有点慢 我那破烂的2700x跑32b也有2t左右的速度
作者: bennq    时间: 2025-2-18 19:41
16G显存跑32bQ4,爆显存后也有10t/s
作者: StevenG    时间: 2025-2-18 21:09
ollama北方用联通,几乎满速下载,没用科技
作者: ruo101    时间: 2025-2-18 21:13
厉害厉害· ··我有点像试试8B的好不好使· ·核显分配16G显存 ,物理机64G内存
作者: ccceee    时间: 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存,跑14b有30tokens/s,还比较流畅;跑32b爆显存就只有3tokens/s,勉强能用;跑70b就是1秒蹦1个字的样子了。
作者: 我輩樹である    时间: 2025-2-18 23:52
去镜像站下:

https://hf-mirror.com/unsloth/De ... in/DeepSeek-R1-Q8_0


作者: BetaHT    时间: 2025-2-19 07:48
设置的肯定有问题。我32g内存+137k都能跑2t/s
作者: cn88695    时间: 2025-2-19 11:27
BetaHT 发表于 2025-2-19 07:48
设置的肯定有问题。我32g内存+137k都能跑2t/s

你跑的模型有多大?
作者: cn88695    时间: 2025-2-19 11:27
我輩樹である 发表于 2025-2-18 23:52
去镜像站下:

https://hf-mirror.com/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-Q8_0

好的好的,谢谢!
作者: cn88695    时间: 2025-2-19 11:29
最新实测,跑deepseek-coder-v2:236b(模型大小133GB)的速度如下:
total duration:       3m23.6019481s
load duration:        15.2047ms
prompt eval count:    49 token(s)
prompt eval duration: 18.429s
prompt eval rate:     2.66 tokens/s
eval count:           574 token(s)
eval duration:        3m5.157s
eval rate:            3.10 tokens/s
671b的还在下载,等我下载完了测一下
作者: cn88695    时间: 2025-2-19 11:30
ccceee 发表于 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存,跑14b有30tokens/s,还比较流畅;跑32b爆显存就只有3tokens/s, ...

你再弄4根内存条回来,成本大概1300(64*4),应该会对速度有很大帮助。
作者: cn88695    时间: 2025-2-19 11:31
ruo101 发表于 2025-2-18 21:13
厉害厉害· ··我有点像试试8B的好不好使· ·核显分配16G显存 ,物理机64G内存 ...

模型太小,就算能跑意义是不是也不大啊?7b的ds像智障一样。
作者: cn88695    时间: 2025-2-19 11:32
Vossk 发表于 2025-2-18 18:05
mac mini m4 pro 64G跑不了671b,楼主64G*8+1x gpu可以跑4bit 671b

这才是正解,而且搞个服务器又不止跑ds
作者: cn88695    时间: 2025-2-19 11:32
coolcoolbear 发表于 2025-2-18 17:59
我用14700kf/7900xtx/32g d5(6800), 跑32b,大概30 tokens/s, 70b, 2.xx tokens/s。
70b的效果不错,内存不 ...

哈哈,期待反馈
作者: cn88695    时间: 2025-2-19 11:33
暂时是猫 发表于 2025-2-18 17:00
671B可以一试,因为是MOE架构,未必会比70B慢这么多。估计有3 tokens/s

正在下载,等下载完了试试看,ollama官网的那个就可以吧?400多GB的
作者: cn88695    时间: 2025-2-19 11:34
agrant 发表于 2025-2-18 16:58
ollama pull 要看网络
或者从其他地方下载下来,然后导入转换一下

不太清楚诶,要不直接把小文件下载到对应的文件夹内?
作者: cn88695    时间: 2025-2-19 11:35
darkness66201 发表于 2025-2-18 16:37
最新一代的至强或者EPYC 上12通道DDR5 6000比起八通道DDR2666要强太多了,光是带宽就多了三倍都不止... ...

有没有可能价格也贵太多了,同样的64G,D4卖300多,D5卖1800+。我也知道D5比D4强啊,这价格差的也太大了(6倍),性能能快6倍吗?显然不能,而且你也不看9005啥价格,3995啥价格。
作者: ccceee    时间: 2025-2-19 12:08
cn88695 发表于 2025-2-19 11:30
你再弄4根内存条回来,成本大概1300(64*4),应该会对速度有很大帮助。

这个处理器只支持4通道,8个内存槽都插满了,插满顶天也就256G。
作者: darkness66201    时间: 2025-2-19 12:41
cn88695 发表于 2025-2-19 11:35
有没有可能价格也贵太多了,同样的64G,D4卖300多,D5卖1800+。我也知道D5比D4强啊,这价格差的也太大了 ...

那肯定贵的啊,不然价值体现在哪里,本来时间就是巨大的价值,H100和3060比也没有上百倍的性能差距啊.....
作者: cn88695    时间: 2025-2-19 13:04
darkness66201 发表于 2025-2-19 12:41
那肯定贵的啊,不然价值体现在哪里,本来时间就是巨大的价值,H100和3060比也没有上百倍的性能差距啊.... ...

个人玩家玩玩搞个d4得了呗,企业才追求极致效率(企业也不是个个不差钱啊),八条内存价格抵一个4090了,话说我要那么不差钱还搞个毛的纯CPU啊,直接上能买到的最好显卡得了呗。。。
作者: BetaHT    时间: 2025-2-19 17:13
cn88695 发表于 2025-2-19 11:27
你跑的模型有多大?

32b  zsbd
作者: cn88695    时间: 2025-2-20 12:51
运行deepseek-r1:671b(404GB)速度实测:
CPU占用75%,内存占用435GB(共512G),随便问了一个简单的问题,得到的速度如下:
total duration:       14m16.8031872s
load duration:        22.5209ms
prompt eval count:    22 token(s)
prompt eval duration: 3.257s
prompt eval rate:     6.75 tokens/s
eval count:           1572 token(s)
eval duration:        14m13.521s
eval rate:            1.84 tokens/s
还行吧,比我想象的快很多。
作者: testmepro    时间: 2025-2-20 13:35
cn88695 发表于 2025-2-20 12:51
运行deepseek-r1:671b(404GB)速度实测:
CPU占用75%,内存占用435GB(共512G),随便问了一个简单的问题 ...

不错呀,我也打算按老哥套路来一套 pro ws wrx80 e sage wifi ii +5975wx+512g内存,显卡暂时用原来的2080ti,等5090d价格回落稳定再说
作者: cn88695    时间: 2025-2-20 14:05
testmepro 发表于 2025-2-20 13:35
不错呀,我也打算按老哥套路来一套 pro ws wrx80 e sage wifi ii +5975wx+512g内存,显卡暂时用原来的2080t ...

5975的架构更新,主频也更高,没准比3995wx效果还要好些。不过wrx80最多支持八通道,要是支持16通道就好了,插16根32的带宽翻一倍,没准速度也能翻一倍。
作者: testmepro    时间: 2025-2-20 15:05
cn88695 发表于 2025-2-20 14:05
5975的架构更新,主频也更高,没准比3995wx效果还要好些。不过wrx80最多支持八通道,要是支持16通道就好 ...

什么时候内存带宽能过1T/s 速度就上来了
作者: cn88695    时间: 2025-2-20 15:21
testmepro 发表于 2025-2-20 15:05
什么时候内存带宽能过1T/s 速度就上来了

害 那还有GPU啥事儿,直接CPU强推呗,不过我算了,要23根ddr5 5600mhz的才能达到1tb/s,一根64g的1900 也就是44000(只是内存哦)
作者: deepfishing    时间: 2025-2-20 15:26
我用的撕裂者跑1.58bit的模型效果不咋样,撕裂者配4张3090,不如看看4张4090 48G插上,然后尽量把模型放GPU山速度咋样了,四通道ddr4我跑的测速很慢,也许可以期待ai395这种再配gpu跑起来咋样。
1.58bit效果不咋样,但是2.22bit效果还行,看后续优化了。
作者: darkness66201    时间: 2025-2-20 15:30
testmepro 发表于 2025-2-20 15:05
什么时候内存带宽能过1T/s 速度就上来了

12通道DDR5上双路就可以了,当然光内存就二十多条,和八通道DDR4成本就两码事了。
作者: cn88695    时间: 2025-2-20 15:31
deepfishing 发表于 2025-2-20 15:26
我用的撕裂者跑1.58bit的模型效果不咋样,撕裂者配4张3090,不如看看4张4090 48G插上,然后尽量把模型放GPU ...

能上八通道尽量八通道,d4又不贵,看我上面的实测结果,效果很明显。不过你都有四张4090了,不应该呀,应该速度很快才对。我在纠结买一张魔改的4090d还是两张3090 价格分别是18000和13500的样子。
作者: cn88695    时间: 2025-2-20 15:34
darkness66201 发表于 2025-2-20 15:30
12通道DDR5上双路就可以了,当然光内存就二十多条,和八通道DDR4成本就两码事了。 ...

对啊,我八条64g的d4才两千多吧好像,一条d5都1900了
作者: testmepro    时间: 2025-2-20 16:15
darkness66201 发表于 2025-2-20 15:30
12通道DDR5上双路就可以了,当然光内存就二十多条,和八通道DDR4成本就两码事了。 ...

内存加起来比主板+cpu还贵吧
作者: cn88695    时间: 2025-2-20 16:54
testmepro 发表于 2025-2-20 16:15
内存加起来比主板+cpu还贵吧

23条d5 64g大概4万4?🌝🌝
作者: darkness66201    时间: 2025-2-20 17:46
testmepro 发表于 2025-2-20 16:15
内存加起来比主板+cpu还贵吧

那倒也没有吧,双路cpu加起来官方报价怎么也得十几二十万吧,淘宝大船货当然便宜了。
作者: ykdo    时间: 2025-2-20 17:48
cn88695 发表于 2025-2-18 16:13
mac的拓展性太差了,以及我肯定不是买了个工作站专门跑ds嘛,还有其他需求。 ...

4090加3090各一张,能跑多大参数的DS啊
作者: cn88695    时间: 2025-2-20 17:56
ykdo 发表于 2025-2-20 17:48
4090加3090各一张,能跑多大参数的DS啊

那就是48G显存呗,跑70b没啥问题,ollama的70b只有40G,不过上下文高了有可能爆显存,放一部分去内存跑。你可以试试,试完欢迎交流。
作者: trashgod    时间: 2025-2-20 18:09
ccceee 发表于 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存,跑14b有30tokens/s,还比较流畅;跑32b爆显存就只有3tokens/s, ...

为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话,不可能真的是一个个字计算出来的啊。
好神奇,做过渡效果也不需要这样吧
作者: cn88695    时间: 2025-2-20 18:59
trashgod 发表于 2025-2-20 18:09
为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话,不可能真的是一个个字计算出来 ...

没错,就是一个字一个字蹦的,速度快了就一句话一起说了
作者: pooChai    时间: 2025-2-20 19:29
trashgod 发表于 2025-2-20 18:09
为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话,不可能真的是一个个字计算出来 ...

一个token一般映射一个字或词, 5t/s,就意味着每秒能蹦出10来个字
作者: ttt5t5t    时间: 2025-2-20 20:47
兄弟 你这个好像买错平台了
intel 5代Xeon或者AMD 3代EPYC才比较合适
县城说白了也只是工作站 桌面++罢了
作者: cn88695    时间: 2025-2-20 21:22
ttt5t5t 发表于 2025-2-20 20:47
兄弟 你这个好像买错平台了
intel 5代Xeon或者AMD 3代EPYC才比较合适
县城说白了也只是工作站 桌面++罢了 ...

就是要工作站呀,我的主要需求是MATLAB并行计算,7003主频太低了,核心太多其实用处不大。
作者: coolcoolbear    时间: 2025-2-21 17:33
cn88695 发表于 2025-2-19 11:32
哈哈,期待反馈

我把老电脑装好了,老机x299/9900x/256g/3080ti

671b 1.73bit的模型,token大概在0.5,基本上随便问个问题到得到反馈要10~20分钟。

然后分别拽了7b, 14, 32b, 70b的模型测试,7b很流畅,14b速度大概30tokens/s左右,32b个位数的token,比现在用的电脑跑70b的速度稍快一点点。
看来是需要大显存+高带宽大内存才能跑流畅。
作者: coolcoolbear    时间: 2025-2-21 17:37
对了,7900xtx的机器,24g显存会被占满,但是gpu用利率很小,基本不工作,cpu利用率50%左右。
3080ti, 12g显存会被占满,gpu利用率一直100%, 虽说gpu满载运行,运行速度还是比大显存的机器差很多。
作者: 6892731    时间: 2025-2-21 18:02
cn88695 发表于 2025-2-20 12:51
运行deepseek-r1:671b(404GB)速度实测:
CPU占用75%,内存占用435GB(共512G),随便问了一个简单的问题 ...

没用显卡?
作者: cn88695    时间: 2025-2-21 18:12
6892731 发表于 2025-2-21 18:02
没用显卡?

纯CPU推理
作者: cn88695    时间: 2025-2-21 20:28
coolcoolbear 发表于 2025-2-21 17:37
对了,7900xtx的机器,24g显存会被占满,但是gpu用利率很小,基本不工作,cpu利用率50%左右。
3080ti, 12g ...

我觉得7900xtx是因为框架对amd的显卡支持不足,llama.cpp好像有个专门针对AMD优化的版本,你可以试试




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5