3995WX+8路2666内存跑Deepseek速度实测

cn88695 发表于 2025-2-18 16:01

哈喽，大家好。这是我第一次在chiphell上发帖子，还请大家多多指教。
我在某宝上买了一台工作站，配置是技嘉的WRX80主板+Ryzen Threadripper Pro 3995WX（64H128线程，默频2.9，睿频4.2），4通道DDR4 2666Mhz 64G内存，宙斯盾机箱，大概17000元。
自己有一个固态硬盘（致钛TiPro7000 2TB），又自行购买了4根一模一样的内存条，花了1270。
现在公布纯CPU模式下的结果：
正如大家所见，4通道下所有模型基本都不能用，70b甚至跑出了0.48t/s的光辉战绩，内存条插满以后，速度提升飞快，平均跑出来2.38t/s的速度，这速度不能说不能用吧，离好用肯定还差很长距离。
为什么没跑671b：因为我的ollama下载稍微大一点的模型，下载一会儿就报max retried，不挂**又慢，所以没下载成功，就没跑。我预估纯CPU模式下不超过0.3t/s，这是完全不可用的。
下一步计划：准备弄个3090，借助kttransformer架构看跑671b能跑到什么速度，哦对了，ollama pull不稳定的问题也需要解决。
欢迎大家理性讨论。

amagene 发表于 2025-2-18 16:11

直接买17000左右的Mac mini，比你的速度要快
而且更加节能

cn88695 发表于 2025-2-18 16:13

amagene 发表于 2025-2-18 16:11
直接买17000左右的Mac mini，比你的速度要快
而且更加节能

mac的拓展性太差了，以及我肯定不是买了个工作站专门跑ds嘛，还有其他需求。

oolmfoo 发表于 2025-2-18 16:16

你AMD 只能 v0.2.1
v3 的賣點是 AMX, 要Xeon 4代以上

pdvc 发表于 2025-2-18 16:17

很多槽点。

直接去hf下gguf文件。

另外，你这70b速度还不如macnini m4 64gb的，那个只要16900。

还有，kt方案是牙膏平台的。

最后，D4别折腾了，没意义。

wuxi001 发表于 2025-2-18 16:20

直接购买128G （或64G）的 MAC MINI (内存及显存架构），一个不行，两个集成 CLUSTER或者更多 ,EXO 组成集群，雷电4互联。比使用显卡廉价太多了。也比服务器廉价太多了。 YOUTUBE 上有人直接5个集成，跑405B大小的模型。

翰墨留香 发表于 2025-2-18 16:21

本帖最后由翰墨留香于 2025-2-18 16:23 编辑

限制一下处理器线程数量，671b估计也能跑个2tokens……64*8=512GB能用了

cn88695 发表于 2025-2-18 16:24

翰墨留香发表于 2025-2-18 16:21
限制一下处理器线程数量，671b估计也能跑个2tokens……64*8=512GB能用了

我有空试试看能不能达到这个速度

cn88695 发表于 2025-2-18 16:26

pdvc 发表于 2025-2-18 16:17
很多槽点。

直接去hf下gguf文件。

KT又不是只有英特尔可以用，只是不能用CPU的优化而已。等我过几天实测吧，期待有个6-8就满足了。

翰墨留香 发表于 2025-2-18 16:26

cn88695 发表于 2025-2-18 16:24
我有空试试看能不能达到这个速度

可以参考一下这个

https://www.bilibili.com/video/BV1REPqeFE6d

cn88695 发表于 2025-2-18 16:27

wuxi001 发表于 2025-2-18 16:20
直接购买128G （或64G）的 MAC MINI (内存及显存架构），一个不行，两个集成 CLUSTER或者更多 ,EXO 组 ...

有别的需求啊，ds只是跑着玩玩

darkness66201 发表于 2025-2-18 16:37

最新一代的至强或者EPYC 上12通道DDR5 6000比起八通道DDR2666要强太多了，光是带宽就多了三倍都不止...

agrant 发表于 2025-2-18 16:58

ollama pull 要看网络
或者从其他地方下载下来，然后导入转换一下

顺便请教一下，我用命令行
ollama run hf.co/{username}/{reponame}
拉取huggingface的模型
可以拉取下来，但后面有几个小文件总是不成功，不知道是校验还是什么？

暂时是猫 发表于 2025-2-18 17:00

671B可以一试，因为是MOE架构，未必会比70B慢这么多。估计有3 tokens/s

coolcoolbear 发表于 2025-2-18 17:59

我用14700kf/7900xtx/32g d5(6800), 跑32b，大概30 tokens/s, 70b, 2.xx tokens/s。
70b的效果不错，内存不够，671b的就没试。
周末捣鼓下闲置的x299平台，看看能凑够256g的内存+3080ti跑下671b

chiyiangel 发表于 2025-2-18 18:01

ollama pull 挂了**应该还好吧，没觉得不稳定啊

Vossk 发表于 2025-2-18 18:05

amagene 发表于 2025-2-18 16:11
直接买17000左右的Mac mini，比你的速度要快
而且更加节能

mac mini m4 pro 64G跑不了671b，楼主64G*8+1x gpu可以跑4bit 671b

pdvc 发表于 2025-2-18 19:13

cn88695 发表于 2025-2-18 16:26
KT又不是只有英特尔可以用，只是不能用CPU的优化而已。等我过几天实测吧，期待有个6-8就满足了。 ...

估计能有2-3t就不错了……

kkiller007 发表于 2025-2-18 19:25

感觉有点慢我那破烂的2700x跑32b也有2t左右的速度

bennq 发表于 2025-2-18 19:41

16G显存跑32bQ4,爆显存后也有10t/s

StevenG 发表于 2025-2-18 21:09

ollama北方用联通，几乎满速下载，没用科技

ruo101 发表于 2025-2-18 21:13

厉害厉害· ··我有点像试试8B的好不好使· ·核显分配16G显存，物理机64G内存

ccceee 发表于 2025-2-18 22:44

我用至强W2145+6700xt+4通道ddr4 2666内存，跑14b有30tokens/s，还比较流畅；跑32b爆显存就只有3tokens/s，勉强能用；跑70b就是1秒蹦1个字的样子了。

我輩樹である 发表于 2025-2-18 23:52

去镜像站下：

https://hf-mirror.com/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-Q8_0

BetaHT 发表于 2025-2-19 07:48

设置的肯定有问题。我32g内存+137k都能跑2t/s

cn88695 发表于 2025-2-19 11:27

BetaHT 发表于 2025-2-19 07:48
设置的肯定有问题。我32g内存+137k都能跑2t/s

你跑的模型有多大？

cn88695 发表于 2025-2-19 11:27

我輩樹である发表于 2025-2-18 23:52
去镜像站下：

https://hf-mirror.com/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-Q8_0

好的好的，谢谢！

cn88695 发表于 2025-2-19 11:29

最新实测，跑deepseek-coder-v2:236b（模型大小133GB）的速度如下：
total duration:    3m23.6019481s
load duration:    15.2047ms
prompt eval count: 49 token(s)
prompt eval duration: 18.429s
prompt eval rate: 2.66 tokens/s
eval count:       574 token(s)
eval duration:    3m5.157s
eval rate:          3.10 tokens/s
671b的还在下载，等我下载完了测一下

cn88695 发表于 2025-2-19 11:30

ccceee 发表于 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存，跑14b有30tokens/s，还比较流畅；跑32b爆显存就只有3tokens/s， ...

你再弄4根内存条回来，成本大概1300（64*4），应该会对速度有很大帮助。

cn88695 发表于 2025-2-19 11:31

ruo101 发表于 2025-2-18 21:13
厉害厉害· ··我有点像试试8B的好不好使· ·核显分配16G显存，物理机64G内存 ...

模型太小，就算能跑意义是不是也不大啊？7b的ds像智障一样。

页: [1] 2 3

Chiphell - 分享与交流用户体验's Archiver

3995WX+8路2666内存跑Deepseek速度实测