3995WX+8路2666内存跑Deepseek速度实测
哈喽,大家好。这是我第一次在chiphell上发帖子,还请大家多多指教。我在某宝上买了一台工作站,配置是技嘉的WRX80主板+Ryzen Threadripper Pro 3995WX(64H128线程,默频2.9,睿频4.2),4通道DDR4 2666Mhz 64G内存,宙斯盾机箱,大概17000元。
自己有一个固态硬盘(致钛TiPro7000 2TB),又自行购买了4根一模一样的内存条,花了1270。
现在公布纯CPU模式下的结果:
正如大家所见,4通道下所有模型基本都不能用,70b甚至跑出了0.48t/s的光辉战绩,内存条插满以后,速度提升飞快,平均跑出来2.38t/s的速度,这速度不能说不能用吧,离好用肯定还差很长距离。
为什么没跑671b:因为我的ollama下载稍微大一点的模型,下载一会儿就报max retried,不挂**又慢,所以没下载成功,就没跑。我预估纯CPU模式下不超过0.3t/s,这是完全不可用的。
下一步计划:准备弄个3090,借助kttransformer架构看跑671b能跑到什么速度,哦对了,ollama pull不稳定的问题也需要解决。
欢迎大家理性讨论。
直接买17000左右的Mac mini,比你的速度要快
而且更加节能 amagene 发表于 2025-2-18 16:11
直接买17000左右的Mac mini,比你的速度要快
而且更加节能
mac的拓展性太差了,以及我肯定不是买了个工作站专门跑ds嘛,还有其他需求。 你AMD 只能 v0.2.1
v3 的賣點是 AMX, 要Xeon 4代以上 很多槽点。
直接去hf下gguf文件。
另外,你这70b速度还不如macnini m4 64gb的,那个只要16900。
还有,kt方案是牙膏平台的。
最后,D4别折腾了,没意义。 直接购买128G (或64G)的 MAC MINI (内存及显存架构),一个不行,两个集成 CLUSTER或者更多 ,EXO 组成集群,雷电4互联。 比使用显卡廉价太多了。 也比服务器廉价太多了。 YOUTUBE 上有人直接5个集成,跑405B大小的模型。 本帖最后由 翰墨留香 于 2025-2-18 16:23 编辑
限制一下处理器线程数量,671b估计也能跑个2tokens……64*8=512GB能用了 翰墨留香 发表于 2025-2-18 16:21
限制一下处理器线程数量,671b估计也能跑个2tokens……64*8=512GB能用了
我有空试试看能不能达到这个速度 pdvc 发表于 2025-2-18 16:17
很多槽点。
直接去hf下gguf文件。
KT又不是只有英特尔可以用,只是不能用CPU的优化而已。等我过几天实测吧,期待有个6-8就满足了。 cn88695 发表于 2025-2-18 16:24
我有空试试看能不能达到这个速度
可以参考一下这个
https://www.bilibili.com/video/BV1REPqeFE6d wuxi001 发表于 2025-2-18 16:20
直接购买128G (或64G)的 MAC MINI (内存及显存架构),一个不行,两个集成 CLUSTER或者更多 ,EXO 组 ...
有别的需求啊,ds只是跑着玩玩 最新一代的至强或者EPYC 上12通道DDR5 6000比起八通道DDR2666要强太多了,光是带宽就多了三倍都不止... ollama pull 要看网络
或者从其他地方下载下来,然后导入转换一下
顺便请教一下,我用命令行
ollama run hf.co/{username}/{reponame}
拉取huggingface的模型
可以拉取下来,但后面有几个小文件总是不成功,不知道是校验还是什么? 671B可以一试,因为是MOE架构,未必会比70B慢这么多。估计有3 tokens/s 我用14700kf/7900xtx/32g d5(6800), 跑32b,大概30 tokens/s, 70b, 2.xx tokens/s。
70b的效果不错,内存不够,671b的就没试。
周末捣鼓下闲置的x299平台,看看能凑够256g的内存+3080ti跑下671b ollama pull 挂了**应该还好吧,没觉得不稳定啊 amagene 发表于 2025-2-18 16:11
直接买17000左右的Mac mini,比你的速度要快
而且更加节能
mac mini m4 pro 64G跑不了671b,楼主64G*8+1x gpu可以跑4bit 671b cn88695 发表于 2025-2-18 16:26
KT又不是只有英特尔可以用,只是不能用CPU的优化而已。等我过几天实测吧,期待有个6-8就满足了。 ...
估计能有2-3t就不错了…… 感觉有点慢 我那破烂的2700x跑32b也有2t左右的速度 16G显存跑32bQ4,爆显存后也有10t/s ollama北方用联通,几乎满速下载,没用科技 厉害厉害· ··我有点像试试8B的好不好使· ·核显分配16G显存 ,物理机64G内存 我用至强W2145+6700xt+4通道ddr4 2666内存,跑14b有30tokens/s,还比较流畅;跑32b爆显存就只有3tokens/s,勉强能用;跑70b就是1秒蹦1个字的样子了。 去镜像站下:
https://hf-mirror.com/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-Q8_0
设置的肯定有问题。我32g内存+137k都能跑2t/s BetaHT 发表于 2025-2-19 07:48
设置的肯定有问题。我32g内存+137k都能跑2t/s
你跑的模型有多大? 我輩樹である 发表于 2025-2-18 23:52
去镜像站下:
https://hf-mirror.com/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-Q8_0
好的好的,谢谢! 最新实测,跑deepseek-coder-v2:236b(模型大小133GB)的速度如下:
total duration: 3m23.6019481s
load duration: 15.2047ms
prompt eval count: 49 token(s)
prompt eval duration: 18.429s
prompt eval rate: 2.66 tokens/s
eval count: 574 token(s)
eval duration: 3m5.157s
eval rate: 3.10 tokens/s
671b的还在下载,等我下载完了测一下 ccceee 发表于 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存,跑14b有30tokens/s,还比较流畅;跑32b爆显存就只有3tokens/s, ...
你再弄4根内存条回来,成本大概1300(64*4),应该会对速度有很大帮助。 ruo101 发表于 2025-2-18 21:13
厉害厉害· ··我有点像试试8B的好不好使· ·核显分配16G显存 ,物理机64G内存 ...
模型太小,就算能跑意义是不是也不大啊?7b的ds像智障一样。