纯CPU 跑LLM (如671B 的全量R1),对于U核心数是否有要求?
本帖最后由 KimmyGLM 于 2025-2-10 12:30 编辑多卡跑全量版本的LLM成本太高,琢磨用纯CPU来跑。
EPYC 的方案网上非常多,就展开聊了;穷鬼方案甚至可以用水友给的傲腾持久内存;
比较好奇的是,在内存容量/带宽满足跑671B 的前提下( 内存 8ch or 12ch ),对于U核心数是否有要求?
是否核心数越多,Token越快?还是说影响权重较小,远不及内存带宽的影响大?
PS. 有好心人跑一下TR pro线撕跑671B 的Token么,这玩意能双超的话,水友的帖子跑出了200G+的带宽,理论上应该不慢 本帖最后由 momo77989724 于 2025-2-10 11:16 编辑
核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的 没法用
32核的价格和48 64区别也不大。。。9004和85XX上是这样 momo77989724 发表于 2025-2-10 11:15
核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的 没法用
32核的价格和48 64区别也不大。。 ...
其实只想要8通道以上的多核U就行,比如7975WX线撕,频率还高,就是好贵....
比EPYC 大船贵太多太多 KimmyGLM 发表于 2025-2-10 11:18
其实只想要8通道以上的多核U就行,比如7975WX线撕,频率还高,就是好贵....
比EPYC 大船贵太多太多 ...
不行 D4基本跑不动1秒1个字不到 还跑什么 16 ch d5 4800 q2 大概 8t/s 慢的要死,用免费的gemini2.0不香吗? xy. 发表于 2025-2-10 11:36
16 ch d5 4800 q2 大概 8t/s
这速度还行,和b站12ch d5测下来的差不多 lz2906190 发表于 2025-2-10 11:39
慢的要死,用免费的gemini2.0不香吗?
咱先不讨论api和本地的优劣,就纯技术交流看看。 KimmyGLM 发表于 2025-2-10 11:44
咱先不讨论api和本地的优劣,就纯技术交流看看。
我觉得大模型部署会快速变成基础设施,更应该思考的是怎么用。 momo77989724 发表于 2025-2-10 11:34
不行 D4基本跑不动1秒1个字不到 还跑什么
https://www.chiphell.com/forum.php?mod=viewthread&tid=2613922
TR pro 是D5平台了,帖子里8根32G 6000频率很恐怖了 首先你需要明白官网的模型是671B的FP8模型,下载下来后640GB大小。 allenxml 发表于 2025-2-10 11:56
首先你需要明白官网的模型是671B的FP8模型,下载下来后640GB大小。
8ch 96G*8 即可满足,或者12ch 24*32768g, 纯CPU跑上面有人给过结果了 KimmyGLM 发表于 2025-2-10 11:54
https://www.chiphell.com/forum.php?mod=viewthread&tid=2613922
TR pro 是D5平台了,帖子里8根32G 600 ...
哦记错了 79XX是D5 。。。
8根不够好像起码64价格不合适的 64很贵 12通道我记得才3-4字/秒 优化后估计也就5左右 KimmyGLM 发表于 2025-2-10 11:58
8ch 96G*8 即可满足,或者12ch 24*32768g, 纯CPU跑上面有人给过结果了
96单根是3600块一根。。。你想想 在加上79XX的溢价。。。 momo77989724 发表于 2025-2-10 11:58
哦记错了 79XX是D5 。。。
8根不够好像12通道我记得才3-4字/秒 优化后估计也就5左右 ...
没办法兼得;
要速度就不可能便宜;
要便宜就不可能太快......
水友给出的极致穷鬼套餐3000块全套傲腾跑671B 原版,0.7t/s KimmyGLM 发表于 2025-2-10 11:58
8ch 96G*8 即可满足,或者12ch 24*32768g, 纯CPU跑上面有人给过结果了
跑起来最好是双路e5平台配合d3内存,反正都是速度慢,哪个便宜用哪个。EPYC还具备扩展多卡的能力,TR就是人傻钱多的笑柄。 本帖最后由 momo77989724 于 2025-2-10 12:10 编辑
KimmyGLM 发表于 2025-2-10 12:01
没办法兼得;
要速度就不可能便宜;
那种没意义的 浪费时间
我有768G 甚至1T以上的机子。。。当天我就试过部署4B
你要跑4B的768的话 大概2W多就能组但是你要跑1.5T全量的话。。。。我还没算过
79XX那平台 光内存 你都不够2W。。。
48GX16或者24买MZ33-AR0 AR1U随便买个QS的32核 好像3K附近忘记了。。
哦 大概要2W5了。。。
不过这样也就是个残疾版 U跑不到理论带宽。。32核CCD就4个 残疾版
我自己的都只有8CCD的64核 他们讨论下来应该是9654最适合 allenxml 发表于 2025-2-10 12:01
跑起来最好是双路e5平台配合d3内存,反正都是速度慢,哪个便宜用哪个。EPYC还具备扩展多卡的能力,TR就是 ...
你说的慢可能是慢得用不了了,双路E5有总线带宽大小的,你确定能调度另外一路的内存带宽 本帖最后由 KimmyGLM 于 2025-2-10 12:13 编辑
momo77989724 发表于 2025-2-10 12:02
那种没意义的 浪费时间
我有768G 甚至1T以上的机子。。。当天我就试过部署4B
7975WX, TRX50 (技嘉有张8通道的新板子),96G RDIMM D5*8,
核心就这三样,整套下来5w,比同带宽的水平的M2ultra 192G 多阵列便宜些;
主要还是U 没有像EPYC 那种大船便宜货;
我想问的问题也就是因为计算TR Pro平台而产生的 KimmyGLM 发表于 2025-2-10 12:12
7975WX, TRX50 (技嘉有张8通道的新板子),96G RDIMM D5*8,
核心就这三样,整套下来5w,比同带宽的水平 ...
那你不如9654双路了 随便打爆上面这2货 momo77989724 发表于 2025-2-10 12:13
那你不如9654双路了 随便打爆上面这2货
主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂..... CPU核心数目不太重要,但注意不能买2ccd的epyc。
每个ccd可以有1(narrow)或者2(Wide)个GMI连接到IOD,每个GMI的速度大概在52G/s。为了满足内存带宽,再丐都要买8条GMI的。
8条GMI:zen4 选4ccd的(9254),(zen4 8ccd也是8条考虑到更贵的价格不合适),zen5的4ccd也可以(9255)。这两单CPU的内存带宽也能跑420GB/,跑12通道4800也差不多。
我觉得最合适的是两颗24/32核心的8CCD zen5 epyc(9275f/9355),zen5 8ccd是16条GMI,能跑24通道DDR5 6000,总带宽1152GB/s。 KimmyGLM 发表于 2025-2-10 12:14
主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂..... ...
....那。。。 KimmyGLM 发表于 2025-2-10 12:14
主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂..... ...
EPYC 9575F睿频5G,支持DDR5 6000 12通道。 zlcrxp 发表于 2025-2-10 12:21
EPYC 9575F睿频5G,支持DDR5 6000 12通道。
EPYC 玩游戏的问题,本坛就有.....不推荐 本帖最后由 我輩樹である 于 2025-2-10 12:27 编辑
4th的epyc单ccd和iod的连接gmi3最高带宽36g(3th的是32g?),你先看看你的u是几个ccd,不能光看内存带宽,可能用不上。ccd多确实要好一些,但如果同时访问iod,iod有那么强的交换能力保证所有ccd都有36g带宽么?不明确。
monolithic只需要简单计算就好了,chiplet要考虑的东西就多了。 本帖最后由 momo77989724 于 2025-2-10 12:59 编辑
KimmyGLM 发表于 2025-2-10 12:22
EPYC 玩游戏的问题,本坛就有.....不推荐
TR玩游戏也一样吧。。。这个是架构问题
8通道就是高频也比12通道慢。。。牙膏至强5本身就能跑6000 还是跑不过12通道的。只能是接近
这东西不是特别吃核心 数量
反正你看吧要兼顾的话 成本要上升。。。而且线撕这东西 很难出手。。。买了基本上就要用到死了。。TR和W系以后越来越小众了。。可能会消失
我輩樹である 发表于 2025-2-10 12:26
4th的epyc单ccd和iod的连接gmi3最高带宽36g(3th的是32g?),你先看看你的u是几个ccd,不能光看内存带宽, ...
贴个图
9004的IOD一共有12条GMI链接 3*4
默认情况 CPU die 用一条GMI,有些型号 用2条
同样9005IOD则由16条GMI 4*4
默认情况 CPU die 用一条GMI,有些型号 用2条
除非AMD特别说明内存带宽是减半的型号,正常都可以跑满,延迟会因为CCD的数量有所差距。
想知道9950X配192G内存跑671b的1.58b量化怎么样 4通道的普通消费级主板能跑几t/s呢