KimmyGLM 发表于 2025-2-10 11:05

纯CPU 跑LLM (如671B 的全量R1),对于U核心数是否有要求?

本帖最后由 KimmyGLM 于 2025-2-10 12:30 编辑

多卡跑全量版本的LLM成本太高,琢磨用纯CPU来跑。

EPYC 的方案网上非常多,就展开聊了;穷鬼方案甚至可以用水友给的傲腾持久内存;

比较好奇的是,在内存容量/带宽满足跑671B 的前提下( 内存 8ch or 12ch ),对于U核心数是否有要求?

是否核心数越多,Token越快?还是说影响权重较小,远不及内存带宽的影响大?

PS. 有好心人跑一下TR pro线撕跑671B 的Token么,这玩意能双超的话,水友的帖子跑出了200G+的带宽,理论上应该不慢

momo77989724 发表于 2025-2-10 11:15

本帖最后由 momo77989724 于 2025-2-10 11:16 编辑

核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的 没法用
32核的价格和48 64区别也不大。。。9004和85XX上是这样

KimmyGLM 发表于 2025-2-10 11:18

momo77989724 发表于 2025-2-10 11:15
核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的 没法用
32核的价格和48 64区别也不大。。 ...

其实只想要8通道以上的多核U就行,比如7975WX线撕,频率还高,就是好贵....
比EPYC 大船贵太多太多

momo77989724 发表于 2025-2-10 11:34

KimmyGLM 发表于 2025-2-10 11:18
其实只想要8通道以上的多核U就行,比如7975WX线撕,频率还高,就是好贵....
比EPYC 大船贵太多太多 ...

不行 D4基本跑不动1秒1个字不到 还跑什么

xy. 发表于 2025-2-10 11:36

16 ch d5 4800 q2 大概 8t/s

lz2906190 发表于 2025-2-10 11:39

慢的要死,用免费的gemini2.0不香吗?

KimmyGLM 发表于 2025-2-10 11:44

xy. 发表于 2025-2-10 11:36
16 ch d5 4800 q2 大概 8t/s

这速度还行,和b站12ch d5测下来的差不多

KimmyGLM 发表于 2025-2-10 11:44

lz2906190 发表于 2025-2-10 11:39
慢的要死,用免费的gemini2.0不香吗?

咱先不讨论api和本地的优劣,就纯技术交流看看。

lz2906190 发表于 2025-2-10 11:49

KimmyGLM 发表于 2025-2-10 11:44
咱先不讨论api和本地的优劣,就纯技术交流看看。

我觉得大模型部署会快速变成基础设施,更应该思考的是怎么用。

KimmyGLM 发表于 2025-2-10 11:54

momo77989724 发表于 2025-2-10 11:34
不行 D4基本跑不动1秒1个字不到 还跑什么

https://www.chiphell.com/forum.php?mod=viewthread&tid=2613922

TR pro 是D5平台了,帖子里8根32G 6000频率很恐怖了

allenxml 发表于 2025-2-10 11:56

首先你需要明白官网的模型是671B的FP8模型,下载下来后640GB大小。

KimmyGLM 发表于 2025-2-10 11:58

allenxml 发表于 2025-2-10 11:56
首先你需要明白官网的模型是671B的FP8模型,下载下来后640GB大小。

8ch 96G*8 即可满足,或者12ch 24*32768g, 纯CPU跑上面有人给过结果了

momo77989724 发表于 2025-2-10 11:58

KimmyGLM 发表于 2025-2-10 11:54
https://www.chiphell.com/forum.php?mod=viewthread&tid=2613922

TR pro 是D5平台了,帖子里8根32G 600 ...

哦记错了 79XX是D5 。。。
8根不够好像起码64价格不合适的   64很贵   12通道我记得才3-4字/秒 优化后估计也就5左右

momo77989724 发表于 2025-2-10 12:00

KimmyGLM 发表于 2025-2-10 11:58
8ch 96G*8 即可满足,或者12ch 24*32768g, 纯CPU跑上面有人给过结果了

96单根是3600块一根。。。你想想 在加上79XX的溢价。。。

KimmyGLM 发表于 2025-2-10 12:01

momo77989724 发表于 2025-2-10 11:58
哦记错了 79XX是D5 。。。
8根不够好像12通道我记得才3-4字/秒 优化后估计也就5左右 ...

没办法兼得;

要速度就不可能便宜;
要便宜就不可能太快......

水友给出的极致穷鬼套餐3000块全套傲腾跑671B 原版,0.7t/s

allenxml 发表于 2025-2-10 12:01

KimmyGLM 发表于 2025-2-10 11:58
8ch 96G*8 即可满足,或者12ch 24*32768g, 纯CPU跑上面有人给过结果了

跑起来最好是双路e5平台配合d3内存,反正都是速度慢,哪个便宜用哪个。EPYC还具备扩展多卡的能力,TR就是人傻钱多的笑柄。

momo77989724 发表于 2025-2-10 12:02

本帖最后由 momo77989724 于 2025-2-10 12:10 编辑

KimmyGLM 发表于 2025-2-10 12:01
没办法兼得;

要速度就不可能便宜;


那种没意义的 浪费时间

我有768G 甚至1T以上的机子。。。当天我就试过部署4B

你要跑4B的768的话 大概2W多就能组但是你要跑1.5T全量的话。。。。我还没算过
79XX那平台 光内存 你都不够2W。。。

48GX16或者24买MZ33-AR0 AR1U随便买个QS的32核 好像3K附近忘记了。。
哦 大概要2W5了。。。
不过这样也就是个残疾版    U跑不到理论带宽。。32核CCD就4个 残疾版
我自己的都只有8CCD的64核 他们讨论下来应该是9654最适合

再也不对喷 发表于 2025-2-10 12:07

allenxml 发表于 2025-2-10 12:01
跑起来最好是双路e5平台配合d3内存,反正都是速度慢,哪个便宜用哪个。EPYC还具备扩展多卡的能力,TR就是 ...

你说的慢可能是慢得用不了了,双路E5有总线带宽大小的,你确定能调度另外一路的内存带宽

KimmyGLM 发表于 2025-2-10 12:12

本帖最后由 KimmyGLM 于 2025-2-10 12:13 编辑

momo77989724 发表于 2025-2-10 12:02
那种没意义的 浪费时间

我有768G 甚至1T以上的机子。。。当天我就试过部署4B


7975WX, TRX50 (技嘉有张8通道的新板子),96G RDIMM D5*8,
核心就这三样,整套下来5w,比同带宽的水平的M2ultra 192G 多阵列便宜些;

主要还是U 没有像EPYC 那种大船便宜货;

我想问的问题也就是因为计算TR Pro平台而产生的

momo77989724 发表于 2025-2-10 12:13

KimmyGLM 发表于 2025-2-10 12:12
7975WX, TRX50 (技嘉有张8通道的新板子),96G RDIMM D5*8,
核心就这三样,整套下来5w,比同带宽的水平 ...

那你不如9654双路了 随便打爆上面这2货

KimmyGLM 发表于 2025-2-10 12:14

momo77989724 发表于 2025-2-10 12:13
那你不如9654双路了 随便打爆上面这2货

主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂.....

chungexcy 发表于 2025-2-10 12:17

CPU核心数目不太重要,但注意不能买2ccd的epyc。

每个ccd可以有1(narrow)或者2(Wide)个GMI连接到IOD,每个GMI的速度大概在52G/s。为了满足内存带宽,再丐都要买8条GMI的。

8条GMI:zen4 选4ccd的(9254),(zen4 8ccd也是8条考虑到更贵的价格不合适),zen5的4ccd也可以(9255)。这两单CPU的内存带宽也能跑420GB/,跑12通道4800也差不多。

我觉得最合适的是两颗24/32核心的8CCD zen5 epyc(9275f/9355),zen5 8ccd是16条GMI,能跑24通道DDR5 6000,总带宽1152GB/s。

momo77989724 发表于 2025-2-10 12:20

KimmyGLM 发表于 2025-2-10 12:14
主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂..... ...

....那。。。

zlcrxp 发表于 2025-2-10 12:21

KimmyGLM 发表于 2025-2-10 12:14
主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂..... ...

EPYC 9575F睿频5G,支持DDR5 6000 12通道。

KimmyGLM 发表于 2025-2-10 12:22

zlcrxp 发表于 2025-2-10 12:21
EPYC 9575F睿频5G,支持DDR5 6000 12通道。

EPYC 玩游戏的问题,本坛就有.....不推荐

我輩樹である 发表于 2025-2-10 12:26

本帖最后由 我輩樹である 于 2025-2-10 12:27 编辑

4th的epyc单ccd和iod的连接gmi3最高带宽36g(3th的是32g?),你先看看你的u是几个ccd,不能光看内存带宽,可能用不上。ccd多确实要好一些,但如果同时访问iod,iod有那么强的交换能力保证所有ccd都有36g带宽么?不明确。

monolithic只需要简单计算就好了,chiplet要考虑的东西就多了。

momo77989724 发表于 2025-2-10 12:52

本帖最后由 momo77989724 于 2025-2-10 12:59 编辑

KimmyGLM 发表于 2025-2-10 12:22
EPYC 玩游戏的问题,本坛就有.....不推荐

TR玩游戏也一样吧。。。这个是架构问题

8通道就是高频也比12通道慢。。。牙膏至强5本身就能跑6000 还是跑不过12通道的。只能是接近

这东西不是特别吃核心 数量

反正你看吧要兼顾的话 成本要上升。。。而且线撕这东西 很难出手。。。买了基本上就要用到死了。。TR和W系以后越来越小众了。。可能会消失

zlcrxp 发表于 2025-2-10 12:59

我輩樹である 发表于 2025-2-10 12:26
4th的epyc单ccd和iod的连接gmi3最高带宽36g(3th的是32g?),你先看看你的u是几个ccd,不能光看内存带宽, ...

贴个图

9004的IOD一共有12条GMI链接 3*4
默认情况 CPU die 用一条GMI,有些型号 用2条

同样9005IOD则由16条GMI 4*4
默认情况 CPU die 用一条GMI,有些型号 用2条

除非AMD特别说明内存带宽是减半的型号,正常都可以跑满,延迟会因为CCD的数量有所差距。

ba66882008 发表于 2025-2-10 13:01

想知道9950X配192G内存跑671b的1.58b量化怎么样

manwomans 发表于 2025-2-10 13:15

4通道的普通消费级主板能跑几t/s呢
页: [1] 2 3
查看完整版本: 纯CPU 跑LLM (如671B 的全量R1),对于U核心数是否有要求?