找回密码
 加入我们
搜索
      
查看: 7155|回复: 86

[CPU] 纯CPU 跑LLM (如671B 的全量R1),对于U核心数是否有要求?

[复制链接]
发表于 2025-2-10 11:05 | 显示全部楼层 |阅读模式
本帖最后由 KimmyGLM 于 2025-2-10 12:30 编辑

多卡跑全量版本的LLM成本太高,琢磨用纯CPU来跑。

EPYC 的方案网上非常多,就展开聊了;穷鬼方案甚至可以用水友给的傲腾持久内存;

比较好奇的是,在内存容量/带宽满足跑671B 的前提下( 内存 8ch or 12ch ),对于U核心数是否有要求?

是否核心数越多,Token越快?还是说影响权重较小,远不及内存带宽的影响大?

PS. 有好心人跑一下TR pro线撕跑671B 的Token么,这玩意能双超的话,水友的帖子跑出了200G+的带宽,理论上应该不慢
发表于 2025-2-10 11:15 | 显示全部楼层
本帖最后由 momo77989724 于 2025-2-10 11:16 编辑

核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的 没法用
32核的价格和48 64区别也不大。。。9004和85XX上是这样
 楼主| 发表于 2025-2-10 11:18 | 显示全部楼层
momo77989724 发表于 2025-2-10 11:15
核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的 没法用
32核的价格和48 64区别也不大。。 ...

其实只想要8通道以上的多核U就行,比如7975WX线撕,频率还高,就是好贵....
比EPYC 大船贵太多太多
发表于 2025-2-10 11:34 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 11:18
其实只想要8通道以上的多核U就行,比如7975WX线撕,频率还高,就是好贵....
比EPYC 大船贵太多太多 ...

不行 D4基本跑不动  1秒1个字不到 还跑什么
发表于 2025-2-10 11:36 | 显示全部楼层
16 ch d5 4800 q2 大概 8t/s
发表于 2025-2-10 11:39 | 显示全部楼层
慢的要死,用免费的gemini2.0不香吗?
 楼主| 发表于 2025-2-10 11:44 来自手机 | 显示全部楼层
xy. 发表于 2025-2-10 11:36
16 ch d5 4800 q2 大概 8t/s

这速度还行,和b站12ch d5测下来的差不多
 楼主| 发表于 2025-2-10 11:44 来自手机 | 显示全部楼层
lz2906190 发表于 2025-2-10 11:39
慢的要死,用免费的gemini2.0不香吗?

咱先不讨论api和本地的优劣,就纯技术交流看看。
发表于 2025-2-10 11:49 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 11:44
咱先不讨论api和本地的优劣,就纯技术交流看看。

我觉得大模型部署会快速变成基础设施,更应该思考的是怎么用。
 楼主| 发表于 2025-2-10 11:54 | 显示全部楼层
momo77989724 发表于 2025-2-10 11:34
不行 D4基本跑不动  1秒1个字不到 还跑什么

https://www.chiphell.com/forum.php?mod=viewthread&tid=2613922

TR pro 是D5平台了,帖子里8根32G 6000频率很恐怖了
发表于 2025-2-10 11:56 | 显示全部楼层
首先你需要明白官网的模型是671B的FP8模型,下载下来后640GB大小。
 楼主| 发表于 2025-2-10 11:58 | 显示全部楼层
allenxml 发表于 2025-2-10 11:56
首先你需要明白官网的模型是671B的FP8模型,下载下来后640GB大小。

8ch 96G*8 即可满足,或者12ch 24*32  768g, 纯CPU跑上面有人给过结果了
发表于 2025-2-10 11:58 | 显示全部楼层


哦记错了 79XX是D5 。。。
8根不够好像  起码64  价格不合适的   64很贵   12通道我记得才3-4字/秒 优化后估计也就5左右
发表于 2025-2-10 12:00 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 11:58
8ch 96G*8 即可满足,或者12ch 24*32  768g, 纯CPU跑上面有人给过结果了

96单根是3600块一根。。。你想想 在加上79XX的溢价。。。
 楼主| 发表于 2025-2-10 12:01 | 显示全部楼层
momo77989724 发表于 2025-2-10 11:58
哦记错了 79XX是D5 。。。
8根不够好像  12通道我记得才3-4字/秒 优化后估计也就5左右 ...

没办法兼得;

要速度就不可能便宜;
要便宜就不可能太快......

水友给出的极致穷鬼套餐3000块全套傲腾跑671B 原版,0.7t/s
发表于 2025-2-10 12:01 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 11:58
8ch 96G*8 即可满足,或者12ch 24*32  768g, 纯CPU跑上面有人给过结果了

跑起来最好是双路e5平台配合d3内存,反正都是速度慢,哪个便宜用哪个。EPYC还具备扩展多卡的能力,TR就是人傻钱多的笑柄。
发表于 2025-2-10 12:02 | 显示全部楼层
本帖最后由 momo77989724 于 2025-2-10 12:10 编辑
KimmyGLM 发表于 2025-2-10 12:01
没办法兼得;

要速度就不可能便宜;


那种没意义的 浪费时间

我有768G 甚至1T以上的机子。。。当天我就试过部署4B

你要跑4B的768的话 大概2W多就能组  但是你要跑1.5T全量的话。。。。我还没算过
79XX那平台 光内存 你都不够2W。。。

48GX16或者24  买MZ33-AR0 AR1  U随便买个QS的32核 好像3K附近忘记了。。
哦 大概要2W5了。。。
不过这样也就是个残疾版    U跑不到理论带宽。。32核CCD就4个 残疾版
我自己的都只有8CCD的64核 他们讨论下来应该是9654最适合
发表于 2025-2-10 12:07 来自手机 | 显示全部楼层
allenxml 发表于 2025-2-10 12:01
跑起来最好是双路e5平台配合d3内存,反正都是速度慢,哪个便宜用哪个。EPYC还具备扩展多卡的能力,TR就是 ...

你说的慢可能是慢得用不了了,双路E5有总线带宽大小的,你确定能调度另外一路的内存带宽
 楼主| 发表于 2025-2-10 12:12 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-10 12:13 编辑
momo77989724 发表于 2025-2-10 12:02
那种没意义的 浪费时间

我有768G 甚至1T以上的机子。。。当天我就试过部署4B


7975WX, TRX50 (技嘉有张8通道的新板子),96G RDIMM D5*8,
核心就这三样,整套下来5w,比同带宽的水平的M2ultra 192G 多阵列便宜些;

主要还是U 没有像EPYC 那种大船便宜货;

我想问的问题也就是因为计算TR Pro平台而产生的
发表于 2025-2-10 12:13 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 12:12
7975WX, TRX50 (技嘉有张8通道的新板子),96G RDIMM D5*8,
核心就这三样,整套下来5w,比同带宽的水平 ...

那你不如9654双路了 随便打爆上面这2货
 楼主| 发表于 2025-2-10 12:14 | 显示全部楼层
momo77989724 发表于 2025-2-10 12:13
那你不如9654双路了 随便打爆上面这2货

主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂.....
发表于 2025-2-10 12:17 | 显示全部楼层
CPU核心数目不太重要,但注意不能买2ccd的epyc。

每个ccd可以有1(narrow)或者2(Wide)个GMI连接到IOD,每个GMI的速度大概在52G/s。为了满足内存带宽,再丐都要买8条GMI的。

8条GMI:zen4 选4ccd的(9254),(zen4 8ccd也是8条考虑到更贵的价格不合适),zen5的4ccd也可以(9255)。这两单CPU的内存带宽也能跑420GB/,跑12通道4800也差不多。

我觉得最合适的是两颗24/32核心的8CCD zen5 epyc(9275f/9355),zen5 8ccd是16条GMI,能跑24通道DDR5 6000,总带宽1152GB/s。
发表于 2025-2-10 12:20 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 12:14
主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂..... ...

....那。。。
发表于 2025-2-10 12:21 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 12:14
主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂..... ...

EPYC 9575F  睿频5G,支持DDR5 6000 12通道。
 楼主| 发表于 2025-2-10 12:22 | 显示全部楼层
zlcrxp 发表于 2025-2-10 12:21
EPYC 9575F  睿频5G,支持DDR5 6000 12通道。

EPYC 玩游戏的问题,本坛就有.....不推荐
发表于 2025-2-10 12:26 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 12:27 编辑

4th的epyc单ccd和iod的连接gmi3最高带宽36g(3th的是32g?),你先看看你的u是几个ccd,不能光看内存带宽,可能用不上。ccd多确实要好一些,但如果同时访问iod,iod有那么强的交换能力保证所有ccd都有36g带宽么?不明确。

monolithic只需要简单计算就好了,chiplet要考虑的东西就多了。
发表于 2025-2-10 12:52 | 显示全部楼层
本帖最后由 momo77989724 于 2025-2-10 12:59 编辑
KimmyGLM 发表于 2025-2-10 12:22
EPYC 玩游戏的问题,本坛就有.....不推荐


TR玩游戏也一样吧。。。这个是架构问题  

8通道就是高频也比12通道慢。。。牙膏至强5本身就能跑6000 还是跑不过12通道的。只能是接近

这东西不是特别吃核心 数量

反正你看吧  要兼顾的话 成本要上升。。。而且线撕这东西 很难出手。。。买了基本上就要用到死了。。TR和W系以后越来越小众了。。可能会消失
发表于 2025-2-10 12:59 | 显示全部楼层
我輩樹である 发表于 2025-2-10 12:26
4th的epyc单ccd和iod的连接gmi3最高带宽36g(3th的是32g?),你先看看你的u是几个ccd,不能光看内存带宽, ...

贴个图

9004的IOD一共有12条GMI链接 3*4
默认情况 CPU die 用一条GMI,有些型号 用2条

同样9005IOD则由16条GMI 4*4
默认情况 CPU die 用一条GMI,有些型号 用2条

除非AMD特别说明内存带宽是减半的型号,正常都可以跑满,延迟会因为CCD的数量有所差距。

epyc.png
发表于 2025-2-10 13:01 | 显示全部楼层
想知道9950X配192G内存跑671b的1.58b量化怎么样
发表于 2025-2-10 13:15 | 显示全部楼层
4通道的普通消费级主板能跑几t/s呢
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 00:00 , Processed in 0.014656 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表