找回密码
 加入我们
搜索
      
查看: 8172|回复: 86

[CPU] 纯CPU 跑LLM (如671B 的全量R1),对于U核心数是否有要求?

[复制链接]
发表于 2025-2-10 11:05 | 显示全部楼层 |阅读模式
本帖最后由 KimmyGLM 于 2025-2-10 12:30 编辑

多卡跑全量版本的LLM成本太高,琢磨用纯CPU来跑。

EPYC 的方案网上非常多,就展开聊了;穷鬼方案甚至可以用水友给的傲腾持久内存;

比较好奇的是,在内存容量/带宽满足跑671B 的前提下( 内存 8ch or 12ch ),对于U核心数是否有要求?

是否核心数越多,Token越快?还是说影响权重较小,远不及内存带宽的影响大?

PS. 有好心人跑一下TR pro线撕跑671B 的Token么,这玩意能双超的话,水友的帖子跑出了200G+的带宽,理论上应该不慢
 楼主| 发表于 2025-2-10 11:18 | 显示全部楼层
momo77989724 发表于 2025-2-10 11:15
核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的 没法用
32核的价格和48 64区别也不大。。 ...

其实只想要8通道以上的多核U就行,比如7975WX线撕,频率还高,就是好贵....
比EPYC 大船贵太多太多
 楼主| 发表于 2025-2-10 11:44 来自手机 | 显示全部楼层
xy. 发表于 2025-2-10 11:36
16 ch d5 4800 q2 大概 8t/s

这速度还行,和b站12ch d5测下来的差不多
 楼主| 发表于 2025-2-10 11:44 来自手机 | 显示全部楼层
lz2906190 发表于 2025-2-10 11:39
慢的要死,用免费的gemini2.0不香吗?

咱先不讨论api和本地的优劣,就纯技术交流看看。
 楼主| 发表于 2025-2-10 11:54 | 显示全部楼层
momo77989724 发表于 2025-2-10 11:34
不行 D4基本跑不动  1秒1个字不到 还跑什么

https://www.chiphell.com/forum.php?mod=viewthread&tid=2613922

TR pro 是D5平台了,帖子里8根32G 6000频率很恐怖了
 楼主| 发表于 2025-2-10 11:58 | 显示全部楼层
allenxml 发表于 2025-2-10 11:56
首先你需要明白官网的模型是671B的FP8模型,下载下来后640GB大小。

8ch 96G*8 即可满足,或者12ch 24*32  768g, 纯CPU跑上面有人给过结果了
 楼主| 发表于 2025-2-10 12:01 | 显示全部楼层
momo77989724 发表于 2025-2-10 11:58
哦记错了 79XX是D5 。。。
8根不够好像  12通道我记得才3-4字/秒 优化后估计也就5左右 ...

没办法兼得;

要速度就不可能便宜;
要便宜就不可能太快......

水友给出的极致穷鬼套餐3000块全套傲腾跑671B 原版,0.7t/s
 楼主| 发表于 2025-2-10 12:12 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-10 12:13 编辑
momo77989724 发表于 2025-2-10 12:02
那种没意义的 浪费时间

我有768G 甚至1T以上的机子。。。当天我就试过部署4B


7975WX, TRX50 (技嘉有张8通道的新板子),96G RDIMM D5*8,
核心就这三样,整套下来5w,比同带宽的水平的M2ultra 192G 多阵列便宜些;

主要还是U 没有像EPYC 那种大船便宜货;

我想问的问题也就是因为计算TR Pro平台而产生的
 楼主| 发表于 2025-2-10 12:14 | 显示全部楼层
momo77989724 发表于 2025-2-10 12:13
那你不如9654双路了 随便打爆上面这2货

主要还是有私心,想兼顾打游戏.....
双路大船只能是另起炉灶,那么大的机箱不好放也容易被老婆骂.....
 楼主| 发表于 2025-2-10 12:22 | 显示全部楼层
zlcrxp 发表于 2025-2-10 12:21
EPYC 9575F  睿频5G,支持DDR5 6000 12通道。

EPYC 玩游戏的问题,本坛就有.....不推荐
 楼主| 发表于 2025-2-10 13:26 | 显示全部楼层
hunclef 发表于 2025-2-10 13:23
部署deepseek这种场景,单路和双路CPU差别大么?我看有些说法是因为NUMA双路效率好像不怎么高 ...

能单不要双,多路U 的之间的通信带宽受限,即便用NUMA 来配置,也仅仅只有一点点提升;

看B站这个视频的讨论区

https://www.bilibili.com/video/B ... bc464b86ef34c9a4287
 楼主| 发表于 2025-2-10 13:32 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-10 13:36 编辑
pdvc 发表于 2025-2-10 13:20
7950X+4090+96GB内存试过,有2-3t速度


B 站这个视频该不会就是你吧,哈哈。


https://www.bilibili.com/video/B ... bc464b86ef34c9a4287


感觉有没有显卡,已经不重要了。
之前傲腾内存那个帖子里,有个水友也用192G 类似配置跑,速度基本一样。

https://www.chiphell.com/forum.p ... ;page=1#pid56647697
 楼主| 发表于 2025-2-10 13:55 | 显示全部楼层
我輩樹である 发表于 2025-2-10 13:52
需要优化。将专家参数按照一定的逻辑性放在不同的iod内存上,增加推理时在一个iod上的命中率。 ...

那估计要重写llama.cpp了,每层一个MoE扔到一个CCD的线程
 楼主| 发表于 2025-2-10 14:05 | 显示全部楼层
chungexcy 发表于 2025-2-10 13:57
reddit那位老哥说的是6-8 tokens/s,他就是zen5的双路。看样子能跑出b站那个视频的两倍速度。

https://x ...


Matthew Carrigan 是 Hugging Face 的机器学习工程师......
就是他最早给出部署768G 全CPU跑的方案的啊,X 上有
AMD EPYC 9004/9005 2S
Gigabyte MZ73-LM0
24×32GB DDR5-RDIMM
Enthoo Pro 2 Server

6-8T/s

成本差不多是6000美元
 楼主| 发表于 2025-2-10 14:22 | 显示全部楼层
chungexcy 发表于 2025-2-10 14:13
所以我说双路应该是有提升的。

PS,6000刀买不了双路 zen5 的 8ccd 版本

他建议买入门的9015  9115即可;
所以也不是很需要多核U
EPYC .jpg
 楼主| 发表于 2025-2-10 15:00 | 显示全部楼层
我輩樹である 发表于 2025-2-10 14:53
9015,9115最主要的是。。。。。国内有没有垃圾可以捡。刚查了一下,只有正式版,23000+。。。 ...

估计是随手写的,因为这俩是9005 epyc series list 最入门的俩,直接就被拿来当例子;
但是,大客户基本没有采购这种入门货色,导致大船货稀缺,还不如常见的9454  9554QS
 楼主| 发表于 2025-2-10 15:52 | 显示全部楼层
qdzx123 发表于 2025-2-10 15:47
低于5tk就几乎没有任何意义了 连研究都别研究 纯浪费时间
0.几 更是完全没用 9.11和9.8谁大都要1200字
这种 ...

都知道速度快舒服啊,但是全GPU去跑真的是天价......君不见M2ultra 大内存的都被炒涨价了
 楼主| 发表于 2025-2-10 15:56 | 显示全部楼层
qdzx123 发表于 2025-2-10 15:53
比起冲容量 更重要的是想办法低价冲带宽


no perfect solution for low cost in Bandwidth.....

本身用CPU 跑就是低价方案了,带宽和容量一般都是不可能兼得
 楼主| 发表于 2025-2-10 16:22 | 显示全部楼层
我輩樹である 发表于 2025-2-10 15:19
不是自媒体,卖超算工作站的商家。

https://forums.anandtech.com/threads/epyc-9124-genoa-sp5-heatsin ...

入门级的这几个4CCD epyc, 虽然硬件规格是双倍的 GMI3,理论上满8组,但搜了好久都没找到啥review,没有实证测试内存带宽,担心可能跑不满。
 楼主| 发表于 2025-2-11 10:15 | 显示全部楼层
zlcrxp 发表于 2025-2-11 10:00
除非AMD特别标注是砍了内存带宽的,比如7002有一些很特别的型号 7282这样,通道满但是带宽减半,应该是通 ...


嗯,但是我昨天无聊去翻水友的7975WX 7985WX服务器的帖子,带宽还是和CCD 数量息息相关,但提升不是线性的。具体可以看这俩贴,里面正好有带宽图。

https://www.chiphell.com/thread-2613922-1-1.html
https://www.chiphell.com/thread-2616386-1-1.html

同样是256G 8ch D5 5600 插满
32c 64t   (4ccd)7975wx  带宽接近200G(仅看Read);
64c 128t (8ccd) 7985wx 带宽接近280G ,内存超到6000后,跑出了近320G;

当然就单路而言,还有更猛的.....B站水友的志强3575x 256G 7000Mhz! 老英还有AMX的支持
3575X.jpg
 楼主| 发表于 2025-2-11 14:43 | 显示全部楼层
qdzx123 发表于 2025-2-11 14:27
CXL 2.0内存模块我觉着可以关注一下 不过估计短期内价格...

第五代志强目前价格还不错,8581C本坛有几个讨论帖子(感谢水友们)

https://www.chiphell.com/thread-2658060-2-1.html
https://www.chiphell.com/thread-2670147-1-1.html

B站跑Q2 2.51bit 671B的视频

https://www.bilibili.com/video/B ... bc464b86ef34c9a4287
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-18 19:02 , Processed in 0.026937 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表