找回密码
 加入我们
搜索
      
查看: 8276|回复: 86

[CPU] 纯CPU 跑LLM (如671B 的全量R1),对于U核心数是否有要求?

[复制链接]
发表于 2025-2-10 12:26 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 12:27 编辑

4th的epyc单ccd和iod的连接gmi3最高带宽36g(3th的是32g?),你先看看你的u是几个ccd,不能光看内存带宽,可能用不上。ccd多确实要好一些,但如果同时访问iod,iod有那么强的交换能力保证所有ccd都有36g带宽么?不明确。

monolithic只需要简单计算就好了,chiplet要考虑的东西就多了。
发表于 2025-2-10 13:43 | 显示全部楼层
zlcrxp 发表于 2025-2-10 12:59
贴个图

9004的IOD一共有12条GMI链接 3*4

你是对的。我算错了。
发表于 2025-2-10 13:52 | 显示全部楼层
chungexcy 发表于 2025-2-10 13:48
我不太清楚,但理论上是“可以”有去别的。这个需要看软件优化,你还是等其他人的实测吧。

我能说的是, ...

需要优化。将专家参数按照一定的逻辑性放在不同的iod内存上,增加推理时在一个iod上的命中率。
发表于 2025-2-10 14:21 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 15:53 编辑
KimmyGLM 发表于 2025-2-10 14:05
Matthew Carrigan 是 Hugging Face 的机器学习工程师......
就是他最早给出部署768G 全CPU跑的方案的啊, ...

 单价数量总价
三星/海力士 REGECC DDR5 4800 32GB
820
24
19680
Gigabyte MZ73-LM0
8200
1
8200
EPYC 9124
4300
2
8600
金钱豹散热器
290
2
580
机箱鞋盒
0
1
0


穷鬼套餐,CPU为最便宜的4CCD,享受双倍GMI带宽,但L3只有64MB可能是雷点。淘宝配3w8左右。


推荐这个配置,多一万预算:
 单价数量总价
三星/海力士 REGECC DDR5 4800 32GB
820
24
19680
Gigabyte MZ73-LM0
8200
1
8200
EPYC 9354(4CCD)
9900
2
19800
金钱豹散热器
290
2
580
机箱鞋盒
0
1
0


4CCD的最好,双倍gmi带宽的最后福利。价格和带宽的平衡。

发表于 2025-2-10 14:53 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 14:22
他建议买入门的9015  9115即可;
所以也不是很需要多核U

9015,9115最主要的是。。。。。国内有没有垃圾可以捡。刚查了一下,只有正式版,23000+。。。
发表于 2025-2-10 15:01 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 15:04 编辑
chungexcy 发表于 2025-2-10 14:57
单GMI实测52GB/s,理论是57.6GB/s。单CCD 107GB/s。

https://chipsandcheese.com/i/150034774/memory-ba ...


95是8ccd的,93是4ccd,但是享受2倍link数(理论上),所以它们两gmi带宽是一样的。
发表于 2025-2-10 15:11 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 15:12 编辑
chungexcy 发表于 2025-2-10 15:04
我看9354是8ccd,256M的L3。你看看9254/9255


截屏2025-02-10 15.10.09.png

确实是8,我都是问ai

从这个图看 9124是4ccd应该是最适合的。不知道它的内存通道数支持是不是完整的。
发表于 2025-2-10 15:14 | 显示全部楼层
chungexcy 发表于 2025-2-10 15:13
这个是amd官方的图么?为啥64MB的也标4ccd。我不觉得amd会阉割l3

https://www.hpctech.co.jp/assets ... 004_Series_Ver2.pdf
发表于 2025-2-10 15:19 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 15:38 编辑
chungexcy 发表于 2025-2-10 15:15
哦,懂了,自媒体版

省流:看着官网的L3大小买


不是自媒体,卖超算工作站的商家。

https://forums.anandtech.com/thr ... ns-welcome.2621420/

这里也有人说9124是4ccd。

搜9124感觉这个u的问题挺多。

有找到了点资料,9124/9224确实是2个例外:

https://www.cfd-online.com/Forum ... yers-guide-cfd.html

AMD-EPYC-Genoa-Launch-Pricing-Official-Table.jpg

3. Pitfalls and CPUs to avoid

Just like in the previous generations, the connection between the compute dies (CCD) and the I/O-die where the memory controllers reside can be a bottleneck. For 2nd gen Epyc Rome, we had CPUs with effectively half the total memory bandwidth thanks to this bottleneck.
The GMI3 links between CCD and an IOD did not undergo major changes. If my napkin math is correct, the bandwidth here is 57.6GB/s and 22.8GB/s for read and write respectively. Which requires 8 of these links to match the memory bandwidth. Remember: reads are more important than writes in most cases, so it doesn't matter that the write bandwidth lacks behind.
AMD has a trick up their sleeve: the CPUs with only 4 CCDs can be connected to the IOD with 2 GMI3 links each, which is enough to utilize the full potential of the memory subsystem. So in theory, the full stack of CPUs launched so far should not hide any nasty surprises.
CAVEAT: should
The wording in AMDs official slides is not definitive enough for my personal taste. It is stated that CPUs with 4 CCDs can utilize 2 GMI3 links per CCD. Not that all of them necessarily do. Maybe I'm just too paranoid, decide for yourself...
And there are the 2 low-end CPUs with only 64MB of L3 cache. How this is achieved remains to be seen. Up until now, 64MB L3 cache on an Epyc CPU meant only 2 CCDs are active. Which wasn't enough to get the full bandwidth in previous generations, and still isn't enough in this generation, even with two GMI3 links per CCD. The table above lists them as 4 CCD parts. AMDs official website lists all CPUs with a memory bandwidth of 460.8GB/s. But until detailed benchmarks for some of the lower-end parts are out, I would treat that information with some skepticism.

Edit: after sifting through AMD's own technical documentation, I can confirm that ALL CPUs launched so far consist of at least 4 active CCDs. Even those with 64MB of L3 cache.

Regardless, the value proposition for the lowest-end SKUs 9224 and 9124 just isn't there. The platform cost is fairly high thanks to PCIe5 and DDR5. And the halved L3 cache will have a negative performance impact. In this price and core count range, you are likely better off with some discounted parts from previous generations.
And until further benchmarks or confirmations are available, I reserve final judgement for all all SKUs listed above with a "4+1" configuration. I will post an update if/when that happens.

它们虽然是4ccd,但l3太小了,所以这些搞cfd的人不推荐
发表于 2025-2-10 16:03 | 显示全部楼层
qdzx123 发表于 2025-2-10 15:57
不是舒服不舒服的问题 你用算盘算火箭上天吗
0.几连玩的价值都没有了 别说实用了 ,一个稍微复杂的问题 ...

你的观点大家都懂,在很多其他帖子里面也反复讨论过了。而且你可以单独开个贴来讨论“有什么意义”或者“at what cost”的问题。

这个帖子就是超越了这些“意义探讨”的问题,讨论技术上用cpu跑的话题,其实这个话题不独特,很多地方都在讨论。
发表于 2025-2-10 16:26 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 16:22
入门级的这几个4CCD epyc, 虽然硬件规格是双倍的 GMI3,理论上满8组,但搜了好久都没找到啥review,没有 ...


带宽跑不满也够了,460g理论值跑一般,双路还是460。你上面算的gmi 58x4x2=480,亏一点。

不过l3就64m,这个可能是雷。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-21 00:40 , Processed in 0.256913 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表