找回密码
 加入我们
搜索
      
楼主: shawnwinton

[CPU] 分Die是不是已经到了尽头

[复制链接]
发表于 2024-8-20 10:01 | 显示全部楼层
alieshex 发表于 2024-8-19 20:55
到不了tb。tb是咋算出来的
按yc作者说法,单ccd,zen4 avx256能到60g, zen5 avx512 翻倍了,超if是一定 ...


单周期2*2*512bit输入2*512bit输出,5g频率下2TB/s的吞吐量

你别说avx512,就连avx128的吞吐量都不是L3的速度可以满足的,只有L1可以
发表于 2024-8-20 10:07 | 显示全部楼层
本帖最后由 alieshex 于 2024-8-20 10:19 编辑
8owd8wan 发表于 2024-8-20 09:51
我们数据中心里面,实际情况是一个个 vm, 跑着一个个增删改查的容器,还真影响不大。你不会以为程序员们 ...


你的实际情况,并不是所有人的实际情况。
vm跑容器,甚至不用扩核,加分布式集群也能解决,而且性价比肯定会比顶配当代epyc强


况且,我一直都只是说有这么个吃不满的状况将来有可能会出现。当然,苏妈会不会care另说。就像intel小核簇只能满带宽跑2核,但是有人care了吗,有需求对象买小核hpc?
发表于 2024-8-20 10:15 来自手机 | 显示全部楼层
本帖最后由 8owd8wan 于 2024-8-20 10:19 编辑
alieshex 发表于 2024-8-20 10:07
你的实际情况,并不是所有人的实际情况。
vm跑容器,甚至不用扩核,加分布式集群也能解决,而且性价比肯 ...


脱离实际谈极端情况没意义,你说的这种极端情况有没有?
还真有,AI 计算(尤其是 LLM ),流体力学模拟,以及各种高密集的数学计算,那么您猜,这些场景下,我们一般怎么处理?真会怼着 CPU 去傻算么?

另外,我的实际情况,可能已经可以涵盖绝大多数人的需求了。当然,谁能说是绝对100%呢?
钻牛角尖的事情没意思,找您这个说法,我们数据中心决策买EPYC,是不是因为认知能力不足?恐怕也不是。

BTW:CPU,计算卡/GPU,DSP,都是用来计算的,既然都是为了计算,那您觉得,为啥还会有这些不同的计算产品呢?
发表于 2024-8-20 10:16 | 显示全部楼层
Mufasa 发表于 2024-8-20 09:57
IF改进很简单啊,单通道不够用双通道,双通道不够用四通道。
这种互联总线可以简单粗暴堆数量,代价是那 ...

期待apu还不如期待mobile。

个人感觉堆数量理论可行,实际上基板能不能放下就不清楚了

动力都在gpu上。不过9000iod也就那样,能升级啥,rdna3,还是内存控制器。前者让apu咋卖,后者反正都卡if,没啥大用
发表于 2024-8-20 10:20 | 显示全部楼层
alieshex 发表于 2024-8-20 10:07
你的实际情况,并不是所有人的实际情况。
vm跑容器,甚至不用扩核,加分布式集群也能解决,而且性价比肯 ...

将来有可能会存在,不影响现在的选择。

现在企业采购服务器已经不会考虑以后怎样怎样了。
新机器上架,3-5年直接下架,变成垃圾佬的狂欢。。。。
云计算就是这样,每年都买新机器,每年都淘汰旧机器。
一台机器只要能在生命期的前两年保持性能领先,就算合格。

软件决定硬件,等疯狂吃带宽的应用出现了,自然会有对应的硬件。
因为云计算的特点,疯狂吃带宽的应用可以无缝向高性能的集群迁移。
原先的普通集群继续运行普通应用,直到淘汰,或者下一次迭代。
发表于 2024-8-20 10:21 | 显示全部楼层
本帖最后由 8owd8wan 于 2024-8-20 10:23 编辑
Mufasa 发表于 2024-8-20 10:20
将来有可能会存在,不影响现在的选择。

现在企业采购服务器已经不会考虑以后怎样怎样了。


极端计算需求,并且有并行指令向量优化,那就调用CUDA,上GPU/计算卡

再不能满足,ASIC伺候(比特币,各种DSP就是典型)
发表于 2024-8-20 10:25 | 显示全部楼层
8owd8wan 发表于 2024-8-20 10:15
脱离实际谈极端情况没意义,你说的这种极端情况有没有?
还真有,AI 计算(尤其是 LLM ),流体力学模拟, ...

有限元分析现在都喜欢用EPYC 9654,内存全部插满。

没人用Xeon去搞什么有限元,速度差太多。。。。

Xeon现在主要用于存储服务器和网络服务器。

高性能计算方面,EPYC的优势非常大。
发表于 2024-8-20 10:29 | 显示全部楼层
Mufasa 发表于 2024-8-20 10:25
有限元分析现在都喜欢用EPYC 9654,内存全部插满。

没人用Xeon去搞什么有限元,速度差太多。。。。

是的,挡不住核多啊!
另外就是,程序员写的代码,没那么多极致优化,大部分计算逻辑也无法写成向量调用SIMD去计算。
所以我们讨论问题,还是要看实际,看real world,而不是停留在自己的幻想里
发表于 2024-8-20 11:02 | 显示全部楼层
本帖最后由 alieshex 于 2024-8-20 11:20 编辑
8owd8wan 发表于 2024-8-20 10:21
极端计算需求,并且有并行指令向量优化,那就调用CUDA,上GPU/计算卡

再不能满足,ASIC伺候(比特币,各 ...


这类需求肯定存在的。至于他们放不放弃满核心或者将就着用,那我不知道,也不是我讨论的范围。

按你说法,超算堆啥cpu。直接gpu一路到底完事。

讨论实际,我一直表明一个观点,if带宽可能不够zen用了,并且情况在加剧
至于延时,不在考虑范围,8核x3d缓解,更多核延时指标一般靠后。

我并没有反对或者否定,比如加多gmi链接,但是我对基板能不能布线保留意见。
real world用不用的到,普遍那肯定用不到,现状永远是各种要求一致性的需求才是主流。但你说没有,那才是沉浸在幻想
发表于 2024-8-20 11:47 | 显示全部楼层
本帖最后由 8owd8wan 于 2024-8-20 11:53 编辑
alieshex 发表于 2024-8-20 11:02
这类需求肯定存在的。至于他们放不放弃满核心或者将就着用,那我不知道,也不是我讨论的范围。

按你说法 ...


对不起,你说的这类需求“肯定存在”,能否给一些实际案例?实际的,而不是臆想的。

如我上述所言,这种EPYC/Xeon无法满足,现有GPU/计算卡/ASIC也不想用的情况。

诚然,防小行星撞击地球系统的需求,是存在的。家用轿车能跑出400km/h 时速的需求,我相信也是存在的。但,似乎离普通用户,甚至专业用户,似乎也太远了吧?

着眼于这8个字:实际需求,实际场景。
所以我对轮大的“灵魂拷问”深以为然:绝大部分人,真的都需要X3D么?
继续问:绝大部分使用场景下,真的需要在轻薄商务本上实现80瓦的功耗释放么?真的需要V8/500马力的发动机么?真的需要三宫六院72妃么?。。。

发表于 2024-8-20 12:37 | 显示全部楼层
本帖最后由 alieshex 于 2024-8-20 12:56 编辑
8owd8wan 发表于 2024-8-20 11:47
对不起,你说的这类需求“肯定存在”,能否给一些实际案例?实际的,而不是臆想的。

如我上述所言,这种 ...


。。。。。。非要杠
这么说吧,一个典型但不符合条件的例子,视频编解码。
在ASIC出来前,你能上gpu跑?而avx证明了对编解码都是有提升效果的
更何况,如果改了些参数,ASIC还跑不了。
当然,这例子带宽肯定是吃不满的,甚至少的可怜。。。

事务都是有发展阶段的。非要拿着最终特化适配阶段的状态来凹。
这么和你说,你要的例子就在明年nvidia等公司的ppt上。没适配的程序写出来前,cpu可能就是更快

实际需求,之前就说了,我没否认。那些需要的将就着用或者其他不在我讨论范围。
实际需求,x3d不是用不用的到,而是省事。超频调试的时间可以干其他事,性能和细调的有来有回。2000的时候,这就是实际需求。
发表于 2024-8-20 12:40 | 显示全部楼层
Mufasa 发表于 2024-8-19 21:25
有限元分析现在都喜欢用EPYC 9654,内存全部插满。

没人用Xeon去搞什么有限元,速度差太多。。。。

现在真没有人3-5年就换代,那是前几年云计算蓝海的时候。现在Azure至少6年才会换代,aws上用e5 2686v4的也大有人在
https://aws.amazon.com/ec2/instance-types/i3/
https://aws.amazon.com/ec2/instance-types/i3/
发表于 2024-8-20 12:42 | 显示全部楼层
8owd8wan 发表于 2024-8-19 22:47
对不起,你说的这类需求“肯定存在”,能否给一些实际案例?实际的,而不是臆想的。

如我上述所言,这种 ...

你还真有耐心。在这里很多人只求口舌之快,自己估计一行生产代码都没写过
发表于 2024-8-20 12:51 | 显示全部楼层
赫敏 发表于 2024-8-20 12:40
现在真没有人3-5年就换代,那是前几年云计算蓝海的时候。现在Azure至少6年才会换代,aws上用e5 2686v4的 ...


是的。你看我在阿里云上的一台ECS

E5-2682

ecs.png
发表于 2024-8-20 12:55 | 显示全部楼层
alieshex 发表于 2024-8-20 12:37
。。。。。。非要杠
这么说吧,一个典型但不符合条件的例子,视频编解码。
在ASIC出来前,你能上gpu跑? ...

ASIC是指专用定制芯片,和GPU有啥关系?
视频解码编码,早期倒真的是ASIC(2000年前),后面才有软解,GPU硬解,调用AVX是很后面的事情了。

你这个例子不恰当,继续举呗
发表于 2024-8-20 12:56 | 显示全部楼层
赫敏 发表于 2024-8-20 12:42
你还真有耐心。在这里很多人只求口舌之快,自己估计一行生产代码都没写过 ...

嘻嘻,因为我发现了一个喜欢臆想的同学,这种同学很好玩的,懂一点点,但又不肯承认自己的不懂。
发表于 2024-8-20 12:57 | 显示全部楼层
本帖最后由 alieshex 于 2024-8-20 12:58 编辑
8owd8wan 发表于 2024-8-20 12:55
ASIC是指专用定制芯片,和GPU有啥关系?
视频解码编码,早期倒真的是ASIC(2000年前),后面才有软解,GP ...


gpu里的解码器就是asic。只是集成了

说了,明年各大公司ppt上自己去找。看看多少符合条件
发表于 2024-8-20 13:00 | 显示全部楼层
alieshex 发表于 2024-8-20 12:57
gpu里的解码器就是asic。只是集成了

哦,然后呢?然后您靠这个例子来说明EPYC有严重瓶颈?
那我要问了,历史上,是GPU硬解编码先出呢,还是EPYC先出?
发表于 2024-8-20 13:02 | 显示全部楼层
本帖最后由 alieshex 于 2024-8-20 14:09 编辑
8owd8wan 发表于 2024-8-20 13:00
哦,然后呢?然后您靠这个例子来说明EPYC有严重瓶颈?
那我要问了,历史上,是GPU硬解编码先出呢,还是EP ...


?????你要的例子是其他的效率高,但还是用cpu。


=_=这里我记混了,还有个条件带宽不够。emmmm,上规模,几个一起编码。当然这也可以多上编码单元。那1024K分辨率的视频,哈哈哈哈。。。。。



原话还给你
喜欢臆想的同学,懂一点点,但又不肯承认自己的不懂。
发表于 2024-8-20 13:10 来自手机 | 显示全部楼层
8owd8wan 发表于 2024-8-20 01:24
不能因为人家是统一内存,而否定是内存啊……
多核处理器还是要仔细看一下,这样的设计会不会真的在实际 ...

你也不看苹果给M系列高端芯片堆了多少内存通道,X86这种只会在商用平台
发表于 2024-8-20 13:11 | 显示全部楼层
alieshex 发表于 2024-8-20 13:02
?????你要的例子是其他的效率高,但还是用cpu。

原话还给你


额。。有些get不到你的点。
就说吧,我的意思是,如果高性能向量计算,高密度的计算,CPU实在实在不够,我们实践过程中,会交给ASIC,GPU,计算卡等来做加速。比如说,Pytorch中的张量计算,那么显然用CPU来做,速度太慢,那就用CUDA API来做加速吧。
那么现实条件下,AVX指令跑满,现有的总线速度不满足这个问题,在我们实际生活中,并不是大问题:因为真要做那么密集的向量计算,那就借用其他计算设备呗。

另外,现实情况下,调用AVX真的没那么容易,如果是C++/C,调用还能直接些。但如果是Java,C#,Python呢?当然,Java现在有些vector 孵化,也可以走JNI,硬要说能调用,也行。But,你改写试试看?

很巧,手头有一个martix的乘法代码,我贴附件里 (一个Java base的AI框架玩具)

从453-467行,典型的矩阵向量计算,您看看能不能帮我改成调用AVX2来加速?
ecs.png
发表于 2024-8-20 13:38 | 显示全部楼层
本帖最后由 alieshex 于 2024-8-20 14:13 编辑
8owd8wan 发表于 2024-8-20 13:11
额。。有些get不到你的点。
就说吧,我的意思是,如果高性能向量计算,高密度的计算,CPU实在实在不够, ...


=_=没get是我记混了,还有个条件带宽不够。试试1024K分辨率的视频,哈哈哈哈。。。。。


确实不是啥普遍情况,我重来没否认。

不用c/cuda,还高性能计算?cuda老黄弄好了。c编译库的时候改个参数,为啥要自己改,况且实现也都是内联汇编

当分支结构多,gpu效率就会下降。当分支足够多,且每次计算量刚好卡在一个数量级(gpu加传输刚好不如cpu),那你用啥。
当然是重写啦
发表于 2024-8-20 14:18 | 显示全部楼层
装陈醋的酱油瓶 发表于 2024-8-18 21:56
感觉如果在io die 上叠个缓存效果会更好

rdna3的惨剧还没看够啊?
发表于 2024-8-20 14:33 | 显示全部楼层
8owd8wan 发表于 2024-8-20 13:11
额。。有些get不到你的点。
就说吧,我的意思是,如果高性能向量计算,高密度的计算,CPU实在实在不够, ...

你这例子也太....
开销全在java内置对象创建销毁上, 哪有向量化什么事
而且mnk循环改成mkn循环就能加速至少一个数量级

至于你要说python的话, python最不差这个了, 无论是numpy走mkl后端还是numba jit, 矩阵乘法合理写法下都能随便打满别说avx2了, avx512都是能自动优化的比较充分的
发表于 2024-8-20 14:34 | 显示全部楼层
Mufasa 发表于 2024-8-20 00:45
下一代应该搞不出16通道内存,主板布线没法做。
强行加PCB层数,搞16通道,主板成本上天。。。。
不如给I ...

那更没有什么IF总线带宽瓶颈的问题了,12通道本身就已经瓶颈了,看看今年的EPYC 5有什么改动吧,我估计可能就是单纯加一点频率变成12通道DDR5 5600,128核/192核,到下一代继续加核心的话带宽肯定不够了,HBM是不可能的,连明年的产能都已经全部被AI卡预订完了,根本没产能给普通服务器U。(虽然隔壁intel也做了Xeon Max)

估计可能是真的搞更多通道+内存版,或者X3D,又或者硬扛,要通道就不要那么多核心.......
发表于 2024-8-20 14:37 | 显示全部楼层
本帖最后由 8owd8wan 于 2024-8-20 14:39 编辑
zhuifeng88 发表于 2024-8-20 14:33
你这例子也太....
开销全在java内置对象创建销毁上, 哪有向量化什么事
而且mnk循环改成mkn循环就能加速至 ...


不是,数值计算本身没有什么对象销毁啥的开销。
真正还是应该让SIMD甚至GPU来做这些向量计算加速。
另外,Pytorch GPU加速底层原理,是调用native code(C++写的), 当然,如果GPU加速,就是本地代码调用cuda API。 这个如果你感兴趣,可以调阅source code
发表于 2024-8-20 14:38 | 显示全部楼层
8owd8wan 发表于 2024-8-20 14:37
不是,数值计算本身没有什么对象销毁啥的开销。
真正还是应该让SIMD甚至GPU来做这些向量计算加速 ...

你的行列索引全是对象操作...
发表于 2024-8-20 14:40 | 显示全部楼层

本帖最后由 darkness66201 于 2024-8-20 14:49 编辑
alieshex 发表于 2024-8-20 10:16
期待apu还不如期待mobile。

个人感觉堆数量理论可行,实际上基板能不能放下就不清楚了


不是我说,讨论了这么久,你就翻来覆去的说那两句话,会卡IF,会卡IF,基板放不下,基板放不下,会卡IF,会卡IF,其他人说的话也没听进去,你翻来覆去强调也没有意义啊,非要钻牛角尖不可么
发表于 2024-8-20 14:42 | 显示全部楼层
zhuifeng88 发表于 2024-8-20 14:38
你的行列索引全是对象操作...

no,里面的计算都是值类型计算。
你可以用阿里的atlas 做profile,真的不是消耗在所谓对象生成销毁上。
anyway,Java编程的detail是另外一个话题,完全可以新写一本书了,不是三言两语一句话就能说的
发表于 2024-8-20 14:46 来自手机 | 显示全部楼层
zhuifeng88 发表于 2024-8-20 14:38
你的行列索引全是对象操作...

不要太小看java的jit编译器了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 13:52 , Processed in 0.014226 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表