分Die是不是已经到了尽头

赫敏 · 发表于 2024-8-20 10:01

alieshex 发表于 2024-8-19 20:55
到不了tb。tb是咋算出来的
按yc作者说法，单ccd，zen4 avx256能到60g， zen5 avx512 翻倍了，超if是一定 ...

单周期2*2*512bit输入2*512bit输出，5g频率下2TB/s的吞吐量

你别说avx512，就连avx128的吞吐量都不是L3的速度可以满足的，只有L1可以

alieshex · 发表于 2024-8-20 10:07

本帖最后由 alieshex 于 2024-8-20 10:19 编辑

8owd8wan 发表于 2024-8-20 09:51
我们数据中心里面，实际情况是一个个 vm, 跑着一个个增删改查的容器，还真影响不大。你不会以为程序员们 ...

你的实际情况，并不是所有人的实际情况。
vm跑容器，甚至不用扩核，加分布式集群也能解决，而且性价比肯定会比顶配当代epyc强

况且，我一直都只是说有这么个吃不满的状况将来有可能会出现。当然，苏妈会不会care另说。就像intel小核簇只能满带宽跑2核，但是有人care了吗，有需求对象买小核hpc？

8owd8wan · 发表于 2024-8-20 10:15

本帖最后由 8owd8wan 于 2024-8-20 10:19 编辑

alieshex 发表于 2024-8-20 10:07
你的实际情况，并不是所有人的实际情况。
vm跑容器，甚至不用扩核，加分布式集群也能解决，而且性价比肯 ...

脱离实际谈极端情况没意义，你说的这种极端情况有没有？
还真有，AI 计算（尤其是 LLM )，流体力学模拟，以及各种高密集的数学计算，那么您猜，这些场景下，我们一般怎么处理？真会怼着 CPU 去傻算么？

另外，我的实际情况，可能已经可以涵盖绝大多数人的需求了。当然，谁能说是绝对100%呢？
钻牛角尖的事情没意思，找您这个说法，我们数据中心决策买EPYC，是不是因为认知能力不足？恐怕也不是。

BTW：CPU，计算卡/GPU，DSP，都是用来计算的，既然都是为了计算，那您觉得，为啥还会有这些不同的计算产品呢？

alieshex · 发表于 2024-8-20 10:16

Mufasa 发表于 2024-8-20 09:57
IF改进很简单啊，单通道不够用双通道，双通道不够用四通道。
这种互联总线可以简单粗暴堆数量，代价是那 ...

期待apu还不如期待mobile。

个人感觉堆数量理论可行，实际上基板能不能放下就不清楚了

动力都在gpu上。不过9000iod也就那样，能升级啥，rdna3，还是内存控制器。前者让apu咋卖，后者反正都卡if，没啥大用

Mufasa · 发表于 2024-8-20 10:20

alieshex 发表于 2024-8-20 10:07
你的实际情况，并不是所有人的实际情况。
vm跑容器，甚至不用扩核，加分布式集群也能解决，而且性价比肯 ...

将来有可能会存在，不影响现在的选择。

现在企业采购服务器已经不会考虑以后怎样怎样了。
新机器上架，3-5年直接下架，变成垃圾佬的狂欢。。。。
云计算就是这样，每年都买新机器，每年都淘汰旧机器。
一台机器只要能在生命期的前两年保持性能领先，就算合格。

软件决定硬件，等疯狂吃带宽的应用出现了，自然会有对应的硬件。
因为云计算的特点，疯狂吃带宽的应用可以无缝向高性能的集群迁移。
原先的普通集群继续运行普通应用，直到淘汰，或者下一次迭代。

8owd8wan · 发表于 2024-8-20 10:21

本帖最后由 8owd8wan 于 2024-8-20 10:23 编辑

Mufasa 发表于 2024-8-20 10:20
将来有可能会存在，不影响现在的选择。

现在企业采购服务器已经不会考虑以后怎样怎样了。

极端计算需求，并且有并行指令向量优化，那就调用CUDA，上GPU/计算卡

再不能满足，ASIC伺候（比特币，各种DSP就是典型）

Mufasa · 发表于 2024-8-20 10:25

8owd8wan 发表于 2024-8-20 10:15
脱离实际谈极端情况没意义，你说的这种极端情况有没有？
还真有，AI 计算（尤其是 LLM )，流体力学模拟， ...

有限元分析现在都喜欢用EPYC 9654，内存全部插满。

没人用Xeon去搞什么有限元，速度差太多。。。。

Xeon现在主要用于存储服务器和网络服务器。

高性能计算方面，EPYC的优势非常大。

8owd8wan · 发表于 2024-8-20 10:29

Mufasa 发表于 2024-8-20 10:25
有限元分析现在都喜欢用EPYC 9654，内存全部插满。

没人用Xeon去搞什么有限元，速度差太多。。。。

是的，挡不住核多啊！
另外就是，程序员写的代码，没那么多极致优化，大部分计算逻辑也无法写成向量调用SIMD去计算。
所以我们讨论问题，还是要看实际，看real world，而不是停留在自己的幻想里

alieshex · 发表于 2024-8-20 11:02

本帖最后由 alieshex 于 2024-8-20 11:20 编辑

8owd8wan 发表于 2024-8-20 10:21
极端计算需求，并且有并行指令向量优化，那就调用CUDA，上GPU/计算卡

再不能满足，ASIC伺候（比特币，各 ...

这类需求肯定存在的。至于他们放不放弃满核心或者将就着用，那我不知道，也不是我讨论的范围。

按你说法，超算堆啥cpu。直接gpu一路到底完事。

讨论实际，我一直表明一个观点，if带宽可能不够zen用了，并且情况在加剧
至于延时，不在考虑范围，8核x3d缓解，更多核延时指标一般靠后。

我并没有反对或者否定，比如加多gmi链接，但是我对基板能不能布线保留意见。
real world用不用的到，普遍那肯定用不到，现状永远是各种要求一致性的需求才是主流。但你说没有，那才是沉浸在幻想

8owd8wan · 发表于 2024-8-20 11:47

本帖最后由 8owd8wan 于 2024-8-20 11:53 编辑

alieshex 发表于 2024-8-20 11:02
这类需求肯定存在的。至于他们放不放弃满核心或者将就着用，那我不知道，也不是我讨论的范围。

按你说法 ...

对不起，你说的这类需求“肯定存在”，能否给一些实际案例？实际的，而不是臆想的。

如我上述所言，这种EPYC/Xeon无法满足，现有GPU/计算卡/ASIC也不想用的情况。

诚然，防小行星撞击地球系统的需求，是存在的。家用轿车能跑出400km/h 时速的需求，我相信也是存在的。但，似乎离普通用户，甚至专业用户，似乎也太远了吧？

着眼于这8个字：实际需求，实际场景。
所以我对轮大的“灵魂拷问”深以为然：绝大部分人，真的都需要X3D么？
继续问：绝大部分使用场景下，真的需要在轻薄商务本上实现80瓦的功耗释放么？真的需要V8/500马力的发动机么？真的需要三宫六院72妃么？。。。

alieshex · 发表于 2024-8-20 12:37

本帖最后由 alieshex 于 2024-8-20 12:56 编辑

8owd8wan 发表于 2024-8-20 11:47
对不起，你说的这类需求“肯定存在”，能否给一些实际案例？实际的，而不是臆想的。

如我上述所言，这种 ...

。。。。。。非要杠
这么说吧，一个典型但不符合条件的例子，视频编解码。
在ASIC出来前，你能上gpu跑？而avx证明了对编解码都是有提升效果的
更何况，如果改了些参数，ASIC还跑不了。
当然，这例子带宽肯定是吃不满的，甚至少的可怜。。。

事务都是有发展阶段的。非要拿着最终特化适配阶段的状态来凹。
这么和你说，你要的例子就在明年nvidia等公司的ppt上。没适配的程序写出来前，cpu可能就是更快

实际需求，之前就说了，我没否认。那些需要的将就着用或者其他不在我讨论范围。
实际需求，x3d不是用不用的到，而是省事。超频调试的时间可以干其他事，性能和细调的有来有回。2000的时候，这就是实际需求。

赫敏 · 发表于 2024-8-20 12:40

Mufasa 发表于 2024-8-19 21:25
有限元分析现在都喜欢用EPYC 9654，内存全部插满。

没人用Xeon去搞什么有限元，速度差太多。。。。

现在真没有人3-5年就换代，那是前几年云计算蓝海的时候。现在Azure至少6年才会换代，aws上用e5 2686v4的也大有人在
https://aws.amazon.com/ec2/instance-types/i3/
https://aws.amazon.com/ec2/instance-types/i3/

赫敏 · 发表于 2024-8-20 12:42

8owd8wan 发表于 2024-8-19 22:47
对不起，你说的这类需求“肯定存在”，能否给一些实际案例？实际的，而不是臆想的。

如我上述所言，这种 ...

你还真有耐心。在这里很多人只求口舌之快，自己估计一行生产代码都没写过

8owd8wan · 发表于 2024-8-20 12:51

赫敏发表于 2024-8-20 12:40
现在真没有人3-5年就换代，那是前几年云计算蓝海的时候。现在Azure至少6年才会换代，aws上用e5 2686v4的 ...

是的。你看我在阿里云上的一台ECS

E5-2682

8owd8wan · 发表于 2024-8-20 12:55

alieshex 发表于 2024-8-20 12:37
。。。。。。非要杠
这么说吧，一个典型但不符合条件的例子，视频编解码。
在ASIC出来前，你能上gpu跑？ ...

ASIC是指专用定制芯片，和GPU有啥关系？
视频解码编码，早期倒真的是ASIC（2000年前），后面才有软解，GPU硬解，调用AVX是很后面的事情了。

你这个例子不恰当，继续举呗

8owd8wan · 发表于 2024-8-20 12:56

赫敏发表于 2024-8-20 12:42
你还真有耐心。在这里很多人只求口舌之快，自己估计一行生产代码都没写过 ...

嘻嘻，因为我发现了一个喜欢臆想的同学，这种同学很好玩的，懂一点点，但又不肯承认自己的不懂。

alieshex · 发表于 2024-8-20 12:57

本帖最后由 alieshex 于 2024-8-20 12:58 编辑

8owd8wan 发表于 2024-8-20 12:55
ASIC是指专用定制芯片，和GPU有啥关系？
视频解码编码，早期倒真的是ASIC（2000年前），后面才有软解，GP ...

gpu里的解码器就是asic。只是集成了

说了，明年各大公司ppt上自己去找。看看多少符合条件

8owd8wan · 发表于 2024-8-20 13:00

alieshex 发表于 2024-8-20 12:57
gpu里的解码器就是asic。只是集成了

哦，然后呢？然后您靠这个例子来说明EPYC有严重瓶颈？
那我要问了，历史上，是GPU硬解编码先出呢，还是EPYC先出？

alieshex · 发表于 2024-8-20 13:02

本帖最后由 alieshex 于 2024-8-20 14:09 编辑

8owd8wan 发表于 2024-8-20 13:00
哦，然后呢？然后您靠这个例子来说明EPYC有严重瓶颈？
那我要问了，历史上，是GPU硬解编码先出呢，还是EP ...

？？？？？你要的例子是其他的效率高，但还是用cpu。

=_=这里我记混了，还有个条件带宽不够。emmmm，上规模，几个一起编码。当然这也可以多上编码单元。那1024K分辨率的视频，哈哈哈哈。。。。。

原话还给你
喜欢臆想的同学，懂一点点，但又不肯承认自己的不懂。

8xwob3ko · 发表于 2024-8-20 13:10

8owd8wan 发表于 2024-8-20 01:24
不能因为人家是统一内存，而否定是内存啊……
多核处理器还是要仔细看一下，这样的设计会不会真的在实际 ...

你也不看苹果给M系列高端芯片堆了多少内存通道，X86这种只会在商用平台

8owd8wan · 发表于 2024-8-20 13:11

alieshex 发表于 2024-8-20 13:02
？？？？？你要的例子是其他的效率高，但还是用cpu。

原话还给你

额。。有些get不到你的点。
就说吧，我的意思是，如果高性能向量计算，高密度的计算，CPU实在实在不够，我们实践过程中，会交给ASIC，GPU，计算卡等来做加速。比如说，Pytorch中的张量计算，那么显然用CPU来做，速度太慢，那就用CUDA API来做加速吧。
那么现实条件下，AVX指令跑满，现有的总线速度不满足这个问题，在我们实际生活中，并不是大问题：因为真要做那么密集的向量计算，那就借用其他计算设备呗。

另外，现实情况下，调用AVX真的没那么容易，如果是C++/C，调用还能直接些。但如果是Java，C#，Python呢？当然，Java现在有些vector 孵化，也可以走JNI，硬要说能调用，也行。But，你改写试试看？

很巧，手头有一个martix的乘法代码，我贴附件里（一个Java base的AI框架玩具）

从453-467行，典型的矩阵向量计算，您看看能不能帮我改成调用AVX2来加速？

alieshex · 发表于 2024-8-20 13:38

本帖最后由 alieshex 于 2024-8-20 14:13 编辑

8owd8wan 发表于 2024-8-20 13:11
额。。有些get不到你的点。
就说吧，我的意思是，如果高性能向量计算，高密度的计算，CPU实在实在不够， ...

=_=没get是我记混了，还有个条件带宽不够。试试1024K分辨率的视频，哈哈哈哈。。。。。

确实不是啥普遍情况，我重来没否认。

不用c/cuda，还高性能计算？cuda老黄弄好了。c编译库的时候改个参数，为啥要自己改，况且实现也都是内联汇编

当分支结构多，gpu效率就会下降。当分支足够多，且每次计算量刚好卡在一个数量级（gpu加传输刚好不如cpu），那你用啥。
当然是重写啦

赫敏 · 发表于 2024-8-20 14:18

装陈醋的酱油瓶发表于 2024-8-18 21:56
感觉如果在io die 上叠个缓存效果会更好

rdna3的惨剧还没看够啊？

zhuifeng88 · 发表于 2024-8-20 14:33

8owd8wan 发表于 2024-8-20 13:11
额。。有些get不到你的点。
就说吧，我的意思是，如果高性能向量计算，高密度的计算，CPU实在实在不够， ...

你这例子也太....
开销全在java内置对象创建销毁上, 哪有向量化什么事
而且mnk循环改成mkn循环就能加速至少一个数量级

至于你要说python的话, python最不差这个了, 无论是numpy走mkl后端还是numba jit, 矩阵乘法合理写法下都能随便打满别说avx2了, avx512都是能自动优化的比较充分的

darkness66201 · 发表于 2024-8-20 14:34

Mufasa 发表于 2024-8-20 00:45
下一代应该搞不出16通道内存，主板布线没法做。
强行加PCB层数，搞16通道，主板成本上天。。。。
不如给I ...

那更没有什么IF总线带宽瓶颈的问题了，12通道本身就已经瓶颈了，看看今年的EPYC 5有什么改动吧，我估计可能就是单纯加一点频率变成12通道DDR5 5600,128核/192核，到下一代继续加核心的话带宽肯定不够了，HBM是不可能的，连明年的产能都已经全部被AI卡预订完了，根本没产能给普通服务器U。（虽然隔壁intel也做了Xeon Max）

估计可能是真的搞更多通道+内存版，或者X3D，又或者硬扛，要通道就不要那么多核心.......

8owd8wan · 发表于 2024-8-20 14:37

本帖最后由 8owd8wan 于 2024-8-20 14:39 编辑

zhuifeng88 发表于 2024-8-20 14:33
你这例子也太....
开销全在java内置对象创建销毁上, 哪有向量化什么事
而且mnk循环改成mkn循环就能加速至 ...

不是，数值计算本身没有什么对象销毁啥的开销。
真正还是应该让SIMD甚至GPU来做这些向量计算加速。
另外，Pytorch GPU加速底层原理，是调用native code（C++写的), 当然，如果GPU加速，就是本地代码调用cuda API。这个如果你感兴趣，可以调阅source code

zhuifeng88 · 发表于 2024-8-20 14:38

8owd8wan 发表于 2024-8-20 14:37
不是，数值计算本身没有什么对象销毁啥的开销。
真正还是应该让SIMD甚至GPU来做这些向量计算加速 ...

你的行列索引全是对象操作...

darkness66201 · 发表于 2024-8-20 14:40

本帖最后由 darkness66201 于 2024-8-20 14:49 编辑

alieshex 发表于 2024-8-20 10:16
期待apu还不如期待mobile。

个人感觉堆数量理论可行，实际上基板能不能放下就不清楚了

不是我说，讨论了这么久，你就翻来覆去的说那两句话，会卡IF，会卡IF，基板放不下，基板放不下，会卡IF，会卡IF，其他人说的话也没听进去，你翻来覆去强调也没有意义啊，非要钻牛角尖不可么

8owd8wan · 发表于 2024-8-20 14:42

zhuifeng88 发表于 2024-8-20 14:38
你的行列索引全是对象操作...

no，里面的计算都是值类型计算。
你可以用阿里的atlas 做profile，真的不是消耗在所谓对象生成销毁上。
anyway，Java编程的detail是另外一个话题，完全可以新写一本书了，不是三言两语一句话就能说的

OstCollector · 发表于 2024-8-20 14:46

zhuifeng88 发表于 2024-8-20 14:38
你的行列索引全是对象操作...

不要太小看java的jit编译器了

账号		自动登录	找回密码
密码			加入我们

[CPU] 分Die是不是已经到了尽头

额

浏览过的版块