找回密码
 加入我们
搜索
      
查看: 7383|回复: 26

[CPU] (翻译转载)Zen5的avx512性能提升

[复制链接]
发表于 2024-8-10 09:25 | 显示全部楼层 |阅读模式
全文:http://www.numberworld.org/blogs/2024_8_7_zen5_avx512_teardown/,完整版本要等到8/14才会解禁。这里只附上大家感兴趣的2个小节,chat翻译。

喜欢研究数值运算的朋友可以关注一下。

Zen5 Strix Point 与 Zen5 桌面/服务器版不同

虽然Zen5能够实现4 x 512位的执行吞吐量,但这仅适用于桌面版Zen5(Granite Ridge)以及预计的服务器部分。例如Strix Point APU这样的移动部件不幸地采用了一种简化版的AVX512,保留了Zen4的4 x 256位吞吐量。因此,我们看到这是AMD最终划定界限的地方,表明他们愿意投入多少“暗硅”。

屏幕截图 2024-08-10 092302.png

需要明确的是,Zen5移动版仍然支持完整的AVX512指令集。但其512位指令的吞吐量会像Zen4那样通过两次运行256位硬件来减半。尽管如此,这种简化版的AVX512仍然优于大多数英特尔的产品。

在二月份GCC补丁揭示Zen5将拥有原生AVX512时,这对许多人来说是一个惊喜。没有人认为AMD会在Zen4之后这么快(如果有的话)就取得这样的飞跃。

但后来有关Strix Point将其削减到256位的消息同样令人惊讶,因为这立即意味着AMD将他们的Zen5架构至少分为四种不同的核心:

Zen5,具有512位数据路径
Zen5c,具有512位数据路径
Zen5,具有256位数据路径
Zen5c,具有256位数据路径
到目前为止,我的有限测试显示Strix Point对AVX512的削弱不仅仅是减半512位吞吐量那么简单。浮点加法(FADD)以及可能连寄存器文件也看似被缩减了。

为什么Zen5的IPC泄漏如此多?

关于Zen5 IPC改进的泄漏信息比比皆是。虽然AMD官方声称Zen5相较于Zen4的平均IPC提升为16%,但其背后的平均数字就像蒙着眼转圈后投掷飞镖一样随机。

这些数字从最低的5%(大多是Zen 5%的梗)到40%的SpecInt,再到2倍的AVX512都有。虽然对某些人来说这可能显而易见,但其背后有一个简单的原因——有许多不同类型的工作负载,而Zen5在这些工作负载上的改进非常不均衡。有些改进了很多,而另一些几乎没有任何提升。

基准测试的性能取决于其落在哪里。而且,Zen5桌面版和Strix在AVX512实现上的不同,也为基准测试性能的差异性增添了更多变数。

如果我们只看没有内存瓶颈的纯同构CPU工作负载,以下是我自己测试中的结果(大部分来自我自己的项目):

屏幕截图 2024-08-10 092054.png

因此,我们可以看到Zen5在标量整数和AVX512上的最大增益,其他方面则表现平平甚至令人失望。不过,x87的提升确实有趣,尽管我不清楚相关的架构改进是什么,但我怀疑这不是特定于x87的,因为除了SuperPi基准测试者之外,几乎没有人关心x87了。纯128位SSE的轻微性能退步令人惊讶,但这可能是由一些延迟退步造成的,这将在后面讨论。

在流行的基准测试Cinebench和CPU-Z中,仅显示了10-15%的提升,这是令人失望的。但这是因为它们恰好触及了Zen5最弱的类别:

Cinebench是标量SSE和256位AVX的混合。
CPU-Z几乎完全是标量SSE。
在这些类别中,10-15%的IPC提升仍然大于我在自己的测试中观察到的。我将稍后再讨论这个问题。

SpecInt中40%的IPC提升(一项早期泄露)与我测试中显示的30-35%的原始标量整数提升是一致的。

关于2倍AVX512提升的泄露是准确的。这是巨大的提升,但并不令人惊讶,因为AMD已经在2月的GCC补丁中透露了这一点。

对于y-cruncher(我是开发者):

由于受到内存带宽的限制,Zen5上的常规Pi基准测试和计算几乎没有任何提升(1-3%)。
如果你运行单线程,你就消除了内存瓶颈,感谢AVX512,在Zen5上可以获得约50%的IPC提升(由于Amdahl定律,不到2倍)。
y-cruncher的BBP测试(现在是一个基准)显示了98%的IPC提升,因为它完全使用AVX512且不涉及任何内存访问。
实际上,Zen5上的AVX512改进创造了如此大的内存瓶颈,这成了我将BBP小程序从验证Pi记录的工具提升为正式基准的主要原因。常规基准无法对Zen5(以及未来的处理器)做出公正评价。除非有人能搞定AM5上的DDR5-20000……
发表于 2024-8-10 09:37 | 显示全部楼层
本帖最后由 momoka 于 2024-8-10 09:43 编辑

zen5 super pi 1M不是几乎没提升,是巨幅到退了,这个太诡异了。

顺便,个人错觉,zen5有点点像个进化中的过度状态/中间状态的感觉,有种较强的部分实测明明可以更好的感觉,可能下个版本才是AM5版本答案,就像zen3对于am4那样有统治地位。。。只是无脑期望而已
发表于 2024-8-10 09:40 | 显示全部楼层
DDR5-20000??
发表于 2024-8-10 09:41 | 显示全部楼层
DDR5 20000就连strix halo的4通道LPDDR 8666都实现不了
发表于 2024-8-10 09:48 | 显示全部楼层
momoka 发表于 2024-8-10 09:37
zen5 super pi 1M不是几乎没提升,是巨幅到退了,这个太诡异了。

顺便,个人错觉,zen5有点点像个进化中的 ...

原帖主说的x87应用是他自己开发的Y-cruncher BBP(00-86)和PiFast这两种应用,但相对是有提升的,super pi也是x87应用,但性能倒退就类似alder lake相对rocket lake倒退一样,是有点奇怪,但不能说12代是半成品吧
发表于 2024-8-10 09:51 | 显示全部楼层
gihu 发表于 2024-8-10 09:48
原帖主说的x87应用是他自己开发的Y-cruncher BBP(00-86)和PiFast这两种应用,但相对是有提升的,super pi ...


super 1M 12代同频相对11代到退有,但是还好,zen5这个到退比较明显了

而且12代 pi 这方面确实半成品啊,13代没这个问题了,pi正常了。AMD或许也会经历这个,比如zen6的pi和13代一样,正常了。

发表于 2024-8-10 09:57 | 显示全部楼层
更有意思的不是英特尔开AVX512需要干剌50000周期,还有VP2INTERSECT这种没好好实现就加进去的指令。
发表于 2024-8-10 10:02 | 显示全部楼层
当初pceva测试牙膏7900x的时候就说到过
4通道拱频率后性能大涨
这可是10C
Snipaste_2024-08-10_10-00-23.png
 楼主| 发表于 2024-8-10 10:07 | 显示全部楼层
aibo 发表于 2024-8-10 10:02
当初pceva测试牙膏7900x的时候就说到过
4通道拱频率后性能大涨
这可是10C

又是服务器核心复用的设计,只有在服务器环境下才能发挥全力。
发表于 2024-8-10 10:32 来自手机 | 显示全部楼层
那是不是ZEN5 X3D的AVX512性能还能大涨一截
发表于 2024-8-10 10:32 | 显示全部楼层
avx512占核心面积很大,还是存在即耗电?有点不理解这里再切一刀有什么意义,这玩意儿不存在残次砍一刀提高良品率...吧?
发表于 2024-8-10 10:43 来自手机 | 显示全部楼层
狮子歌歌 发表于 2024-8-10 10:32
那是不是ZEN5 X3D的AVX512性能还能大涨一截

不会,64m对于avx512简直杯水车薪。zen5要ddr5 20000,zen4至少也得ddr5 12000才不构成带宽瓶颈。

实测y-cruncher,7800x3d和7700x性能没有不同,都是内存受限。
https://www.techpowerup.com/review/amd-ryzen-7-7800x3d/6.html
发表于 2024-8-10 10:52 来自手机 | 显示全部楼层
感谢各位大大,这才是好的帖子。
发表于 2024-8-10 11:03 | 显示全部楼层
不知道zen6会不会更新iodie,如果x97主板再多给点通道就很完美了
发表于 2024-8-10 11:17 来自手机 | 显示全部楼层
goat 发表于 2024-8-10 10:32
avx512占核心面积很大,还是存在即耗电?有点不理解这里再切一刀有什么意义,这玩意儿不存在残次砍一刀提高 ...

看起来avx512会耗电+影响稳定性吧
那帮玩7500f还喜欢关掉avx512f

这个完整的avx512看起来确实会让zen5功耗变高全核频率拉低
发表于 2024-8-10 11:30 来自手机 | 显示全部楼层
挖矿神器
发表于 2024-8-10 12:02 | 显示全部楼层
本帖最后由 aibo 于 2024-8-10 12:05 编辑
我輩樹である 发表于 2024-8-10 10:07
又是服务器核心复用的设计,只有在服务器环境下才能发挥全力。


不,服务器也不够带宽
我觉得这种吞吐量真应该是GPU那种自带大带宽架构的活
发表于 2024-8-10 12:05 | 显示全部楼层
一江烟水 发表于 2024-8-10 11:03
不知道zen6会不会更新iodie,如果x97主板再多给点通道就很完美了

想也别想啊,除非有个外来的竞争者出现。不然阿美利卡的牙膏大法会一直持续下去的!
发表于 2024-8-10 13:31 | 显示全部楼层
aibo 发表于 2024-8-10 12:02
不,服务器也不够带宽
我觉得这种吞吐量真应该是GPU那种自带大带宽架构的活 ...

12ch还喂不饱?
发表于 2024-8-10 13:32 | 显示全部楼层
大头吃小头 发表于 2024-8-10 11:17
看起来avx512会耗电+影响稳定性吧
那帮玩7500f还喜欢关掉avx512f

但是不用的话这东西没影响的吧?
发表于 2024-8-10 17:35 | 显示全部楼层
本帖最后由 自挂东南枝 于 2024-8-10 17:38 编辑

游戏也是sse和avx256,难怪游戏提升也不大。

而且内存带宽受限确实很严重,我的7950x跑avx512的话设置8线程(每ccd4线程)和28线程没区别。(跑avx512最佳cpu怕不是7900最佳性价比。
发表于 2024-8-10 18:01 | 显示全部楼层
一江烟水 发表于 2024-8-10 11:03
不知道zen6会不会更新iodie,如果x97主板再多给点通道就很完美了


台积电4nm,封装才是硬伤
发表于 2024-8-10 19:22 来自手机 | 显示全部楼层
goat 发表于 2024-8-10 02:32
avx512占核心面积很大,还是存在即耗电?有点不理解这里再切一刀有什么意义,这玩意儿不存在残次砍一刀提高 ...

当年Intel tigerlake才是纯浪费晶体管 那么点缓存根本喂不饱 相比avx2丁点提升都没有
发表于 2024-8-10 19:24 来自手机 | 显示全部楼层
aibo 发表于 2024-8-10 04:02
不,服务器也不够带宽
我觉得这种吞吐量真应该是GPU那种自带大带宽架构的活 ...

牙膏hbm max线了解一下 那个实测是可用的
发表于 2024-8-10 19:41 | 显示全部楼层
11代的时候说avx512是电阻丝,为何到了zen5,avx512又成香饽饽了?
发表于 2024-8-10 19:48 | 显示全部楼层
squll009 发表于 2024-8-10 19:41
11代的时候说avx512是电阻丝,为何到了zen5,avx512又成香饽饽了?

AVX512好是好,但需要足够先进的制程支持
多先进?现在看来就是N4P以上的制程
用大英的14nm硬造就是纯火炉,降频降的没法看
发表于 2024-8-10 20:48 | 显示全部楼层
squll009 发表于 2024-8-10 19:41
11代的时候说avx512是电阻丝,为何到了zen5,avx512又成香饽饽了?

10代,11代开启avx512都会大幅降频,而开启后avx512性能都不如半血的zen4,现在的zen5可是满血的avx512
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 06:26 , Processed in 0.015425 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表