（翻译转载）Zen5的avx512性能提升

我輩樹である · 发表于 2024-8-10 09:25

全文：http://www.numberworld.org/blogs/2024_8_7_zen5_avx512_teardown/，完整版本要等到8/14才会解禁。这里只附上大家感兴趣的2个小节，chat翻译。

喜欢研究数值运算的朋友可以关注一下。

Zen5 Strix Point 与 Zen5 桌面/服务器版不同

虽然Zen5能够实现4 x 512位的执行吞吐量，但这仅适用于桌面版Zen5（Granite Ridge）以及预计的服务器部分。例如Strix Point APU这样的移动部件不幸地采用了一种简化版的AVX512，保留了Zen4的4 x 256位吞吐量。因此，我们看到这是AMD最终划定界限的地方，表明他们愿意投入多少“暗硅”。

屏幕截图 2024-08-10 092302.png

需要明确的是，Zen5移动版仍然支持完整的AVX512指令集。但其512位指令的吞吐量会像Zen4那样通过两次运行256位硬件来减半。尽管如此，这种简化版的AVX512仍然优于大多数英特尔的产品。

在二月份GCC补丁揭示Zen5将拥有原生AVX512时，这对许多人来说是一个惊喜。没有人认为AMD会在Zen4之后这么快（如果有的话）就取得这样的飞跃。

但后来有关Strix Point将其削减到256位的消息同样令人惊讶，因为这立即意味着AMD将他们的Zen5架构至少分为四种不同的核心：

Zen5，具有512位数据路径
Zen5c，具有512位数据路径
Zen5，具有256位数据路径
Zen5c，具有256位数据路径
到目前为止，我的有限测试显示Strix Point对AVX512的削弱不仅仅是减半512位吞吐量那么简单。浮点加法（FADD）以及可能连寄存器文件也看似被缩减了。

为什么Zen5的IPC泄漏如此多？

关于Zen5 IPC改进的泄漏信息比比皆是。虽然AMD官方声称Zen5相较于Zen4的平均IPC提升为16%，但其背后的平均数字就像蒙着眼转圈后投掷飞镖一样随机。

这些数字从最低的5%（大多是Zen 5%的梗）到40%的SpecInt，再到2倍的AVX512都有。虽然对某些人来说这可能显而易见，但其背后有一个简单的原因——有许多不同类型的工作负载，而Zen5在这些工作负载上的改进非常不均衡。有些改进了很多，而另一些几乎没有任何提升。

基准测试的性能取决于其落在哪里。而且，Zen5桌面版和Strix在AVX512实现上的不同，也为基准测试性能的差异性增添了更多变数。

如果我们只看没有内存瓶颈的纯同构CPU工作负载，以下是我自己测试中的结果（大部分来自我自己的项目）：

屏幕截图 2024-08-10 092054.png

因此，我们可以看到Zen5在标量整数和AVX512上的最大增益，其他方面则表现平平甚至令人失望。不过，x87的提升确实有趣，尽管我不清楚相关的架构改进是什么，但我怀疑这不是特定于x87的，因为除了SuperPi基准测试者之外，几乎没有人关心x87了。纯128位SSE的轻微性能退步令人惊讶，但这可能是由一些延迟退步造成的，这将在后面讨论。

在流行的基准测试Cinebench和CPU-Z中，仅显示了10-15%的提升，这是令人失望的。但这是因为它们恰好触及了Zen5最弱的类别：

Cinebench是标量SSE和256位AVX的混合。
CPU-Z几乎完全是标量SSE。
在这些类别中，10-15%的IPC提升仍然大于我在自己的测试中观察到的。我将稍后再讨论这个问题。

SpecInt中40%的IPC提升（一项早期泄露）与我测试中显示的30-35%的原始标量整数提升是一致的。

关于2倍AVX512提升的泄露是准确的。这是巨大的提升，但并不令人惊讶，因为AMD已经在2月的GCC补丁中透露了这一点。

对于y-cruncher（我是开发者）：

由于受到内存带宽的限制，Zen5上的常规Pi基准测试和计算几乎没有任何提升（1-3%）。
如果你运行单线程，你就消除了内存瓶颈，感谢AVX512，在Zen5上可以获得约50%的IPC提升（由于Amdahl定律，不到2倍）。
y-cruncher的BBP测试（现在是一个基准）显示了98%的IPC提升，因为它完全使用AVX512且不涉及任何内存访问。
实际上，Zen5上的AVX512改进创造了如此大的内存瓶颈，这成了我将BBP小程序从验证Pi记录的工具提升为正式基准的主要原因。常规基准无法对Zen5（以及未来的处理器）做出公正评价。除非有人能搞定AM5上的DDR5-20000……

momoka · 发表于 2024-8-10 09:37

本帖最后由 momoka 于 2024-8-10 09:43 编辑

zen5 super pi 1M不是几乎没提升，是巨幅到退了，这个太诡异了。

顺便，个人错觉，zen5有点点像个进化中的过度状态/中间状态的感觉，有种较强的部分实测明明可以更好的感觉，可能下个版本才是AM5版本答案，就像zen3对于am4那样有统治地位。。。只是无脑期望而已

tangex · 发表于 2024-8-10 09:40

DDR5-20000??

gihu · 发表于 2024-8-10 09:41

DDR5 20000就连strix halo的4通道LPDDR 8666都实现不了

gihu · 发表于 2024-8-10 09:48

momoka 发表于 2024-8-10 09:37
zen5 super pi 1M不是几乎没提升，是巨幅到退了，这个太诡异了。

顺便，个人错觉，zen5有点点像个进化中的 ...

原帖主说的x87应用是他自己开发的Y-cruncher BBP(00-86)和PiFast这两种应用，但相对是有提升的，super pi也是x87应用，但性能倒退就类似alder lake相对rocket lake倒退一样，是有点奇怪，但不能说12代是半成品吧

momoka · 发表于 2024-8-10 09:51

gihu 发表于 2024-8-10 09:48
原帖主说的x87应用是他自己开发的Y-cruncher BBP(00-86)和PiFast这两种应用，但相对是有提升的，super pi ...

super 1M 12代同频相对11代到退有，但是还好，zen5这个到退比较明显了

而且12代 pi 这方面确实半成品啊，13代没这个问题了，pi正常了。AMD或许也会经历这个，比如zen6的pi和13代一样，正常了。

af_x_if · 发表于 2024-8-10 09:57

更有意思的不是英特尔开AVX512需要干剌50000周期，还有VP2INTERSECT这种没好好实现就加进去的指令。

aibo · 发表于 2024-8-10 10:02

当初pceva测试牙膏7900x的时候就说到过
4通道拱频率后性能大涨
这可是10C

我輩樹である · 发表于 2024-8-10 10:07

aibo 发表于 2024-8-10 10:02
当初pceva测试牙膏7900x的时候就说到过
4通道拱频率后性能大涨
这可是10C

又是服务器核心复用的设计，只有在服务器环境下才能发挥全力。

狮子歌歌 · 发表于 2024-8-10 10:32

那是不是ZEN5 X3D的AVX512性能还能大涨一截

goat · 发表于 2024-8-10 10:32

avx512占核心面积很大，还是存在即耗电？有点不理解这里再切一刀有什么意义，这玩意儿不存在残次砍一刀提高良品率...吧？

chungexcy · 发表于 2024-8-10 10:43

狮子歌歌发表于 2024-8-10 10:32
那是不是ZEN5 X3D的AVX512性能还能大涨一截

不会，64m对于avx512简直杯水车薪。zen5要ddr5 20000，zen4至少也得ddr5 12000才不构成带宽瓶颈。

实测y-cruncher，7800x3d和7700x性能没有不同，都是内存受限。
https://www.techpowerup.com/review/amd-ryzen-7-7800x3d/6.html

nbgzxyy · 发表于 2024-8-10 10:52

感谢各位大大，这才是好的帖子。

一江烟水 · 发表于 2024-8-10 11:03

不知道zen6会不会更新iodie，如果x97主板再多给点通道就很完美了

大头吃小头 · 发表于 2024-8-10 11:17

goat 发表于 2024-8-10 10:32
avx512占核心面积很大，还是存在即耗电？有点不理解这里再切一刀有什么意义，这玩意儿不存在残次砍一刀提高 ...

看起来avx512会耗电+影响稳定性吧
那帮玩7500f还喜欢关掉avx512f

这个完整的avx512看起来确实会让zen5功耗变高全核频率拉低

FishTorres · 发表于 2024-8-10 11:30

挖矿神器

aibo · 发表于 2024-8-10 12:02

本帖最后由 aibo 于 2024-8-10 12:05 编辑

我輩樹である发表于 2024-8-10 10:07
又是服务器核心复用的设计，只有在服务器环境下才能发挥全力。

不，服务器也不够带宽
我觉得这种吞吐量真应该是GPU那种自带大带宽架构的活

fycmouse · 发表于 2024-8-10 12:05

提示: 作者被禁止或删除内容自动屏蔽

goat · 发表于 2024-8-10 13:31

aibo 发表于 2024-8-10 12:02
不，服务器也不够带宽
我觉得这种吞吐量真应该是GPU那种自带大带宽架构的活 ...

12ch还喂不饱？

goat · 发表于 2024-8-10 13:32

大头吃小头发表于 2024-8-10 11:17
看起来avx512会耗电+影响稳定性吧
那帮玩7500f还喜欢关掉avx512f

但是不用的话这东西没影响的吧？

自挂东南枝 · 发表于 2024-8-10 17:35

本帖最后由自挂东南枝于 2024-8-10 17:38 编辑

游戏也是sse和avx256，难怪游戏提升也不大。

而且内存带宽受限确实很严重，我的7950x跑avx512的话设置8线程(每ccd4线程)和28线程没区别。（跑avx512最佳cpu怕不是7900最佳性价比。

PolyMorph · 发表于 2024-8-10 18:01

一江烟水发表于 2024-8-10 11:03
不知道zen6会不会更新iodie，如果x97主板再多给点通道就很完美了

台积电4nm，封装才是硬伤

YsHaNg · 发表于 2024-8-10 19:22

goat 发表于 2024-8-10 02:32
avx512占核心面积很大，还是存在即耗电？有点不理解这里再切一刀有什么意义，这玩意儿不存在残次砍一刀提高 ...

当年Intel tigerlake才是纯浪费晶体管那么点缓存根本喂不饱相比avx2丁点提升都没有

YsHaNg · 发表于 2024-8-10 19:24

aibo 发表于 2024-8-10 04:02
不，服务器也不够带宽
我觉得这种吞吐量真应该是GPU那种自带大带宽架构的活 ...

牙膏hbm max线了解一下那个实测是可用的

squll009 · 发表于 2024-8-10 19:41

11代的时候说avx512是电阻丝，为何到了zen5，avx512又成香饽饽了？

allensakura · 发表于 2024-8-10 19:48

squll009 发表于 2024-8-10 19:41
11代的时候说avx512是电阻丝，为何到了zen5，avx512又成香饽饽了？

AVX512好是好，但需要足够先进的制程支持
多先进？现在看来就是N4P以上的制程
用大英的14nm硬造就是纯火炉，降频降的没法看

gihu · 发表于 2024-8-10 20:48

squll009 发表于 2024-8-10 19:41
11代的时候说avx512是电阻丝，为何到了zen5，avx512又成香饽饽了？

10代，11代开启avx512都会大幅降频，而开启后avx512性能都不如半血的zen4，现在的zen5可是满血的avx512

账号		自动登录	找回密码
密码			加入我们

fycmouse fycmouse 当前离线积分 3568	发表于 2024-8-10 12:05 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
fycmouse fycmouse 当前离线积分 3568
	回复举报

[CPU] （翻译转载）Zen5的avx512性能提升

浏览过的版块