比AMD X3D更多，105MB L3缓存的 intel 56核 W9-3495X 游戏性能测试

gtx9 · 发表于 2023-4-19 11:20

本帖最后由 gtx9 于 2023-4-19 11:45 编辑

额ZEN 4 X3D只有L2+L3只有97MB缓存，牙膏SPR的L2+L3有107MB

https://www.hardwareluxx.de/index.php/artikel/hardware/prozessoren/60707-56-p-cores-am-limit-der-intel-xeon-w9-3495x-im-test.html?start=10

屏幕截图 2023-04-19 111203.png

elktsp · 发表于 2023-4-20 16:15

HEDT已死，有事烧纸

gihu · 发表于 2023-4-20 15:34

koney 发表于 2023-4-20 12:41
垂直延迟的确比平面的低，而且用了高级封装工艺

我总觉得垂直延迟短是指3D cache到2D cache的延迟短，而非3D cache到核心的延迟短。
毕竟zen 3D的L3 V cache是覆盖在原本L3 cache上的，并没有和8个内核直接接触。换句话说和内核的数据交换还是要经过原本的L3 cache这条路径，但总路径增加极少而已。

堕落的翼 · 发表于 2023-4-20 15:22

spr的L3延迟快到dram级别就别和x3d比了

gihu · 发表于 2023-4-20 15:16

本帖最后由 gihu 于 2023-4-20 15:24 编辑

darkness66201 发表于 2023-4-20 14:41
这个我倒不是很信，因为现在CCX内延迟是20ns以下，跨CCD延迟是70~80ns左右，按理说L3应该不可能做到IOD上 ...

具体形式不太清楚，但zen5和zen1~zen4的架构肯定是很大不同的。不过我觉得不会走回intel那样的老路。毕竟农企家最擅长的就是企业级和桌面级共用相同的基础单元，从而降低研发成本。
我看爆料说的，类似7900xtx的6x16M的Infinity cache并联那样，各个ccd的32M L3通过类似的技术并联成一个完整的64M/128M/256M/384M L3，然后再和IOD连接。这样既保证了ccd内核的高性能特性，又能复用桌面端和移动端的ccd单元，只是最终成品的封装工艺上，单Die比多Die要简单得多，成本也低得多；但多Die的性能也不会像zen2~zen4一样，相对单Die在单核性能上没有任何提升。

darkness66201 · 发表于 2023-4-20 14:41

gihu 发表于 2023-4-20 14:05
爆料说zen5开始L3 cache可以给全部核心共享，那么理论上跨ccd的核心延迟应该不会明显高于ccx内部延迟 ...

这个我倒不是很信，因为现在CCX内延迟是20ns以下，跨CCD延迟是70~80ns左右，按理说L3应该不可能做到IOD上，不然延迟和多核心可用容量都有点问题，目前这个构型不太可能一下子就把延迟缩掉，哪怕50ns以下？当然还有一个可能是，zen5开始就不再是CCD+IOD的组合了，而是类似intel EMIB或者像7900XTX那种硅片互联的技术，这样就能把延迟压下来共享了。

zhuifeng88 · 发表于 2023-4-20 14:36

panzerlied 发表于 2023-4-20 14:34
XCC最大的问题并不是MCM带来的延迟，这个并不大，最大的问题是Mesh频率变成了1.几G，简直了。 ...

w3400默认是2.5, 倒没低到那种程度
WUTK36LVB~GW{}}Y]4$FPK0.png

panzerlied · 发表于 2023-4-20 14:34

XCC最大的问题并不是MCM带来的延迟，这个并不大，最大的问题是Mesh频率变成了1.几G，简直了。

zhuifeng88 · 发表于 2023-4-20 14:24

本帖最后由 zhuifeng88 于 2023-4-20 14:26 编辑

ljy1414 发表于 2023-4-20 14:21
我只是想要知道纯大核16C/32T w5-3435X VS 13900K 8P+16E = 32T

内存、CPU核心频率都固定，如果w5-3435X ...

还是在说打游戏的话, 锤不了, 反过来锤20%以上, 不是说3435x, 是说3475x
------
好像理解错了, 如果你说固定到同频, 而不是两边固定到各自默认的话, 没测过, 不知道, 但有什么必要呢

ljy1414 · 发表于 2023-4-20 14:21

zhuifeng88 发表于 2023-4-20 14:17
没希望的, 单die不代表延迟低到哪里去, 相同跳数下和多die相差5ns不到而已, mesh相比if就是图一个最好情 ...

我只是想要知道纯大核16C/32T w5-3435X VS 13900K 8P+16E = 32T

内存、CPU核心频率都固定，如果w5-3435X 能捶13900K，代表小核真的拉垮

zhuifeng88 · 发表于 2023-4-20 14:17

ljy1414 发表于 2023-4-20 14:15
意思是打游戏的有希望了? 可以纯大核+Win10

没希望的, 单die不代表延迟低到哪里去, 相同跳数下和多die相差5ns不到而已, mesh相比if就是图一个最好情况不那么好, 最差情况不那么差, 中位数远比if低罢了, 打游戏又不需要那么多核心下的中位数, 只需要少量核心下的最好情况

ljy1414 · 发表于 2023-4-20 14:15

zhuifeng88 发表于 2023-4-20 14:00
大mcc是单die34核的, 15核的是给xcc的

意思是打游戏的有希望了? 可以纯大核+Win10

sinopart · 发表于 2023-4-20 14:14

zhuifeng88 发表于 2023-4-20 14:10
没用的 2400单die只是比3400少个跨die的5ns不到延迟而已, 和msdt的延迟没法比的, 除非你有很明确spr的特 ...

6950X和7980XE的时代也有不少富哥拿至尊酷睿配合2080ti组PC，其实游戏性能也没差多少。更多是想圆一个当时的梦吧。

zhuifeng88 · 发表于 2023-4-20 14:10

sinopart 发表于 2023-4-20 14:06
不愧是Intel财大气粗，一种架构流两种不同的晶圆的片
更新：你这么一说，我突然有冲动下单配个16核的2400 ...

没用的 2400单die只是比3400少个跨die的5ns不到延迟而已, 和msdt的延迟没法比的, 除非你有很明确spr的特殊需求或者单纯钱多

sinopart · 发表于 2023-4-20 14:06

本帖最后由 sinopart 于 2023-4-20 14:08 编辑

zhuifeng88 发表于 2023-4-20 14:00
大mcc是单die34核的, 15核的是给xcc的

不愧是Intel财大气粗，一种架构流两种不同的晶圆的片
更新：你这么一说，我突然有冲动下单配个16核的2400系列配合4090组终极Hi-End PC玩玩了，不知道下一代ROG Rampage什么时候回归

gihu · 发表于 2023-4-20 14:05

darkness66201 发表于 2023-4-20 13:24
AMD的结构应该算是双ringbus（CCX内，没记错的话）+星型连接（IF总线），虽然跨CCX的通讯延迟大幅度增加 ...

爆料说zen5开始L3 cache可以给全部核心共享，那么理论上跨ccd的核心延迟应该不会明显高于ccx内部延迟

zhuifeng88 · 发表于 2023-4-20 14:00

sinopart 发表于 2023-4-20 13:47
2400不是双Die封装吗？
我记得蓝宝石激流架构图里单个die只做了15核

大mcc是单die34核的, 15核的是给xcc的

momoka · 发表于 2023-4-20 13:58

本帖最后由 momoka 于 2023-4-20 13:59 编辑

从x299的mesh开始（那几个7740x啥的可不是），intel hedt的游戏性能就稀烂了，拼命超频拉mesh都赶不上ring。

何况现在频率还差一大截。有这个结果一点都不奇怪。

sinopart · 发表于 2023-4-20 13:47

本帖最后由 sinopart 于 2023-4-20 13:50 编辑

zhuifeng88 发表于 2023-4-20 12:57
首先2400x系列是单die, 不存在4个芯片
然后mesh上加emib额外增加的延迟是很低的, 测试大概在5ns以内, 不 ...

2400不是双Die封装吗？
我记得蓝宝石激流架构图里单个die只做了15核

darkness66201 · 发表于 2023-4-20 13:24

sinopart 发表于 2023-4-20 09:01
3495X的缓存和13900K，7950X3D的缓存结构根本不一样。一个是Mesh，一个是Ringbus（严格来讲只有Intel的可 ...

AMD的结构应该算是双ringbus（CCX内，没记错的话）+星型连接（IF总线），虽然跨CCX的通讯延迟大幅度增加，但是CCX内部的平均延迟只有intel的ringbus一半左右，而小核的通讯延迟甚至还要增加一倍，MESH的延迟数据找不到，不过估计也低不到哪里去。所以其实对于多核心而言，实际上目前AMD和intel都没什么太好的办法，AMD长期没有增加CCD的核心数，可能一方面是需要保持核心数的灵活性，还有对于多核还没有太多需求，但是另一方面可能也是ringbus可以承载的核心数有关。

zhuifeng88 · 发表于 2023-4-20 12:57

ljy1414 发表于 2023-4-20 12:54
也就是4个大核芯片被阉到每一片只剩4核，然后出现类似线撕1,2代的跨核访问延迟大增？ ...

首先2400x系列是单die, 不存在4个芯片
然后mesh上加emib额外增加的延迟是很低的, 测试大概在5ns以内, 不像tr那样要去iodie转手一遍造成延迟突破天际的问题

zhuifeng88 · 发表于 2023-4-20 12:55

fengpc 发表于 2023-4-20 08:43
外挂的3d缓存延迟比片上集成的还低？

因为x3d是直接叠上去的, 同一个ccd内所有核心访问全部的3d cache延迟是相同的40多周期, 而xeon的l3是分布在mesh上的, 比较远的l3延迟要经过很多跳mesh才能到达, 只要超过2跳延迟就会劣势了, 2跳内可以到达的L3缓存量是9.375MB, 这样做优势也不是没有, 就是对于所有核心来说访问全部的缓存最差也就是100周期左右, 不会发生多ccx一旦需要跨die访问缓存延迟升升高到200周期以上的问题

ljy1414 · 发表于 2023-4-20 12:54

sinopart 发表于 2023-4-20 09:01
3495X的缓存和13900K，7950X3D的缓存结构根本不一样。一个是Mesh，一个是Ringbus（严格来讲只有Intel的可 ...

也就是4个大核芯片被阉到每一片只剩4核，然后出现类似线撕1,2代的跨核访问延迟大增？

fluttershy · 发表于 2023-4-20 12:46

EPYC你找不到对比因为正品不能超 ES可以超但是超频会有BUG 某些情况多核性能会不正常
而且主板供电你超上去电感会滋啦乱摇 ZEN3 EPYC ES体质很好可以4.8 主板撑不住了

koney · 发表于 2023-4-20 12:41

fengpc 发表于 2023-4-20 08:43
外挂的3d缓存延迟比片上集成的还低？

垂直延迟的确比平面的低，而且用了高级封装工艺

gihu · 发表于 2023-4-20 12:19

老忘名发表于 2023-4-20 07:30
蓝宝石激流的大缓存是HBM，本来速度就不如3d v-cache

HBM是DRAM，3D vcache是SRAM，这两者根本不在同一个对位

sinopart · 发表于 2023-4-20 09:01

本帖最后由 sinopart 于 2023-4-20 14:11 编辑

fengpc 发表于 2023-4-20 08:43
外挂的3d缓存延迟比片上集成的还低？

3495X的缓存和13900K，7950X3D的缓存结构根本不一样。一个是Mesh，一个是Ringbus（严格来讲只有Intel的可以叫Ringbus，AMD的不能，但是性能差距没有Mesh和Ringbus差距大。）
就算是以前的单Die至尊酷睿时代，各种测试结果也表明采用Mesh结构总线的至尊酷睿在游戏性能上不如采用Ringbus结构的消费级酷睿(主要是延迟问题)。现在蓝宝石激流4Die合一，你觉得对角线的两个Die互相访问对方Die上的Mesh结构的L3延迟有多大？
因此从这一点上说，如果你非要买个蓝宝石激流的志强W9打游戏，应该买尽可能核心多的，比如满血56核的，然后想办法关闭其中三个Die的核心，或者强制让程序跑在同一个Die内，就如同A家这边的7950X/7900X用户的做法一样。如果买个核心数少的XEON-W 3400，比如16核心的，那很可能核心分布的情况是四个Die均分，每个Die才4个核心，跑个8核优化的PS5世代游戏大概率要跨die通信导致性能降低。

panzerlied · 发表于 2023-4-20 08:50

老忘名发表于 2023-4-20 07:30
蓝宝石激流的大缓存是HBM，本来速度就不如3d v-cache

看仔细点

fengpc · 发表于 2023-4-20 08:43

koney 发表于 2023-4-19 11:38
3d缓存有低延迟的特性，普通缓存堆太高延迟也很高

外挂的3d缓存延迟比片上集成的还低？

zuoyu0371 · 发表于 2023-4-20 08:19

干活的u拿来打游戏是不是有点浪费

账号		自动登录	找回密码
密码			加入我们

[CPU] 比AMD X3D更多，105MB L3缓存的 intel 56核 W9-3495X 游戏性能测试

浏览过的版块