Chiphell - 分享与交流用户体验

标题: 比AMD X3D更多，105MB L3缓存的 intel 56核 W9-3495X 游戏性能测试 [打印本页]

作者: gtx9 时间: 2023-4-19 11:20
标题: 比AMD X3D更多，105MB L3缓存的 intel 56核 W9-3495X 游戏性能测试
本帖最后由 gtx9 于 2023-4-19 11:45 编辑

额ZEN 4 X3D只有L2+L3只有97MB缓存，牙膏SPR的L2+L3有107MB

https://www.hardwareluxx.de/index.php/artikel/hardware/prozessoren/60707-56-p-cores-am-limit-der-intel-xeon-w9-3495x-im-test.html?start=10

(, 下载次数: 51)

(, 下载次数: 72)

(, 下载次数: 78)

(, 下载次数: 58)

(, 下载次数: 80)

(, 下载次数: 67)

(, 下载次数: 62)

作者: 亡命畜生 时间: 2023-4-19 11:21
全部垫底？

作者: psps3 时间: 2023-4-19 11:27
转总狂喜

作者: 谎言之神Cyric 时间: 2023-4-19 11:29
要是能加入13700K和13600K就好了

作者: nekotheo 时间: 2023-4-19 11:29
本来以为测试1080p就挺极端了，结果点进链接居然还有测720p的

作者: tengyun 时间: 2023-4-19 11:32
没有5995WX加入，不真实

作者: gtx9 时间: 2023-4-19 11:32

亡命畜生发表于 2023-4-19 11:21
全部垫底？

不是全部，蜘蛛侠赢了7950X

作者: BFG9K 时间: 2023-4-19 11:36
开6400就这水平吗

作者: koney 时间: 2023-4-19 11:38
本帖最后由 koney 于 2023-4-19 11:43 编辑

3d缓存有低延迟的特性，普通缓存堆太高延迟也很高

作者: panzerlied 时间: 2023-4-19 11:40
提示: 作者被禁止或删除内容自动屏蔽

作者: liu881021 时间: 2023-4-19 11:41
转总辛苦了，这回不容易啊。

作者: gtx9 时间: 2023-4-19 11:44

panzerlied 发表于 2023-4-19 11:40
转总你快去转CS2的测试

有测试了？给个地址啊

作者: xyk456as 时间: 2023-4-19 11:48

别转了，给58X3D转涨价了怎么办！

作者: panzerlied 时间: 2023-4-19 11:49
提示: 作者被禁止或删除内容自动屏蔽

作者: psps3 时间: 2023-4-19 11:52

panzerlied 发表于 2023-4-19 11:49
GameGPU里

表现类似于dota2么？

作者: 7970Raymond 时间: 2023-4-19 12:41

gtx9 发表于 2023-4-19 11:44
有测试了？给个地址啊

https://www.youtube.com/watch?v=ZwG8TauuMVM&t=471s

作者: jcd_chh 时间: 2023-4-19 12:48
我建议找时代接近的内存通道数和PCIE通道数接近的对手，然后就是105MB和1152MB的对决了

没准儿这些项目上胜算还大一些……

作者: kozaya 时间: 2023-4-19 13:03
应该拿5995WX来比

作者: moveable 时间: 2023-4-19 13:04

5800 3d降价无望了

作者: warelf2 时间: 2023-4-19 13:11
我也想知道CS2到底是吃单核还是吃缓存。。。潘多拉弹弓蓝短剑红M9还在想留哪套

作者: 惊天大萝卜 时间: 2023-4-19 13:27
这个比较方法不对吧，难道不应该计算每个核心分配到的平均缓存？

作者: gihu 时间: 2023-4-19 14:25

7970Raymond 发表于 2023-4-19 12:41
https://www.youtube.com/watch?v=ZwG8TauuMVM&t=471s

这个测试貌似x3D的大三缓对于CS2的提升挺大，同样显卡，不管分辨率高低，从cs：go到cs2，7700x帧数下降，58x3D则上升。虽然上升后的58x3d帧数还是不如77x，但差距很小。可以预见7000x3d比常规7000系锐龙在cs2上会有很好的表现。

作者: sinopart 时间: 2023-4-19 14:32

惊天大萝卜发表于 2023-4-19 13:27
这个比较方法不对吧，难道不应该计算每个核心分配到的平均缓存？

当然不对啊，熟悉数字电路的只要想一下蓝宝石激流的缓存分布结构和ZEN4 3D的缓存分布结构就知道了。W9系列的蓝宝石激流四个die拼接，对角线的die互相访问位于对方die的L3所经过的导线距离恐怕比zen4单个CCX本身的尺寸长度还长。因为单个die的面积也就比AM5 CPU的顶盖面积小一圈而已。

作者: ambacl 时间: 2023-4-19 15:18
转贴机大胜利！KAG！

作者: vipless 时间: 2023-4-19 15:26

nekotheo 发表于 2023-4-19 11:29
本来以为测试1080p就挺极端了，结果点进链接居然还有测720p的

哈哈哈，AMD 真没有底线，噢不 INTEL 真没有！

作者: gtx9 时间: 2023-4-19 20:19

panzerlied 发表于 2023-4-19 11:49
GameGPU里

等正式版看看吧

作者: hmu888 时间: 2023-4-19 20:54
CS go,老黄又给4080富优化？

作者: ts02147823 时间: 2023-4-19 22:06
好狠

作者: ljy1414 时间: 2023-4-20 04:58
个人觉得是频率问题，先不管农企
如果真的i家要打自己人，13900K的对手应该是w5-3435X
前者8P+16E = 32T，后者纯16C/32T，把两者频率、内存固定在同一个级别再比较

实在搞不懂纯大核的CPU怎还会输

作者: 赫敏 时间: 2023-4-20 05:20

ljy1414 发表于 2023-4-19 15:58
个人觉得是频率问题，先不管农企
如果真的i家要打自己人，13900K的对手应该是w5-3435X
前者8P+16E = 32T， ...

没有直接比较16核的，但面对24核的多核接近，单核乱鲨
https://www.pugetsystems.com/lab ... inci_Resolve_Studio

作者: ljy1414 时间: 2023-4-20 06:03

赫敏发表于 2023-4-20 05:20
没有直接比较16核的，但面对24核的多核接近，单核乱鲨
https://www.pugetsystems.com/labs/articles/inte ...

pugetsystems的测试应该是全默认

看了一下，w7-3455，24C/48T全核只有3.3，应该是靠核心数量超过去的
而且w7-3455的L3缓存67.5MB，超过13900K很多

w5-3435X 能超频，两者的L3缓存大小也相似
或许w5-3435X能成为一个游戏跟生产力兼顾的U
而且温度、供耗或许还在能接受的范围内(前提是上水冷)

作者: 赫敏 时间: 2023-4-20 07:21

ljy1414 发表于 2023-4-19 17:03
pugetsystems的测试应该是全默认

看了一下，w7-3455，24C/48T全核只有3.3，应该是靠核心数量超过去的

你可以尽情畅想理论上能超怎样怎样，但实际上就是游戏一坨屎，单核没救多核也不强
说到超频我chh人均6g+8400怕过谁

作者: 老忘名 时间: 2023-4-20 07:30

蓝宝石激流的大缓存是HBM，本来速度就不如3d v-cache

作者: ljy1414 时间: 2023-4-20 07:34

赫敏发表于 2023-4-20 07:21
你可以尽情畅想理论上能超怎样怎样，但实际上就是游戏一坨屎，单核没救多核也不强
说到超频我chh人均6g+8 ...

其实现在想想人均8400内存哥，我似乎当初不应该DISS他的
因为不知道是不是吸收了NGA各种知识屎误信他人言，还是真的普信

作者: kozaya 时间: 2023-4-20 07:36

ljy1414 发表于 2023-4-20 04:58
个人觉得是频率问题，先不管农企
如果真的i家要打自己人，13900K的对手应该是w5-3435X
前者8P+16E = 32T， ...

输很正常
频率比较低

5950X游戏也是一样吊打5995WX (同样ZEN 3)

作者: zuoyu0371 时间: 2023-4-20 08:19

干活的u拿来打游戏是不是有点浪费

作者: fengpc 时间: 2023-4-20 08:43

koney 发表于 2023-4-19 11:38
3d缓存有低延迟的特性，普通缓存堆太高延迟也很高

外挂的3d缓存延迟比片上集成的还低？

作者: panzerlied 时间: 2023-4-20 08:50
提示: 作者被禁止或删除内容自动屏蔽

作者: sinopart 时间: 2023-4-20 09:01
本帖最后由 sinopart 于 2023-4-20 14:11 编辑

fengpc 发表于 2023-4-20 08:43
外挂的3d缓存延迟比片上集成的还低？

3495X的缓存和13900K，7950X3D的缓存结构根本不一样。一个是Mesh，一个是Ringbus（严格来讲只有Intel的可以叫Ringbus，AMD的不能，但是性能差距没有Mesh和Ringbus差距大。）
就算是以前的单Die至尊酷睿时代，各种测试结果也表明采用Mesh结构总线的至尊酷睿在游戏性能上不如采用Ringbus结构的消费级酷睿(主要是延迟问题)。现在蓝宝石激流4Die合一，你觉得对角线的两个Die互相访问对方Die上的Mesh结构的L3延迟有多大？
因此从这一点上说，如果你非要买个蓝宝石激流的志强W9打游戏，应该买尽可能核心多的，比如满血56核的，然后想办法关闭其中三个Die的核心，或者强制让程序跑在同一个Die内，就如同A家这边的7950X/7900X用户的做法一样。如果买个核心数少的XEON-W 3400，比如16核心的，那很可能核心分布的情况是四个Die均分，每个Die才4个核心，跑个8核优化的PS5世代游戏大概率要跨die通信导致性能降低。

作者: gihu 时间: 2023-4-20 12:19

老忘名发表于 2023-4-20 07:30
蓝宝石激流的大缓存是HBM，本来速度就不如3d v-cache

HBM是DRAM，3D vcache是SRAM，这两者根本不在同一个对位

作者: koney 时间: 2023-4-20 12:41

fengpc 发表于 2023-4-20 08:43
外挂的3d缓存延迟比片上集成的还低？

垂直延迟的确比平面的低，而且用了高级封装工艺

作者: fluttershy 时间: 2023-4-20 12:46
EPYC你找不到对比因为正品不能超 ES可以超但是超频会有BUG 某些情况多核性能会不正常
而且主板供电你超上去电感会滋啦乱摇 ZEN3 EPYC ES体质很好可以4.8 主板撑不住了

作者: ljy1414 时间: 2023-4-20 12:54

sinopart 发表于 2023-4-20 09:01
3495X的缓存和13900K，7950X3D的缓存结构根本不一样。一个是Mesh，一个是Ringbus（严格来讲只有Intel的可 ...

也就是4个大核芯片被阉到每一片只剩4核，然后出现类似线撕1,2代的跨核访问延迟大增？

作者: zhuifeng88 时间: 2023-4-20 12:55

fengpc 发表于 2023-4-20 08:43
外挂的3d缓存延迟比片上集成的还低？

因为x3d是直接叠上去的, 同一个ccd内所有核心访问全部的3d cache延迟是相同的40多周期, 而xeon的l3是分布在mesh上的, 比较远的l3延迟要经过很多跳mesh才能到达, 只要超过2跳延迟就会劣势了, 2跳内可以到达的L3缓存量是9.375MB, 这样做优势也不是没有, 就是对于所有核心来说访问全部的缓存最差也就是100周期左右, 不会发生多ccx一旦需要跨die访问缓存延迟升升高到200周期以上的问题

作者: zhuifeng88 时间: 2023-4-20 12:57

ljy1414 发表于 2023-4-20 12:54
也就是4个大核芯片被阉到每一片只剩4核，然后出现类似线撕1,2代的跨核访问延迟大增？ ...

首先2400x系列是单die, 不存在4个芯片
然后mesh上加emib额外增加的延迟是很低的, 测试大概在5ns以内, 不像tr那样要去iodie转手一遍造成延迟突破天际的问题

作者: darkness66201 时间: 2023-4-20 13:24

sinopart 发表于 2023-4-20 09:01
3495X的缓存和13900K，7950X3D的缓存结构根本不一样。一个是Mesh，一个是Ringbus（严格来讲只有Intel的可 ...

AMD的结构应该算是双ringbus（CCX内，没记错的话）+星型连接（IF总线），虽然跨CCX的通讯延迟大幅度增加，但是CCX内部的平均延迟只有intel的ringbus一半左右，而小核的通讯延迟甚至还要增加一倍，MESH的延迟数据找不到，不过估计也低不到哪里去。所以其实对于多核心而言，实际上目前AMD和intel都没什么太好的办法，AMD长期没有增加CCD的核心数，可能一方面是需要保持核心数的灵活性，还有对于多核还没有太多需求，但是另一方面可能也是ringbus可以承载的核心数有关。

作者: sinopart 时间: 2023-4-20 13:47
本帖最后由 sinopart 于 2023-4-20 13:50 编辑

zhuifeng88 发表于 2023-4-20 12:57
首先2400x系列是单die, 不存在4个芯片
然后mesh上加emib额外增加的延迟是很低的, 测试大概在5ns以内, 不 ...

2400不是双Die封装吗？
我记得蓝宝石激流架构图里单个die只做了15核

作者: momoka 时间: 2023-4-20 13:58
本帖最后由 momoka 于 2023-4-20 13:59 编辑

从x299的mesh开始（那几个7740x啥的可不是），intel hedt的游戏性能就稀烂了，拼命超频拉mesh都赶不上ring。

何况现在频率还差一大截。有这个结果一点都不奇怪。

作者: zhuifeng88 时间: 2023-4-20 14:00

sinopart 发表于 2023-4-20 13:47
2400不是双Die封装吗？
我记得蓝宝石激流架构图里单个die只做了15核

大mcc是单die34核的, 15核的是给xcc的
(, 下载次数: 85)

作者: gihu 时间: 2023-4-20 14:05

darkness66201 发表于 2023-4-20 13:24
AMD的结构应该算是双ringbus（CCX内，没记错的话）+星型连接（IF总线），虽然跨CCX的通讯延迟大幅度增加 ...

爆料说zen5开始L3 cache可以给全部核心共享，那么理论上跨ccd的核心延迟应该不会明显高于ccx内部延迟

作者: sinopart 时间: 2023-4-20 14:06
本帖最后由 sinopart 于 2023-4-20 14:08 编辑

zhuifeng88 发表于 2023-4-20 14:00
大mcc是单die34核的, 15核的是给xcc的

不愧是Intel财大气粗，一种架构流两种不同的晶圆的片
更新：你这么一说，我突然有冲动下单配个16核的2400系列配合4090组终极Hi-End PC玩玩了，不知道下一代ROG Rampage什么时候回归

作者: zhuifeng88 时间: 2023-4-20 14:10

sinopart 发表于 2023-4-20 14:06
不愧是Intel财大气粗，一种架构流两种不同的晶圆的片
更新：你这么一说，我突然有冲动下单配个16核的2400 ...

没用的 2400单die只是比3400少个跨die的5ns不到延迟而已, 和msdt的延迟没法比的, 除非你有很明确spr的特殊需求或者单纯钱多

作者: sinopart 时间: 2023-4-20 14:14

zhuifeng88 发表于 2023-4-20 14:10
没用的 2400单die只是比3400少个跨die的5ns不到延迟而已, 和msdt的延迟没法比的, 除非你有很明确spr的特 ...

6950X和7980XE的时代也有不少富哥拿至尊酷睿配合2080ti组PC，其实游戏性能也没差多少。更多是想圆一个当时的梦吧。

作者: ljy1414 时间: 2023-4-20 14:15

zhuifeng88 发表于 2023-4-20 14:00
大mcc是单die34核的, 15核的是给xcc的

意思是打游戏的有希望了? 可以纯大核+Win10

作者: zhuifeng88 时间: 2023-4-20 14:17

ljy1414 发表于 2023-4-20 14:15
意思是打游戏的有希望了? 可以纯大核+Win10

没希望的, 单die不代表延迟低到哪里去, 相同跳数下和多die相差5ns不到而已, mesh相比if就是图一个最好情况不那么好, 最差情况不那么差, 中位数远比if低罢了, 打游戏又不需要那么多核心下的中位数, 只需要少量核心下的最好情况

作者: ljy1414 时间: 2023-4-20 14:21

zhuifeng88 发表于 2023-4-20 14:17
没希望的, 单die不代表延迟低到哪里去, 相同跳数下和多die相差5ns不到而已, mesh相比if就是图一个最好情 ...

我只是想要知道纯大核16C/32T w5-3435X VS 13900K 8P+16E = 32T

内存、CPU核心频率都固定，如果w5-3435X 能捶13900K，代表小核真的拉垮

作者: zhuifeng88 时间: 2023-4-20 14:24
本帖最后由 zhuifeng88 于 2023-4-20 14:26 编辑

ljy1414 发表于 2023-4-20 14:21
我只是想要知道纯大核16C/32T w5-3435X VS 13900K 8P+16E = 32T

内存、CPU核心频率都固定，如果w5-3435X ...

还是在说打游戏的话, 锤不了, 反过来锤20%以上, 不是说3435x, 是说3475x
------
好像理解错了, 如果你说固定到同频, 而不是两边固定到各自默认的话, 没测过, 不知道, 但有什么必要呢

作者: panzerlied 时间: 2023-4-20 14:34
提示: 作者被禁止或删除内容自动屏蔽

作者: zhuifeng88 时间: 2023-4-20 14:36

panzerlied 发表于 2023-4-20 14:34
XCC最大的问题并不是MCM带来的延迟，这个并不大，最大的问题是Mesh频率变成了1.几G，简直了。 ...

w3400默认是2.5, 倒没低到那种程度
(, 下载次数: 73)

作者: darkness66201 时间: 2023-4-20 14:41

gihu 发表于 2023-4-20 14:05
爆料说zen5开始L3 cache可以给全部核心共享，那么理论上跨ccd的核心延迟应该不会明显高于ccx内部延迟 ...

这个我倒不是很信，因为现在CCX内延迟是20ns以下，跨CCD延迟是70~80ns左右，按理说L3应该不可能做到IOD上，不然延迟和多核心可用容量都有点问题，目前这个构型不太可能一下子就把延迟缩掉，哪怕50ns以下？当然还有一个可能是，zen5开始就不再是CCD+IOD的组合了，而是类似intel EMIB或者像7900XTX那种硅片互联的技术，这样就能把延迟压下来共享了。

作者: gihu 时间: 2023-4-20 15:16
本帖最后由 gihu 于 2023-4-20 15:24 编辑

darkness66201 发表于 2023-4-20 14:41
这个我倒不是很信，因为现在CCX内延迟是20ns以下，跨CCD延迟是70~80ns左右，按理说L3应该不可能做到IOD上 ...

具体形式不太清楚，但zen5和zen1~zen4的架构肯定是很大不同的。不过我觉得不会走回intel那样的老路。毕竟农企家最擅长的就是企业级和桌面级共用相同的基础单元，从而降低研发成本。
我看爆料说的，类似7900xtx的6x16M的Infinity cache并联那样，各个ccd的32M L3通过类似的技术并联成一个完整的64M/128M/256M/384M L3，然后再和IOD连接。这样既保证了ccd内核的高性能特性，又能复用桌面端和移动端的ccd单元，只是最终成品的封装工艺上，单Die比多Die要简单得多，成本也低得多；但多Die的性能也不会像zen2~zen4一样，相对单Die在单核性能上没有任何提升。

作者: 堕落的翼 时间: 2023-4-20 15:22
spr的L3延迟快到dram级别就别和x3d比了

作者: gihu 时间: 2023-4-20 15:34

koney 发表于 2023-4-20 12:41
垂直延迟的确比平面的低，而且用了高级封装工艺

我总觉得垂直延迟短是指3D cache到2D cache的延迟短，而非3D cache到核心的延迟短。
毕竟zen 3D的L3 V cache是覆盖在原本L3 cache上的，并没有和8个内核直接接触。换句话说和内核的数据交换还是要经过原本的L3 cache这条路径，但总路径增加极少而已。

作者: elktsp 时间: 2023-4-20 16:15
HEDT已死，有事烧纸

欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/)