大佬们有个问题，9950x的双ccd32+32的64m缓存对游戏有帮助吗

gnhen5415 发表于 2024-12-26 20:53

还是说游戏最多只能用32m

银月发表于 2024-12-26 21:07

[睡觉]有帮助的游戏就有帮助，没有帮助的游戏就没有帮助

pzy2222 发表于 2024-12-26 21:18

最多32M，跨CCD延迟大增，不如不用另外的核心

kdtree 发表于 2024-12-26 21:36

没有帮助，两个CCD的L3是独立的，本CCD内L3 miss会直接访问主存，不会去另一个CCD的L3找。因为跨CCD L3访问延迟与主存类似，共享L3没任何好处。

aibo 发表于 2024-12-26 21:37

没有
所以要开一个什么设置，让尽量跑在1个U内

pcgsf22 发表于 2024-12-26 22:20

kdtree 发表于 2024-12-26 21:36
没有帮助，两个CCD的L3是独立的，本CCD内L3 miss会直接访问主存，不会去另一个CCD的L3找。因为跨CCD L3访问 ...

额，你忘了dram本身读写的延迟就比sram大不少？要不然l2 l3何苦用成本高的sram。。。

zerozerone 发表于 2024-12-26 22:46

银月发表于 2024-12-26 21:07
有帮助的游戏就有帮助，没有帮助的游戏就没有帮助

正确无比。

tengyun 发表于 2024-12-26 22:58

本帖最后由 tengyun 于 2024-12-26 23:00 编辑

9950X是俩胶水U。生产力另外个才用的上。他是主生产力，顺带打个游戏
臭打游戏 9700X 或者X3D

kdtree 发表于 2024-12-26 23:11

pcgsf22 发表于 2024-12-26 22:20
额，你忘了dram本身读写的延迟就比sram大不少？要不然l2 l3何苦用成本高的sram。。。 ...

如果你认为在讨论存储层级时提及是否“类似”还要考虑sram和dram的延迟区别的话，那么你说的对，以你的观点为准。

menuu 发表于 2024-12-26 23:35

感觉那要看什么游戏吧? 端游多开8个左右也许还是有效果的
记得wow是吃cpu的找玩wow的试试多开如何？

pcgsf22 发表于 2024-12-27 00:00

kdtree 发表于 2024-12-26 23:11
如果你认为在讨论存储层级时提及是否“类似”还要考虑sram和dram的延迟区别的话，那么你说的对，以你的观 ...

然而内存延迟支配性的就是物理存储层本身的速度，而不是内存控制器、cpu、内存之间的互联延迟，否则你超内存怎么有提升。跨ccd的l3访问不一定比内存访问慢。

gbawrc 发表于 2024-12-27 00:41

kdtree 发表于 2024-12-27 07:29

pcgsf22 发表于 2024-12-27 00:00
然而内存延迟支配性的就是物理存储层本身的速度，而不是内存控制器、cpu、内存之间的互联延迟，否则你超 ...

啊？我什么时候说过跨ccd l3访问会比内存慢了？你可以说我表述不严谨，但请不要架个不存在的靶子打。
我说的跟内存类似是相较于片上L3的，如果较真的话，是的，你在iod的IF上挂一片sram会比访问内存快。

zhuifeng88 发表于 2024-12-27 07:36

kdtree 发表于 2024-12-27 07:29
啊？我什么时候说过跨ccd l3访问会比内存慢了？你可以说我表述不严谨，但请不要架个不存在的靶子打。
我 ...

自信点，真的比访存慢...

kdtree 发表于 2024-12-27 08:24

zhuifeng88 发表于 2024-12-27 07:36
自信点，真的比访存慢...

[震惊]你测过？求问如何构建跨CCD访问L3的测试样例？

zhuifeng88 发表于 2024-12-27 08:36

本帖最后由 zhuifeng88 于 2024-12-27 08:39 编辑

kdtree 发表于 2024-12-27 08:24
你测过？求问如何构建跨CCD访问L3的测试样例？

在两个ccd都预热缓存读, 然后在其中一个ccd修改标脏, 另一个ccd读修改的地址(地址需要间接生成避免触发预取)就行, 这个路径是直接远端m/e的

ba66882008 发表于 2024-12-27 08:43

process lasso锁游戏到ccd0上就可以了，打游戏比9700x肯定强的

kdtree 发表于 2024-12-27 10:05

zhuifeng88 发表于 2024-12-27 08:36
在两个ccd都预热缓存读, 然后在其中一个ccd修改标脏, 另一个ccd读修改的地址(地址需要间接生成避免触发预 ...

[震惊]你这是在测ccd间core2core延迟啊，得到的结果的并不是一个ccd访问另一个ccd L3的延迟。

zhuifeng88 发表于 2024-12-27 10:20

kdtree 发表于 2024-12-27 10:05
你这是在测ccd间core2core延迟啊，得到的结果的并不是一个ccd访问另一个ccd L3的延迟。 ...

标脏的行刷到l3不就是访问远端l3的延迟吗...

xinxin1982 发表于 2024-12-27 10:29

银月发表于 2024-12-26 21:07
有帮助的游戏就有帮助，没有帮助的游戏就没有帮助

合格二楼，
能调用16核的游戏（也只是一种应用），就有用

kdtree 发表于 2024-12-27 10:34

zhuifeng88 发表于 2024-12-27 10:20
标脏的行刷到l3不就是访问远端l3的延迟吗...

[震惊]你这测的是一个完整的写->读 cache coherence流程的时间啊，并不是一次单纯的跨die L3访问啊。

比如zen5 同CCD L3读取延迟只有7ns，但同CCD多核间一次写->读要20ns

银月发表于 2024-12-27 11:09

xinxin1982 发表于 2024-12-27 10:29
合格二楼，
能调用16核的游戏（也只是一种应用），就有用

模拟类游戏毕竟日常被开除游戏籍贯

zhuifeng88 发表于 2024-12-27 11:27

本帖最后由 zhuifeng88 于 2024-12-27 11:35 编辑

kdtree 发表于 2024-12-27 10:34
你这测的是一个完整的写->读 cache coherence流程的时间啊，并不是一次单纯的跨die L3访问啊。

比如zen5 ...

不我说的是脏行在l3 victim，l1 l2都已经没了

或者更加没有歧义的说, 在能排除其他影响的情况下(linux下很好实现, 比如coreisolate排除掉ccd A的所有核心), ccd A写脏并且冲刷l1, l2之后完全可以等1分钟ccd B再去读, 算的仅仅是ccd B发起读->拿到数据的时间, 而不是写->读的时间

gihu 发表于 2024-12-27 13:46

pcgsf22 发表于 2024-12-26 22:20
额，你忘了dram本身读写的延迟就比sram大不少？要不然l2 l3何苦用成本高的sram。。。 ...

跨CCD访问L3的延迟比直接访问内存的延迟还略大，你说sram，dram物理的延迟比较就已经毫无意义了

gihu 发表于 2024-12-27 14:02

kdtree 发表于 2024-12-27 07:29
啊？我什么时候说过跨ccd l3访问会比内存慢了？你可以说我表述不严谨，但请不要架个不存在的靶子打。
我 ...

问题的根源在于现阶段AMD连接不同ccd的Infinite Fabric 总线是基于铜导线互联的串行结构，无论是带宽和延迟都比比基于硅互联ccd内核心访问差1~2个数量级

kdtree 发表于 2024-12-27 14:07

zhuifeng88 发表于 2024-12-27 11:27
不我说的是脏行在l3 victim，l1 l2都已经没了

或者更加没有歧义的说, 在能排除其他影响的情况下(linux下 ...

[震惊]我的意思是现有的C2C延迟数据并不支持跨CCD读L3比直接读内存还慢的说法，毕竟新AGESA下跨CCD一个完整写读流程也就75ns左右。

所以我原本也只是说跨CCD访问L3的延迟跟访问内存类似，或者说一个量级。如果你能排除写脏时间直接拿到跨CCD读L3的时间，不妨分享一下结果？

kdtree 发表于 2024-12-27 14:11

gihu 发表于 2024-12-27 14:02
问题的根源在于现阶段AMD连接不同ccd的Infinite Fabric 总线是基于铜导线互联的串行结构，无论是带宽和延 ...

[震惊]你是不是回复错人了？我当然知道跨CCD走IF访问L3比片内L3慢啊。

zhuifeng88 发表于 2024-12-27 14:56

本帖最后由 zhuifeng88 于 2024-12-27 15:01 编辑

kdtree 发表于 2024-12-27 14:07
我的意思是现有的C2C延迟数据并不支持跨CCD读L3比直接读内存还慢的说法，毕竟新AGESA下跨CCD一个完整写读 ...

如果你是说75ns c2c不支持这个说法的话那是高fclk频率前提下, 那就和我表达的不是一个东西了, 我指的是全默认无pbo+jedecB时序标况下的 (测epyc4004顺便测来对比的), l3远端脏命中~120ns, 内存~110ns(伪随机地址, tlb命中, hugepage)

kdtree 发表于 2024-12-27 15:46

zhuifeng88 发表于 2024-12-27 14:56
如果你是说75ns c2c不支持这个说法的话那是高fclk频率前提下, 那就和我表达的不是一个东西了, 我指的是全 ...

[无奈]我说的就是全默认。

刚在我的工作机上测了一下, 7950x全默认，内存5200C42，win11H2。

C2C实现为两核交替读写8byte数据，1000w次取平均，跨die延迟最高94ns。
Memory latency实现为伪随机地址跳转链表，链表大小1GB，4000w次取平均，延迟107ns。

只能说在我这里哪怕C2C完整写读延迟都比内存读取延迟稍低。

不过当然并不影响之前我的说法，跨die L3访问延迟与内存类似，或者说在一个量级上。

页: [1]

Chiphell - 分享与交流用户体验's Archiver

大佬们有个问题，9950x的双ccd32+32的64m缓存对游戏有帮助吗