找回密码
 加入我们
搜索
      
查看: 2871|回复: 28

[CPU] 大佬们有个问题,9950x的双ccd32+32的64m缓存对游戏有帮助吗

[复制链接]
发表于 2024-12-26 20:53 | 显示全部楼层 |阅读模式
还是说游戏最多只能用32m
发表于 2024-12-26 21:07 | 显示全部楼层
有帮助的游戏就有帮助,没有帮助的游戏就没有帮助
发表于 2024-12-26 21:18 来自手机 | 显示全部楼层
最多32M,跨CCD延迟大增,不如不用另外的核心
发表于 2024-12-26 21:36 | 显示全部楼层
没有帮助,两个CCD的L3是独立的,本CCD内L3 miss会直接访问主存,不会去另一个CCD的L3找。因为跨CCD L3访问延迟与主存类似,共享L3没任何好处。
发表于 2024-12-26 21:37 | 显示全部楼层
没有
所以要开一个什么设置,让尽量跑在1个U内
发表于 2024-12-26 22:20 | 显示全部楼层
kdtree 发表于 2024-12-26 21:36
没有帮助,两个CCD的L3是独立的,本CCD内L3 miss会直接访问主存,不会去另一个CCD的L3找。因为跨CCD L3访问 ...

额,你忘了dram本身读写的延迟就比sram大不少?要不然l2 l3何苦用成本高的sram。。。
发表于 2024-12-26 22:46 | 显示全部楼层
银月 发表于 2024-12-26 21:07
有帮助的游戏就有帮助,没有帮助的游戏就没有帮助

正确无比。
发表于 2024-12-26 22:58 | 显示全部楼层
本帖最后由 tengyun 于 2024-12-26 23:00 编辑

9950X是 俩胶水U。  生产力另外个才用的上。他是主生产力,顺带打个游戏
臭打游戏 9700X 或者X3D
发表于 2024-12-26 23:11 来自手机 | 显示全部楼层
pcgsf22 发表于 2024-12-26 22:20
额,你忘了dram本身读写的延迟就比sram大不少?要不然l2 l3何苦用成本高的sram。。。 ...

如果你认为在讨论存储层级时提及是否“类似”还要考虑sram和dram的延迟区别的话,那么你说的对,以你的观点为准。
发表于 2024-12-26 23:35 | 显示全部楼层
感觉 那要看什么游戏吧? 端游多开8个左右也许还是有效果的
记得wow是吃cpu的 找玩wow的试试多开如何?
发表于 2024-12-27 00:00 | 显示全部楼层
kdtree 发表于 2024-12-26 23:11
如果你认为在讨论存储层级时提及是否“类似”还要考虑sram和dram的延迟区别的话,那么你说的对,以你的观 ...

然而内存延迟支配性的就是物理存储层本身的速度,而不是内存控制器、cpu、内存之间的互联延迟,否则你超内存怎么有提升。跨ccd的l3访问不一定比内存访问慢。
发表于 2024-12-27 00:41 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2024-12-27 07:29 | 显示全部楼层
pcgsf22 发表于 2024-12-27 00:00
然而内存延迟支配性的就是物理存储层本身的速度,而不是内存控制器、cpu、内存之间的互联延迟,否则你超 ...

啊?我什么时候说过跨ccd l3访问会比内存慢了?你可以说我表述不严谨,但请不要架个不存在的靶子打。
我说的跟内存类似是相较于片上L3的,如果较真的话,是的,你在iod的IF上挂一片sram会比访问内存快。
发表于 2024-12-27 07:36 来自手机 | 显示全部楼层
kdtree 发表于 2024-12-27 07:29
啊?我什么时候说过跨ccd l3访问会比内存慢了?你可以说我表述不严谨,但请不要架个不存在的靶子打。
我 ...

自信点,真的比访存慢...
发表于 2024-12-27 08:24 | 显示全部楼层
zhuifeng88 发表于 2024-12-27 07:36
自信点,真的比访存慢...

你测过?求问如何构建跨CCD访问L3的测试样例?
发表于 2024-12-27 08:36 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-12-27 08:39 编辑
kdtree 发表于 2024-12-27 08:24
你测过?求问如何构建跨CCD访问L3的测试样例?


在两个ccd都预热缓存读, 然后在其中一个ccd修改标脏, 另一个ccd读修改的地址(地址需要间接生成避免触发预取)就行, 这个路径是直接远端m/e的
发表于 2024-12-27 08:43 | 显示全部楼层
process lasso锁游戏到ccd0上就可以了,打游戏比9700x肯定强的
发表于 2024-12-27 10:05 | 显示全部楼层
zhuifeng88 发表于 2024-12-27 08:36
在两个ccd都预热缓存读, 然后在其中一个ccd修改标脏, 另一个ccd读修改的地址(地址需要间接生成避免触发预 ...

你这是在测ccd间core2core延迟啊,得到的结果的并不是一个ccd访问另一个ccd L3的延迟。
发表于 2024-12-27 10:20 | 显示全部楼层
kdtree 发表于 2024-12-27 10:05
你这是在测ccd间core2core延迟啊,得到的结果的并不是一个ccd访问另一个ccd L3的延迟。 ...

标脏的行刷到l3不就是访问远端l3的延迟吗...
发表于 2024-12-27 10:29 | 显示全部楼层
银月 发表于 2024-12-26 21:07
有帮助的游戏就有帮助,没有帮助的游戏就没有帮助

合格二楼,
能调用16核的游戏(也只是一种应用),就有用
发表于 2024-12-27 10:34 | 显示全部楼层
zhuifeng88 发表于 2024-12-27 10:20
标脏的行刷到l3不就是访问远端l3的延迟吗...

你这测的是一个完整的写->读 cache coherence流程的时间啊,并不是一次单纯的跨die L3访问啊。

比如zen5 同CCD L3读取延迟只有7ns,但同CCD多核间一次写->读要20ns
发表于 2024-12-27 11:09 来自手机 | 显示全部楼层
xinxin1982 发表于 2024-12-27 10:29
合格二楼,
能调用16核的游戏(也只是一种应用),就有用

模拟类游戏毕竟日常被开除游戏籍贯
发表于 2024-12-27 11:27 来自手机 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-12-27 11:35 编辑
kdtree 发表于 2024-12-27 10:34
你这测的是一个完整的写->读 cache coherence流程的时间啊,并不是一次单纯的跨die L3访问啊。

比如zen5 ...


不我说的是脏行在l3 victim,l1 l2都已经没了

或者更加没有歧义的说, 在能排除其他影响的情况下(linux下很好实现, 比如coreisolate排除掉ccd A的所有核心), ccd A写脏并且冲刷l1, l2之后完全可以等1分钟ccd B再去读, 算的仅仅是ccd B发起读->拿到数据的时间, 而不是写->读的时间
发表于 2024-12-27 13:46 | 显示全部楼层
pcgsf22 发表于 2024-12-26 22:20
额,你忘了dram本身读写的延迟就比sram大不少?要不然l2 l3何苦用成本高的sram。。。 ...

跨CCD访问L3的延迟比直接访问内存的延迟还略大,你说sram,dram物理的延迟比较就已经毫无意义了
发表于 2024-12-27 14:02 | 显示全部楼层
kdtree 发表于 2024-12-27 07:29
啊?我什么时候说过跨ccd l3访问会比内存慢了?你可以说我表述不严谨,但请不要架个不存在的靶子打。
我 ...

问题的根源在于现阶段AMD连接不同ccd的Infinite Fabric 总线是基于铜导线互联的串行结构,无论是带宽和延迟都比比基于硅互联ccd内核心访问差1~2个数量级
发表于 2024-12-27 14:07 | 显示全部楼层
zhuifeng88 发表于 2024-12-27 11:27
不我说的是脏行在l3 victim,l1 l2都已经没了

或者更加没有歧义的说, 在能排除其他影响的情况下(linux下 ...

我的意思是现有的C2C延迟数据并不支持跨CCD读L3比直接读内存还慢的说法,毕竟新AGESA下跨CCD一个完整写读流程也就75ns左右。

所以我原本也只是说跨CCD访问L3的延迟跟访问内存类似,或者说一个量级。如果你能排除写脏时间直接拿到跨CCD读L3的时间,不妨分享一下结果?
发表于 2024-12-27 14:11 | 显示全部楼层
gihu 发表于 2024-12-27 14:02
问题的根源在于现阶段AMD连接不同ccd的Infinite Fabric 总线是基于铜导线互联的串行结构,无论是带宽和延 ...

你是不是回复错人了?我当然知道跨CCD走IF访问L3比片内L3慢啊。
发表于 2024-12-27 14:56 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-12-27 15:01 编辑
kdtree 发表于 2024-12-27 14:07
我的意思是现有的C2C延迟数据并不支持跨CCD读L3比直接读内存还慢的说法,毕竟新AGESA下跨CCD一个完整写读 ...


如果你是说75ns c2c不支持这个说法的话那是高fclk频率前提下, 那就和我表达的不是一个东西了, 我指的是全默认无pbo+jedecB时序标况下的 (测epyc4004顺便测来对比的), l3远端脏命中~120ns, 内存~110ns(伪随机地址, tlb命中, hugepage)
发表于 2024-12-27 15:46 | 显示全部楼层
zhuifeng88 发表于 2024-12-27 14:56
如果你是说75ns c2c不支持这个说法的话那是高fclk频率前提下, 那就和我表达的不是一个东西了, 我指的是全 ...

我说的就是全默认。

刚在我的工作机上测了一下, 7950x全默认,内存5200C42,win11H2。

C2C实现为两核交替读写8byte数据,1000w次取平均,跨die延迟最高94ns。
Memory latency实现为伪随机地址跳转链表,链表大小1GB,4000w次取平均,延迟107ns。

只能说在我这里哪怕C2C完整写读延迟都比内存读取延迟稍低。

不过当然并不影响之前我的说法,跨die L3访问延迟与内存类似,或者说在一个量级上。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 17:35 , Processed in 0.014648 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表