找回密码
 加入我们
搜索
      
查看: 10032|回复: 79

[CPU] 个人理解,目前的消费级PC大小核

[复制链接]
发表于 2024-8-7 17:08 | 显示全部楼层 |阅读模式
本帖最后由 秦南瓜 于 2024-8-7 17:12 编辑

叠甲:
小秦是个pcdiy爱好者,不站队。谁强我买谁。一代版本一代神,玩的时间久了就习惯intel 和 amd强弱交替了。
我不是专业人员,但我会把我作为爱好者以及消费者的视角讲清楚,仅供参考。

我的历史认知:
对于超线程、多核心、大小核,我的认知中,类似的变革经历了很多次,争论也从未停止。
早期奔腾4引入超线程,奔腾d胶水双核,core2 Quad胶水四核,amd真双核/真四核,arm cortex a9同步双核,高通蝎子异步双核,arm 不能同时工作的 biglittle大小核,apple a10 不能同时工作的 biglittle大小核,等等等等。
现在去翻阅一些当年的论战,会找到很多现在看起来搞笑、无厘头的论断。 很有意思。
无非是各家拿钱的水军带带节奏,煽动消费者互喷。赢了不亏,输了有热度,黑红也是红。所以对这些论战见多了。。真麻了。。。


关于ring:
这边提一下ring,环形总线。引用一下这个帖子~~
https://www.vvave.net/archives/t ... h-architecture.html
省流一下,个人关于ring的理解哈:ring在挂在10个核心/模块/簇 以内的效率是较高的。超过10个核心/模块/簇,延迟会明显提高,性能下降也更明显。
(这边引用一下极客湾的图,后面也会多次引用。。。感谢极客湾)
QQ图片20240807163807.png
这也是intel和amd对于多线程性能的追求,走上了两条道路的根本原因。
intel:把ring上挂载的部分大核心替换为小核心簇,提高单模块计算性能,从而提高10个模块限制下整个ring的计算性能。
微信截图_20240807164010.png
AMD:zen1~zen4多ccd,即多ring,每条ring最多挂载8c。zen5也走上了intel的道路,但架构保持相同。
我的观点:PC端大小核的出现,主要是对于多线程性能的追求。intel在那个时间点推出大小核,也是应对amd多ccd策略下超强多线程性能的妥协产物。(还是单die成本太爆炸了

intel大小核
先说下,intel这边12代开始我玩了:12100f、12100、12400f、12490f、12600kf、12700kf、13700kf、14700kf,对我这个跑分党来说,还是挺满意的。。毕竟各项跑分真的不错。
intel 12~14代大小核心的问题(最新的移动端没怎么了解。。我就pass了)
单ring策略,替换大核心为小核簇。且小核心架构与大核心不同。
下面是我的YY部分,实际情况不明哈,我也没去求证,仅供参考~~
12代之前,同构全大核+超线程。任务调度仅需考虑物理核心以及逻辑核心的差异
12代开始,调度任务时,不仅需要根据物理核心以及逻辑核心的差异分配。同时ring上调度分配任务至各模块后,任务分配到小核簇的部分还需要进行二次调度(小核簇共享L2)此时延迟会大幅增加。另外,因大小核架构不同,缓存结构不同,功耗不同。变量太多,调度器按照目前设计的调度逻辑,仍然很容易误判,导致部分应用出现性能问题。
微信截图_20240807164207.png

另外,大家也需要注意到,小核心的算力其实并不低,性能还是不错的。我记得极客湾测出来8个小核心顶个9700k来着。
微信截图_20240807163939.png
但,小核心的缓存配置是极其残废的,这些是小核可以缩小面积的原因之一。
“L1D的大小没有变化,仍为32KB,L2的缓存最高可达4MB,需要注意的是,L2缓存是4个小核一起共用的,同时容量可配置”(如下图)
QQ图片20240807164347.png

想想amd那边5800x3d,7800x3d巨量L3带来的收益,面对高负载应用的情况大缓存肯定是更强的,同理,缓存残废也就意味着出现瓶颈,导致intel小核心本来很棒的算力发挥不出来。

intel个人观点总结:intel的小核心设计,异构、二级调度、小核可用缓存过小,叠的debuff比较多。这也导致跑分很强,实际应用显著不如跑分的情况。intel这几代cpu大部分优势仍然是强大的大核以及超高频率带来的。小核心带来的收益非常非常低。

AMD 多CCD
amd这边从zen1开始,我玩了1700,3500x、3600、3600x、5600x、5600、5800x3d、5900x、7900x、7945hx、7800x3d。目前78x3d大奶服役中~
这块简略一些吧~
直到zen2,L3仍然只能在单CCD中的核心内共享,因此zen2的跨ccd延迟非常高(L3交换)。游戏表现比较糟糕。
zen3,好歹是各CCD间L3共享了,直接实现性能飞跃。但跨CCD延迟仍然较高,这也是7700x游戏性能强于7950x的原因。

amd个人观点总结:基于上面的个人分析,我选择单CCD全大核大缓存的7800x3d作为大奶机cpu,因此首发购入(韭菜)。。当然,时间也在慢慢证明7800x3d的含金量~~

AMD 大小核心
这个我完全没玩,就看了几个评测,所以这块可以更简略一些。。。。
zen5c和zen5是同构的,差异是砍了频率和缓存。相较于intel少了一层异构的debuff。但是!居然跨ccd??
而且大小核心簇对应的L3是分开的,没有共享
同构,但多ccd。我看到这瞬间没兴趣了。。。虽然图形提升还不错。但这代amd大小核的笔记本产品我不会碰的
微信截图_20240807165532.png


最后
消费者的角度,总是希望出现那么一款不计成本,处处想着堆满的产品出现(麒麟9000:?)  
最好它同时还很便宜。哈哈哈,怎么可能。
从企业、商业的角度,这些产品设计注定是充满妥协的,根据设计目标、营销目标、成本限制,条条框框下,做出来的产品肯定是刚刚好,或者差强人意的。

参考手机端大小核发展的历程,从早期大小核心簇来回切换,到现在的三簇、四簇同时调度,也经历了多年的阵痛。
大小核的成熟,这需要时间。

所以现在买啥?我特么为啥要花自己的钱陪着厂商战未来啊??我当然选择全大核!!!!!
发表于 2024-8-7 17:11 | 显示全部楼层
"zen3,好歹是各CCD间L3共享了,直接实现性能飞跃。"

这纯属你想多了, zen3只是改成了可以访问, remote脏缓存命中的延迟比miss都高
发表于 2024-8-7 17:12 | 显示全部楼层
先表明立场: 唾弃现在的带英

我觉得吧...
MSDT 上的大小核和多 CCD, 都是为了恶心对手但最终恶心用户的产物...
发表于 2024-8-7 17:12 来自手机 | 显示全部楼层
你们怎么都在叠甲啊
 楼主| 发表于 2024-8-7 17:13 | 显示全部楼层
zhuifeng88 发表于 2024-8-7 17:11
"zen3,好歹是各CCD间L3共享了,直接实现性能飞跃。"

这纯属你想多了, zen3只是改成了可以访问, remote脏 ...

所以我只是玩家。仅发表下个人粗浅理解吧
 楼主| 发表于 2024-8-7 17:17 | 显示全部楼层
xy. 发表于 2024-8-7 17:12
先表明立场: 唾弃现在的带英

我觉得吧...

多ccd情有可原吧。不然老玩单die良率过低了。成本妥协的产物。而且实打实的多线程性能提升
发表于 2024-8-7 17:21 来自手机 | 显示全部楼层
小核应该做成只用来运行操作系统和后台服务,对于普通程序不可见,有特殊需要的程序可以专门申请运行在小核上。
发表于 2024-8-7 17:22 | 显示全部楼层
“直到zen2,L3仍然只能在单CCD中的核心内共享,因此zen2的跨ccd延迟非常高(L3交换)。游戏表现比较糟糕。
zen3,好歹是各CCD间L3共享了,直接实现性能飞跃。但跨CCD延迟仍然较高,这也是7700x游戏性能强于7950x的原因”

ZEN3一个CCD就是完整的一个ring8核,有啥CCD内共享的?
ZEN2是一个CCD有两个CCX,所以才不能共享,就和现在这个ZEN5 APU差不多

ZEN5 APU也是一个CCD里有两个CCX,每个CCX只能用自己那边的缓存,这就是ZEN2的翻版而已

二次分配 共享L2的INTEL大小核都能接受  多CCX有啥不能接受的   
只不过这此这个移动端的多CCX延迟确实高了点  相比桌面端的7950X双CCD。

7950X3D你要是系统不整负面的因素  怎么也不可能比7800X3D差的
不愿意接受双CCD的多核,那当然就只有INTEL那种嵌套架构了。
 楼主| 发表于 2024-8-7 17:22 | 显示全部楼层
InuYasha 发表于 2024-8-7 17:21
小核应该做成只用来运行操作系统和后台服务,对于普通程序不可见,有特殊需要的程序可以专门申请运行在小核 ...

协处理器的感觉了。也蛮好。
但微软近些年就没给力过
发表于 2024-8-7 17:25 | 显示全部楼层
2024-08-07 172123.jpg
不指望AMD的软件优化速度,
立刻把挂黄鱼的8845本子下架重新搭了使用环境
 楼主| 发表于 2024-8-7 17:26 | 显示全部楼层
Illidan2004 发表于 2024-8-7 17:22
“直到zen2,L3仍然只能在单CCD中的核心内共享,因此zen2的跨ccd延迟非常高(L3交换)。游戏表现比较糟糕。 ...

对的,感谢补充。。ccd ccx我没弄清楚。不过大体意思是差不多,反正就是延迟更大。

对于两家产品的接受度。只能说,我没那么强的多线程需求。所以我才选择单CCD的8核心产品。

7950x3d我纠结过买不买,毕竟大缓存那个ccd相较于7800x3d频率稍微高点。
但是要额外装驱动,以及非对称缓存,我看着就浑身难受。。遂放弃
发表于 2024-8-7 17:26 | 显示全部楼层
类似numa的问题无解,这是物理规律。就好比同一家公司,北京上海成都都有办公室,递送办公用品,总归有邮寄延迟。如何规避?措施无非是:
1. 办公用品尽可能不要跨地区寄送(操作系统调度,尽可能不要跨簇,跨numa)
2. 实在要跨办公室,选顺丰,这样路上时间节约些(加强片上总线带宽和速度咯)
3. 在济南,武汉,郑州,设三个仓库?(L4 或其他 cache)

 楼主| 发表于 2024-8-7 17:26 | 显示全部楼层
frezta 发表于 2024-8-7 17:25
不指望AMD的软件优化速度,
立刻把挂黄鱼的8845本子下架重新搭了使用环境

这代大小核apu碰都不想碰。。。
等纯大核吧~
发表于 2024-8-7 17:28 | 显示全部楼层
秦南瓜 发表于 2024-8-7 17:17
多ccd情有可原吧。不然老玩单die良率过低了。成本妥协的产物。而且实打实的多线程性能提升
...

设想个极端情况,单die,4096核,一片晶圆,那么良品率无限趋近于0,哈哈哈
 楼主| 发表于 2024-8-7 17:28 | 显示全部楼层
8owd8wan 发表于 2024-8-7 17:26
类似numa的问题无解,这是物理规律。就好比同一家公司,北京上海成都都有办公室,递送办公用品,总归有邮寄 ...

是这样的,堆cache或者链接速度,都是需要面积的。
成本上第一个直接没希望。
所以现阶段软件没到位的情况下,还是老老实实单ring全大核比较舒适
发表于 2024-8-7 17:34 | 显示全部楼层
秦南瓜 发表于 2024-8-7 17:28
是这样的,堆cache或者链接速度,都是需要面积的。
成本上第一个直接没希望。
所以现阶段软件没到位的情 ...

如果是服务器端应用,numa场景真的很常见,我们写的程序,一般都会注意numa亲和性。
比如古早时期mysql,JVM的经典bug,申请内存不注意numa,导致性能剧烈抖动。
很早就修复掉了
发表于 2024-8-7 17:34 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2024-8-7 17:35 | 显示全部楼层
8owd8wan 发表于 2024-8-7 17:34
如果是服务器端应用,numa场景真的很常见,我们写的程序,一般都会注意numa亲和性。
比如古早时期mysql, ...

额。我是消费级视角讲的哈哈

多线程刚需的专业领域,这些消费级的小玩意根本不够看
发表于 2024-8-7 17:36 | 显示全部楼层
gbawrc 发表于 2024-8-7 17:34
为什么英特尔不敢出纯8大核,纯大核最高6核,
明显是心虚,只要出纯8大核产品,现在的I7 I9全部不用卖了
...

也要看缓存。

6+0的12代,也可以超外频,但是缓存就18M,没法越级打。

但是9600X依然是32M L3。
发表于 2024-8-7 17:40 | 显示全部楼层
gbawrc 发表于 2024-8-7 17:34
为什么英特尔不敢出纯8大核,纯大核最高6核,
明显是心虚,只要出纯8大核产品,现在的I7 I9全部不用卖了
...

IPC不行啊,超频到14900k的全核性能不得要500w了
发表于 2024-8-7 17:41 | 显示全部楼层
秦南瓜 发表于 2024-8-7 17:26
对的,感谢补充。。ccd ccx我没弄清楚。不过大体意思是差不多,反正就是延迟更大。

对于两家产品的接受 ...


这种问题 就是规模限制了  
类似以前多核NUMA问题

所以只能通过更高级别的缓存弥补互相访问对面的延迟大造成的问题

有说可能AI 370X下一代会这样搞

至于笔记本那边,我觉得本质还是大核给少了的问题,如果4+8能变成6+8或者6+6,会不会好很多,毕竟大部分吃单核的程序目前可能足够跑6核了,跨CCX肯定有影响延迟高,但主要解决那些并发的问题。当然我觉得这玩意其实主要是给日常办公干活的人用的,各方面是有取舍的,偶尔跑跑游戏的人,调度好了限制在4核里也不是不能用,再差应该也就倒退一代。但是确实涉及到调度的总归会多出来问题,没有需求的选单CCD的总没错(我很纳闷笔记本很少有7745HX这种游戏本,但是7945反而多,大概是因为16核只能上7945听起来好听  7840成本更便宜)
发表于 2024-8-7 17:41 | 显示全部楼层
我也先叠甲,就一正常用户,谁好用用谁
amd这个同构小核
从目前能看到的信息来说
同构了,但是没啥卵用,频率低,缓存小,再加上跨核延迟巨大
而且这代有个很大的问题就是大核只有四个,导致游戏这块,但凡某个游戏需求超过四核,就直接爆炸
所以这代只能用在轻薄本上,希望后面别有厂商头铁用这玩意做游戏本……
发表于 2024-8-7 17:42 | 显示全部楼层
本帖最后由 FelixIvory 于 2024-8-7 17:52 编辑
秦南瓜 发表于 2024-8-7 17:17
多ccd情有可原吧。不然老玩单die良率过低了。成本妥协的产物。而且实打实的多线程性能提升
...


做成单ccx的4+4或者8+0实际上同功耗性能不会弱太多,完全够用。
关键amd做的这个不完美的4+8是为了涨价。(包括没什么用的16cu,做成12cu+slc都不会这么垃圾的性能)
发表于 2024-8-7 17:42 | 显示全部楼层
秦南瓜 发表于 2024-8-7 17:26
这代大小核apu碰都不想碰。。。
等纯大核吧~

移动端这边,
strix halo 成本巨高,oem积极性不高,
phoenix 后续的krackan也是5和5c的大小核,为了塞NPU搞出的幽默大小核影响要很久。
发表于 2024-8-7 17:42 | 显示全部楼层
台式机还是喜欢全大核。
发表于 2024-8-7 17:43 | 显示全部楼层
curdfu 发表于 2024-8-7 17:41
我也先叠甲,就一正常用户,谁好用用谁
amd这个同构小核
从目前能看到的信息来说

频率肯定要低很多啊  要是频率也不低  那还叫大小核?那只能是桌面双CCD

笔记本那点功耗,就是做完全同构,那也是一边能5G 另一边只能3G
也正是因为另一边工艺甜点功耗就是3G以下,才能这么设计成另一种核心的(里面完全一样,就是不需要这么高主频可以缩减很多东西),然后还是靠减少缓存省面积

发表于 2024-8-7 17:47 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2024-8-7 17:49 来自手机 | 显示全部楼层
本帖最后由 caoyuxin 于 2024-8-7 17:50 编辑

Mesh架构可以挂更多核,没有跨die问题,就是核心面积一上去,成本太高了点。
发表于 2024-8-7 17:50 来自手机 | 显示全部楼层
Xeon只有全大核或全小核型号,所以不考虑大小核cpu。
发表于 2024-8-7 17:53 来自手机 | 显示全部楼层
同样面积,同样功耗,4小核比一大核性能还是有挺多优势的。软件优化跟上就好。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-1 22:04 , Processed in 0.015695 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表