找回密码
 加入我们
搜索
      
查看: 14654|回复: 49

[CPU] zen5/zen5c核心以及zen家族发展的一些探讨

[复制链接]
发表于 2024-6-27 16:04 | 显示全部楼层 |阅读模式
本帖最后由 gihu 于 2024-6-28 12:31 编辑

关注zen4/5系列也有两年多了,越发觉得农企在和牙膏走的完全不是同一条道路。


指令集和计算标准上,农企也不求另辟蹊径,让牙膏出头,自己甘当追随者也能在指令集的利用和效率上后来居上,而且在芯片的空间结构和物理结构上玩起花活。


1. 从zen2开始,AMD已经开始在逐步践行这个标准。先是双ccx的8核心的ccd,每个ccx 4core,16M L3,每个ccd 8core 16Mx2 L3;
2. 到了zen3,ccd合并为1个ccx,8core 共享 32M L3,并且开始x3D物理堆叠;
3. zen4的本体相对zen3没有本质变化,也继续zen4上玩64M L3的x3D堆叠;但zen4c玩起和zen2类似的套路,只是ccx从4核升级为8核,ccd由zen2的2x4core,变成2x8core;
4. 即将推出的zen5c处理器,第一次实现了单ccx内集成16个内核,共享32M L3的突破。zen5本体依然是zen3、zen4一路过来的8core,32M L3。
zen5.png   

zen5c Turin EPYC
5th-Gen-AMD-EPYC_Delid_575px.jpg

zen5 Turin EPYC
AMD-EPYC-Turin-192-Cores-Zen-5c.jpg


先前泄露的麦当劳汉堡说麦当劳新汉堡的一点新消息 从一个侧面印证了AMD在3D堆叠上又有新动作。

5. 两年或三年后的zen6,貌似就没有了zen6和zen6c的区别了,最大能做到单ccd 32核的水平,个人猜想要玩更大的3d堆叠技术。
Zen's family .png

总结,从zen2开始,zen家族也有类似intel的tick/tock策略,只不过是在 指令集跟进/chiplet内部结构优化上切换或齐头并进。
例如,zen2第一次拥有avx2指令和256bit浮点单元,并且首次开启了单ccd内拥有双ccx的结构,这个算tick+tock;
zen3直接合并两个ccx,32M L3给zen3带来性能的巨大跃升,这个算tock;
……
……

I和A在各自的科技树上为x86架构添砖加瓦,I贡献技术标准,A实现架构突破,和ARM架构在竞争中方能不落下风。
Zen5c.jpg

评分

参与人数 1邪恶指数 +6 收起 理由
gtx9 + 6

查看全部评分

 楼主| 发表于 2024-7-2 10:56 | 显示全部楼层
af_x_if 发表于 2024-7-2 10:30
下一代还有new 32 core complex呢

我总觉得32核不用3d 堆叠的话完全没有效率
发表于 2024-7-2 10:30 | 显示全部楼层
Illidan2004 发表于 2024-7-2 10:18
查了下确实有消息说是16核,正常来说ring超过12核延迟就炸,难道内部还有更高级的连接方式,类似双ring? ...

下一代还有new 32 core complex呢
发表于 2024-7-2 10:18 | 显示全部楼层
本帖最后由 Illidan2004 于 2024-7-2 10:27 编辑
gihu 发表于 2024-7-1 19:03
最后这个zen5C应该还是错的,如果我贴的那个彩色表格没错的话,一个ccd包含两个及以上ccx的,只有zen1、z ...


查了下确实有消息说是16核,正常来说ring超过12核延迟就炸,难道内部还有更高级的连接方式,类似双ring?

Snipaste_2024-07-02_10-26-19.png

 楼主| 发表于 2024-7-1 19:03 | 显示全部楼层
Illidan2004 发表于 2024-6-27 18:39
我的理解是这样的  这个表后面的c 16和32有点无法理解
按照我了解的信息预测

最后这个zen5C应该还是错的,如果我贴的那个彩色表格没错的话,一个ccd包含两个及以上ccx的,只有zen1、zen2、zen4c,zen5c一个ccd就一个ccx
发表于 2024-6-28 15:34 | 显示全部楼层
gihu 发表于 2024-6-28 15:12
我们一般讨论12,13代的差别,主要是指12代Alder lake架构和13代Raptor lake架构以及12、13代大核心alder ...


主要是有些移动端   比如12900H和13900H  虽然后者是Raptor
但是数据显示L2和L3并没有变化(TPU的数据不对,实际软件看出来两者L2都是 6*1.25+2,而不是真正Raptor的6*2+3,可见大核小核还是用的Alder 只是也许工艺有改进)   只有13的省电要好一些  性能IPC也基本没有差距,唯一差别是前者内存4800,后者更高。

只有和桌面一样的HX系列,12和13会有明显差距。

所以我一直自己认为 不考虑省电因素  不考虑我要更高频率更高性能  单纯IPC角度 12900H和13900H是一样的。。。
 楼主| 发表于 2024-6-28 15:12 | 显示全部楼层
Illidan2004 发表于 2024-6-28 14:46
有些规格差不多 内存支持不一致 也分不清是不是高级马甲了  
至少我觉得那些也基本只能当成12代翻版 ...

我们一般讨论12,13代的差别,主要是指12代Alder lake架构和13代Raptor lake架构以及12、13代大核心alder cove和raptor lake的差别,性能差距还是比较明显的。包含移动端真13代处理器在相同性能下比12代同规模核心要更省电。
发表于 2024-6-28 14:46 | 显示全部楼层
gihu 发表于 2024-6-28 14:37
移动端的有135,136有12代的马甲U,所以用的仍然还是12代的核心,和真13代性能差距蛮大的。
https://www. ...

有些规格差不多 内存支持不一致 也分不清是不是高级马甲了  
至少我觉得那些也基本只能当成12代翻版
 楼主| 发表于 2024-6-28 14:37 | 显示全部楼层
Illidan2004 发表于 2024-6-28 13:22
笔记本上 如果是 H 好像13比12也没有多L1和L2

移动端的有135,136有12代的马甲U,所以用的仍然还是12代的核心,和真13代性能差距蛮大的。
https://www.bilibili.com/read/cv21051684/
发表于 2024-6-28 14:37 | 显示全部楼层
gihu 发表于 2024-6-27 19:49
断章取义的不是你吗?

对啊,是我啊
发表于 2024-6-28 14:36 | 显示全部楼层
gihu 发表于 2024-6-27 17:42
我也好奇,怎么实现这么多核共用cache的核间通讯延迟问题

跟haswell/braodwell-ep一样弄在dual ring之间直接弄个bridge就好了,没必要强行弄个16 stop ring出来。
发表于 2024-6-28 13:50 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 19:15
哪怕不考虑ccd和ccx说反了
除了zen3和zen5以外没一行是对的以外说的挺好的

查了一些资料修了下  帮我看看还有啥错误
发表于 2024-6-28 13:22 | 显示全部楼层
gihu 发表于 2024-6-28 11:45
13代是12代的优化改款,扩大的L1、L2容量,稍稍增加了流水线长度,使得能上到更高频率,增加了ring bus的 ...

笔记本上 如果是 H 好像13比12也没有多L1和L2
发表于 2024-6-28 11:49 来自手机 | 显示全部楼层
gihu 发表于 2024-6-27 22:28
你说的zen5c是不是特指strix point里的zen5c?说不定turin版的zen5c并没有吞吐量及浮点位宽减半?
另外, ...

如果你信主楼的图,那浮点就是减半的。
 楼主| 发表于 2024-6-28 11:45 | 显示全部楼层
xjr12000 发表于 2024-6-27 18:15
12 13 14本质上只是一代而已

13代是12代的优化改款,扩大的L1、L2容量,稍稍增加了流水线长度,使得能上到更高频率,增加了ring bus的频率,小核性能也有所改善。所以13相对12代,IPC也有所提升。
但14代就是13代的改名,不说制程没变,就连步进都是一样的。
所以说12、13不是一代,但13、14代是真的同一代。
 楼主| 发表于 2024-6-27 22:28 | 显示全部楼层
af_x_if 发表于 2024-6-27 20:08
其实16核还好,Zen5c相比Zen5缓存吞吐量需求只有一半,完全可以类似英特尔小核一拖四那样搞一拖二。 ...

你说的zen5c是不是特指strix point里的zen5c?说不定turin版的zen5c并没有吞吐量及浮点位宽减半?
另外,如果是像gracemont那样,应该是双核/四核共用L2,架构图里应该能看出来,不会是现在这样的布局。
发表于 2024-6-27 22:21 | 显示全部楼层
PolyMorph 发表于 2024-6-27 17:17
如何应对KFC 8+32巨无霸汉堡

不会有8+32了

发表于 2024-6-27 22:17 | 显示全部楼层
zen5c和普通zen5核就是分别用了fab的高密度库和高性能库,两种取向,分别适应高密度和高性能两种需求
发表于 2024-6-27 21:52 | 显示全部楼层
本帖最后由 melancholy05 于 2024-6-27 21:53 编辑
gihu 发表于 2024-6-27 18:04
牙膏在新标准的创立上跟老黄一样,都是业界抗鼎。但芯片架构上,是落后对家太多了。 ...


纯粹的计算架构来说牙膏并没有落后对家,主要是市场策略的失败,不肯让利又不肯放弃灰烬高频营销噱头,农企的成功主要在于iodie胶水灵活配置规模,不盲目追求频率,不浪费钱在市场营销上,拥有更高的良率及更好的成本控制,本质上是商业决策的成功
发表于 2024-6-27 20:08 | 显示全部楼层
其实16核还好,Zen5c相比Zen5缓存吞吐量需求只有一半,完全可以类似英特尔小核一拖四那样搞一拖二。
 楼主| 发表于 2024-6-27 19:49 来自手机 | 显示全部楼层
YoshinoSakura 发表于 2024-6-27 19:36
这就来断章取义了

断章取义的不是你吗?
发表于 2024-6-27 19:36 | 显示全部楼层
本帖最后由 YoshinoSakura 于 2024-6-27 19:37 编辑

这就来断章取义了
农企也不求另辟蹊径,让牙膏出头,自己甘当追随者
zen4的本体相对zen3没有本质变化
zen5本体依然是zen3
发表于 2024-6-27 19:15 | 显示全部楼层
Illidan2004 发表于 2024-6-27 18:39
我的理解是这样的  这个表后面的c 16和32有点无法理解
按照我了解的信息预测

哪怕不考虑ccd和ccx说反了
除了zen3和zen5以外没一行是对的以外说的挺好的
发表于 2024-6-27 18:51 | 显示全部楼层
直接上图吧
CCD1.png
CCD2.png
CCD3.png
发表于 2024-6-27 18:39 | 显示全部楼层

本帖最后由 Illidan2004 于 2024-7-2 10:30 编辑

我的理解是这样的  

ZEN1  每个CCX最多4核共享8M L3,2个CCX构成1个CCD,最多4个CCD用6条总线相连构成整个U,总共最多32核和64M L3

ZEN2  每个CCX最多4核共享16M L3,2个CCX构成1个CCD,最多8个CCD+IOD构成整个U,总共最多64核和256M L3

ZEN3  每个CCX最多8核共享32M L3,1个CCX构成一个CCD,最多8个CCD+IOD构成整个U,总共最多64核和256M L3

ZEN4  每个CCX最多8核共享32M L3,1个CCX构成一个CCD,最多12个CCD+IOD构成整个U,总共最多96核和384M L3

ZEN4C 每个CCX最多8核共享16M L3,2个CCX构成1个CCD,最多8个CCD+IOD构成整个U,总共最多128核和256M L3

ZEN5  每个CCX最多8核共享32M L3,1个CCX构成1个CCD,最多16个CCD+IOD构成整个U,总共最多128核和512M L3

ZEN5C 每个CCX最多16核共享32M L3,1个CCX构成1个CCD,最多12个CCD+IOD构成整个U,总共最多192核和384M L3

ZEN6C(预计) 每个CCX最多32核共享64M L3,1个CCX构成1个CCD,最多8个CCD堆叠在IOD上构成整个U,总共最多256核和512M L3
发表于 2024-6-27 18:39 | 显示全部楼层
一切猜想看gaa对缓存使用面积能优化多少,不然只能减配上核心
最近几代工艺,工艺提升基本没法减少缓存面积,而缓存是决定性能的关键因素之一,这才是核数卡住的原因之一
发表于 2024-6-27 18:20 | 显示全部楼层
Illidan2004 发表于 2024-6-27 17:58
牙膏确实也有在实验新东西  只是感觉出来总是比预期差点  
而且丢掉了长久以来的稳定性  (大小核调度导 ...

是啊,除了苹果,其他公司包括微软谷歌,都经常拿出这种不够成熟的东西给用户使用,这方面不如苹果

大小核是个挺大的改变,arm和安卓这方面积累了十几年经验,wintel联盟一下子难搞好

intel也是被逼急了,各种折腾,不过想搞出成绩来,可能还需要时间,两三年内有希望
发表于 2024-6-27 18:15 | 显示全部楼层
tim6252 发表于 2024-6-27 17:34
14代对于13还不是牙膏么。。现在还倒吸回去了

12 13 14本质上只是一代而已
 楼主| 发表于 2024-6-27 18:04 | 显示全部楼层
Illidan2004 发表于 2024-6-27 17:58
牙膏确实也有在实验新东西  只是感觉出来总是比预期差点  
而且丢掉了长久以来的稳定性  (大小核调度导 ...

牙膏在新标准的创立上跟老黄一样,都是业界抗鼎。但芯片架构上,是落后对家太多了。
 楼主| 发表于 2024-6-27 18:00 | 显示全部楼层
sekiroooo 发表于 2024-6-27 17:55
叫这些CCX CCD没啥意思,本质上 strix ai 370 和  8700G APU都是一个晶圆 die上制作的东西,并不是 chipl ...

你去查一下zen2 一个ccd内两个ccx的core间延迟就知道了,这也是为何zen3相对zen2有那么大性能提升
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-17 14:17 , Processed in 0.016287 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表