Chiphell - 分享与交流用户体验

标题: zen5/zen5c核心以及zen家族发展的一些探讨 [打印本页]

作者: gihu 时间: 2024-6-27 16:04
标题: zen5/zen5c核心以及zen家族发展的一些探讨
本帖最后由 gihu 于 2024-6-28 12:31 编辑

关注zen4/5系列也有两年多了，越发觉得农企在和牙膏走的完全不是同一条道路。

指令集和计算标准上，农企也不求另辟蹊径，让牙膏出头，自己甘当追随者也能在指令集的利用和效率上后来居上，而且在芯片的空间结构和物理结构上玩起花活。

1. 从zen2开始，AMD已经开始在逐步践行这个标准。先是双ccx的8核心的ccd，每个ccx 4core，16M L3，每个ccd 8core 16Mx2 L3；
2. 到了zen3，ccd合并为1个ccx，8core 共享 32M L3，并且开始x3D物理堆叠；
3. zen4的本体相对zen3没有本质变化，也继续zen4上玩64M L３的x3D堆叠；但zen4c玩起和zen2类似的套路，只是ccx从4核升级为8核，ccd由zen2的2x4core，变成2x8core；
4. 即将推出的zen5c处理器，第一次实现了单ccx内集成16个内核，共享32M L3的突破。zen5本体依然是zen3、zen4一路过来的８core，32M L3。
(, 下载次数: 53)

zen5c Turin EPYC
(, 下载次数: 58)

zen5 Turin EPYC
(, 下载次数: 55)

先前泄露的麦当劳汉堡说麦当劳新汉堡的一点新消息从一个侧面印证了AMD在3D堆叠上又有新动作。

5. 两年或三年后的zen6，貌似就没有了zen6和zen6c的区别了，最大能做到单ccd 32核的水平，个人猜想要玩更大的3d堆叠技术。
(, 下载次数: 47)

总结，从zen2开始，zen家族也有类似intel的tick/tock策略，只不过是在指令集跟进/chiplet内部结构优化上切换或齐头并进。
例如，zen2第一次拥有avx2指令和256bit浮点单元，并且首次开启了单ccd内拥有双ccx的结构，这个算tick+tock；
zen3直接合并两个ccx，32M L3给zen3带来性能的巨大跃升，这个算tock；
……
……

I和A在各自的科技树上为x86架构添砖加瓦，I贡献技术标准，A实现架构突破，和ARM架构在竞争中方能不落下风。

作者: sekiroooo 时间: 2024-6-27 16:36
一个CCX单元封装了 16个核心共享32ML3 好像只在97X4霄龙能看到吧

作者: FelixIvory 时间: 2024-6-27 16:50
我觉得你理解有点偏差。
大小核不是三缓的问题。单纯是amd只想给c核小三缓。
明年的krackan就是4f+4c共用16m三缓。
c核内部构造有区别导致频率上不去。本质是更少的晶体管，更低的频率，更高的单位面积多核能耗比。

作者: gihu 时间: 2024-6-27 16:55

sekiroooo 发表于 2024-6-27 16:36
一个CCX单元封装了 16个核心共享32ML3 好像只在97X4霄龙能看到吧

zen4c一个ccx最多就16M L3，zen5c才有32M L3

作者: fluttershy 时间: 2024-6-27 16:55
C核就是堆核用的打的就是ARM那些核堆几百的东西频率也不需要很高也能发挥一定原来x86处理环境

作者: netjunegg 时间: 2024-6-27 17:04
本帖最后由 netjunegg 于 2024-6-27 17:06 编辑

最近这几年cpu行业很精彩，彻底告别牙膏时代，intel虽性能没大增，但是一直在尝试新东西，两家都没摆烂，非常好。感觉这几年每代都值得购买

希望两家能发展一下统一内存架构，特别是amd，对普通民用AI比较有利，相对nv也是个很大的优势

另外，感觉intel两三年内有望翻盘领先

作者: gihu 时间: 2024-6-27 17:16

FelixIvory 发表于 2024-6-27 16:50
我觉得你理解有点偏差。
大小核不是三缓的问题。单纯是amd只想给c核小三缓。
明年的krackan就是4f+4c共用16 ...

我是觉得zen X和zen Xc可能也在走向融合，就跟现在intel大小核性能逐渐接近一样。但肯定会有高低频/低高密度的版本。

作者: PolyMorph 时间: 2024-6-27 17:17
如何应对KFC 8+32巨无霸汉堡

作者: sekiroooo 时间: 2024-6-27 17:23
不就是这样吗。zen4C中最小的封装单元16核心 32L3 cache啊

作者: gihu 时间: 2024-6-27 17:27
本帖最后由 gihu 于 2024-6-27 17:28 编辑

sekiroooo 发表于 2024-6-27 17:23
不就是这样吗。zen4C中最小的封装单元16核心 32L3 cache啊

你没仔细看我前面写的，zen4c是一个ccd包含2个ccx，每个ccx 8个内核，16M L3 cache，不同ccx中的L3是难以共用的。
zen5c 直接一个ccd就一个ccx，每个ccx16core，32M L3

作者: csqaclp 时间: 2024-6-27 17:30
好奇zen5c单ccx16核超过8核后多核效率会不会大幅衰减

作者: FelixIvory 时间: 2024-6-27 17:32

gihu 发表于 2024-6-27 17:27
你没仔细看我前面写的，zen4c是一个ccd包含2个ccx，每个ccx 8个内核，16M L3 cache，不同ccx中的L3是难 ...

那strix point的2个ccx真该死。

作者: tim6252 时间: 2024-6-27 17:34

netjunegg 发表于 2024-6-27 17:04
最近这几年cpu行业很精彩，彻底告别牙膏时代，intel虽性能没大增，但是一直在尝试新东西，两家都没摆烂，非 ...

14代对于13还不是牙膏么。。现在还倒吸回去了

作者: panzerlied 时间: 2024-6-27 17:35

FelixIvory 发表于 2024-6-27 17:32
那strix point的2个ccx真该死。

LNL 2CCX, X1E 3CCX

既然不是性能导向的东西，玩法就不受限了。

作者: sekiroooo 时间: 2024-6-27 17:39

gihu 发表于 2024-6-27 17:27
你没仔细看我前面写的，zen4c是一个ccd包含2个ccx，每个ccx 8个内核，16M L3 cache，不同ccx中的L3是难 ...

呃呃，没看清楚前置条件。反正都封装一起。更需要注意的单位面积内计算核心和缓存结构晶体管数量才是厂家该注意的，毕竟芯片代工都是按面积和复杂程度收费的

作者: gihu 时间: 2024-6-27 17:42

csqaclp 发表于 2024-6-27 17:30
好奇zen5c单ccx16核超过8核后多核效率会不会大幅衰减

我也好奇，怎么实现这么多核共用cache的核间通讯延迟问题

作者: netjunegg 时间: 2024-6-27 17:47

tim6252 发表于 2024-6-27 17:34
14代对于13还不是牙膏么。。现在还倒吸回去了

至少不是主动挤牙膏了，而且intel同时还在尝试新的方案和架构，非常大的改变，这种事情代价非常高，挺努力了，没有摆烂

作者: darkness66201 时间: 2024-6-27 17:52

csqaclp 发表于 2024-6-27 17:30
好奇zen5c单ccx16核超过8核后多核效率会不会大幅衰减

你都要用zen5c了，都192核心了，还要双路，那点延迟重要么.......

作者: Illidan2004 时间: 2024-6-27 17:53

gihu 发表于 2024-6-27 17:42
我也好奇，怎么实现这么多核共用cache的核间通讯延迟问题

这玩意可能只有服务器上有面向计算密集型的通讯少一点的
不过或许有其他门道在里面

作者: sekiroooo 时间: 2024-6-27 17:55

FelixIvory 发表于 2024-6-27 17:32
那strix point的2个ccx真该死。

叫这些CCX CCD没啥意思，本质上 strix ai 370 和 8700G APU都是一个晶圆 die上制作的东西，并不是 chiplet 分离式封装。4zen5+8zen5C 的核心本质上是封装一个die里面的

作者: Illidan2004 时间: 2024-6-27 17:58

netjunegg 发表于 2024-6-27 17:04
最近这几年cpu行业很精彩，彻底告别牙膏时代，intel虽性能没大增，但是一直在尝试新东西，两家都没摆烂，非 ...

牙膏确实也有在实验新东西  只是感觉出来总是比预期差点
而且丢掉了长久以来的稳定性  （大小核调度导致的兼容性和波动性拉胯的睿频机制冲高频导致的产品稳定性）  就是感觉产品和技术没法很好结合被对手们弄慌了阵脚
因为牙膏也到了要是某一代和以前AMD一样落后较多估价进一步大跌的程度  不得不都做点文章但实际上也许纯技术角度还不如闭关一下几年搞出一个大的要发展的更好

作者: gihu 时间: 2024-6-27 18:00

sekiroooo 发表于 2024-6-27 17:55
叫这些CCX CCD没啥意思，本质上 strix ai 370 和 8700G APU都是一个晶圆 die上制作的东西，并不是 chipl ...

你去查一下zen2 一个ccd内两个ccx的core间延迟就知道了，这也是为何zen3相对zen2有那么大性能提升

作者: gihu 时间: 2024-6-27 18:04

Illidan2004 发表于 2024-6-27 17:58
牙膏确实也有在实验新东西只是感觉出来总是比预期差点
而且丢掉了长久以来的稳定性（大小核调度导 ...

牙膏在新标准的创立上跟老黄一样，都是业界抗鼎。但芯片架构上，是落后对家太多了。

作者: xjr12000 时间: 2024-6-27 18:15

tim6252 发表于 2024-6-27 17:34
14代对于13还不是牙膏么。。现在还倒吸回去了

12 13 14本质上只是一代而已

作者: netjunegg 时间: 2024-6-27 18:20

Illidan2004 发表于 2024-6-27 17:58
牙膏确实也有在实验新东西只是感觉出来总是比预期差点
而且丢掉了长久以来的稳定性（大小核调度导 ...

是啊，除了苹果，其他公司包括微软谷歌，都经常拿出这种不够成熟的东西给用户使用，这方面不如苹果

大小核是个挺大的改变，arm和安卓这方面积累了十几年经验，wintel联盟一下子难搞好

intel也是被逼急了，各种折腾，不过想搞出成绩来，可能还需要时间，两三年内有希望

作者: alieshex 时间: 2024-6-27 18:39
一切猜想看gaa对缓存使用面积能优化多少，不然只能减配上核心
最近几代工艺，工艺提升基本没法减少缓存面积，而缓存是决定性能的关键因素之一，这才是核数卡住的原因之一

作者: Illidan2004 时间: 2024-6-27 18:39
标题: ，
本帖最后由 Illidan2004 于 2024-7-2 10:30 编辑

我的理解是这样的

ZEN1  每个CCX最多4核共享8M L3，2个CCX构成1个CCD，最多4个CCD用6条总线相连构成整个U，总共最多32核和64M L3

ZEN2  每个CCX最多4核共享16M L3，2个CCX构成1个CCD，最多8个CCD+IOD构成整个U，总共最多64核和256M L3

ZEN3  每个CCX最多8核共享32M L3，1个CCX构成一个CCD，最多8个CCD+IOD构成整个U，总共最多64核和256M L3

ZEN4  每个CCX最多8核共享32M L3，1个CCX构成一个CCD，最多12个CCD+IOD构成整个U，总共最多96核和384M L3

ZEN4C 每个CCX最多8核共享16M L3，2个CCX构成1个CCD，最多8个CCD+IOD构成整个U，总共最多128核和256M L3

ZEN5  每个CCX最多8核共享32M L3，1个CCX构成1个CCD，最多16个CCD+IOD构成整个U，总共最多128核和512M L3

ZEN5C 每个CCX最多16核共享32M L3，1个CCX构成1个CCD，最多12个CCD+IOD构成整个U，总共最多192核和384M L3

ZEN6C（预计）每个CCX最多32核共享64M L3，1个CCX构成1个CCD，最多8个CCD堆叠在IOD上构成整个U，总共最多256核和512M L3

作者: zlcrxp 时间: 2024-6-27 18:51
直接上图吧
(, 下载次数: 42)
(, 下载次数: 69)
(, 下载次数: 51)

作者: zhuifeng88 时间: 2024-6-27 19:15

Illidan2004 发表于 2024-6-27 18:39
我的理解是这样的这个表后面的c 16和32有点无法理解
按照我了解的信息预测

哪怕不考虑ccd和ccx说反了
除了zen3和zen5以外没一行是对的以外说的挺好的

作者: YoshinoSakura 时间: 2024-6-27 19:36
本帖最后由 YoshinoSakura 于 2024-6-27 19:37 编辑

这就来断章取义了

农企也不求另辟蹊径，让牙膏出头，自己甘当追随者

zen4的本体相对zen3没有本质变化

zen5本体依然是zen3

作者: gihu 时间: 2024-6-27 19:49

YoshinoSakura 发表于 2024-6-27 19:36
这就来断章取义了

断章取义的不是你吗？

作者: af_x_if 时间: 2024-6-27 20:08
其实16核还好，Zen5c相比Zen5缓存吞吐量需求只有一半，完全可以类似英特尔小核一拖四那样搞一拖二。

作者: melancholy05 时间: 2024-6-27 21:52
本帖最后由 melancholy05 于 2024-6-27 21:53 编辑

gihu 发表于 2024-6-27 18:04
牙膏在新标准的创立上跟老黄一样，都是业界抗鼎。但芯片架构上，是落后对家太多了。 ...

纯粹的计算架构来说牙膏并没有落后对家，主要是市场策略的失败，不肯让利又不肯放弃灰烬高频营销噱头，农企的成功主要在于iodie胶水灵活配置规模，不盲目追求频率，不浪费钱在市场营销上，拥有更高的良率及更好的成本控制，本质上是商业决策的成功

作者: Montelucast 时间: 2024-6-27 22:17
zen5c和普通zen5核就是分别用了fab的高密度库和高性能库，两种取向，分别适应高密度和高性能两种需求

作者: 威尼斯睡裤 时间: 2024-6-27 22:21

PolyMorph 发表于 2024-6-27 17:17
如何应对KFC 8+32巨无霸汉堡

不会有8+32了

作者: gihu 时间: 2024-6-27 22:28

af_x_if 发表于 2024-6-27 20:08
其实16核还好，Zen5c相比Zen5缓存吞吐量需求只有一半，完全可以类似英特尔小核一拖四那样搞一拖二。 ...

你说的zen5c是不是特指strix point里的zen5c？说不定turin版的zen5c并没有吞吐量及浮点位宽减半？
另外，如果是像gracemont那样，应该是双核/四核共用L2，架构图里应该能看出来，不会是现在这样的布局。

作者: gihu 时间: 2024-6-28 11:45

xjr12000 发表于 2024-6-27 18:15
12 13 14本质上只是一代而已

13代是12代的优化改款，扩大的L1、L2容量，稍稍增加了流水线长度，使得能上到更高频率，增加了ring bus的频率，小核性能也有所改善。所以13相对12代，IPC也有所提升。
但14代就是13代的改名，不说制程没变，就连步进都是一样的。
所以说12、13不是一代，但13、14代是真的同一代。

作者: af_x_if 时间: 2024-6-28 11:49

gihu 发表于 2024-6-27 22:28
你说的zen5c是不是特指strix point里的zen5c？说不定turin版的zen5c并没有吞吐量及浮点位宽减半？
另外， ...

如果你信主楼的图，那浮点就是减半的。

作者: Illidan2004 时间: 2024-6-28 13:22

gihu 发表于 2024-6-28 11:45
13代是12代的优化改款，扩大的L1、L2容量，稍稍增加了流水线长度，使得能上到更高频率，增加了ring bus的 ...

笔记本上如果是 H 好像13比12也没有多L1和L2

作者: Illidan2004 时间: 2024-6-28 13:50

zhuifeng88 发表于 2024-6-27 19:15
哪怕不考虑ccd和ccx说反了
除了zen3和zen5以外没一行是对的以外说的挺好的

查了一些资料修了下帮我看看还有啥错误

作者: 5d5588cf 时间: 2024-6-28 14:36

gihu 发表于 2024-6-27 17:42
我也好奇，怎么实现这么多核共用cache的核间通讯延迟问题

跟haswell/braodwell-ep一样弄在dual ring之间直接弄个bridge就好了，没必要强行弄个16 stop ring出来。

作者: YoshinoSakura 时间: 2024-6-28 14:37

gihu 发表于 2024-6-27 19:49
断章取义的不是你吗？

对啊，是我啊

作者: gihu 时间: 2024-6-28 14:37

Illidan2004 发表于 2024-6-28 13:22
笔记本上如果是 H 好像13比12也没有多L1和L2

移动端的有135，136有12代的马甲U，所以用的仍然还是12代的核心，和真13代性能差距蛮大的。
https://www.bilibili.com/read/cv21051684/

作者: Illidan2004 时间: 2024-6-28 14:46

gihu 发表于 2024-6-28 14:37
移动端的有135，136有12代的马甲U，所以用的仍然还是12代的核心，和真13代性能差距蛮大的。
https://www. ...

有些规格差不多内存支持不一致也分不清是不是高级马甲了
至少我觉得那些也基本只能当成12代翻版

作者: gihu 时间: 2024-6-28 15:12

Illidan2004 发表于 2024-6-28 14:46
有些规格差不多内存支持不一致也分不清是不是高级马甲了
至少我觉得那些也基本只能当成12代翻版 ...

我们一般讨论12，13代的差别，主要是指12代Alder lake架构和13代Raptor lake架构以及12、13代大核心alder cove和raptor lake的差别，性能差距还是比较明显的。包含移动端真13代处理器在相同性能下比12代同规模核心要更省电。

作者: Illidan2004 时间: 2024-6-28 15:34

gihu 发表于 2024-6-28 15:12
我们一般讨论12，13代的差别，主要是指12代Alder lake架构和13代Raptor lake架构以及12、13代大核心alder ...

主要是有些移动端比如12900H和13900H  虽然后者是Raptor
但是数据显示L2和L3并没有变化（TPU的数据不对，实际软件看出来两者L2都是 6*1.25+2，而不是真正Raptor的6*2+3，可见大核小核还是用的Alder 只是也许工艺有改进）只有13的省电要好一些  性能IPC也基本没有差距，唯一差别是前者内存4800，后者更高。

只有和桌面一样的HX系列，12和13会有明显差距。

所以我一直自己认为不考虑省电因素  不考虑我要更高频率更高性能  单纯IPC角度 12900H和13900H是一样的。。。

作者: gihu 时间: 2024-7-1 19:03

Illidan2004 发表于 2024-6-27 18:39
我的理解是这样的这个表后面的c 16和32有点无法理解
按照我了解的信息预测

最后这个zen5C应该还是错的，如果我贴的那个彩色表格没错的话，一个ccd包含两个及以上ccx的，只有zen1、zen2、zen4c，zen5c一个ccd就一个ccx

作者: Illidan2004 时间: 2024-7-2 10:18
本帖最后由 Illidan2004 于 2024-7-2 10:27 编辑

gihu 发表于 2024-7-1 19:03
最后这个zen5C应该还是错的，如果我贴的那个彩色表格没错的话，一个ccd包含两个及以上ccx的，只有zen1、z ...

查了下确实有消息说是16核，正常来说ring超过12核延迟就炸，难道内部还有更高级的连接方式，类似双ring？

(, 下载次数: 46)

作者: af_x_if 时间: 2024-7-2 10:30

Illidan2004 发表于 2024-7-2 10:18
查了下确实有消息说是16核，正常来说ring超过12核延迟就炸，难道内部还有更高级的连接方式，类似双ring？ ...

下一代还有new 32 core complex呢

作者: gihu 时间: 2024-7-2 10:56

af_x_if 发表于 2024-7-2 10:30
下一代还有new 32 core complex呢

我总觉得32核不用3d 堆叠的话完全没有效率

欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/)