找回密码
 加入我们
搜索
      
楼主: shawnwinton

[CPU] 分Die是不是已经到了尽头

[复制链接]
发表于 2024-8-19 19:35 | 显示全部楼层
8owd8wan 发表于 2024-8-19 19:27
是的啊,权衡之后,为了服务器,就做mesh了。
inter很清楚。
Ring:延迟低,带宽大,成本低,核间互联爽 ...

所以我觉得AMD现在的搭配是正确的。

芯片内用Ring,芯片外用普通总线。

如果有高带宽需求,就用3D缓存,实现超大容量的L3

Zen5C的小核集群,估计会尝试mesh,但mesh比较占硅片面积。
有可能AMD会吃螃蟹,16个小核套在两个Ring里面

牙膏厂很早以前就有12个核心套在两个Ring里面的设计
Xeon Si.png
去掉内存控制器和PCI-E控制器,其实塞16个核心也差不多。
发表于 2024-8-19 19:46 | 显示全部楼层
H100的核心芯片成本 200usd, cowos封装 600usd

这样的高级货出了,你们买不买
发表于 2024-8-19 19:52 来自手机 | 显示全部楼层
最近看论文 看到几个硅上互联方案
si-if
silicon interposer
info-sow
不过不知道成本怎么样,还有成熟度
发表于 2024-8-19 20:00 | 显示全部楼层
8owd8wan 发表于 2024-8-19 17:52
也许这对服务器CPU是有意义,但是如果桌面,发热不知道会不会是个瓶颈?高频上不去,一切都枉然吧。

我 ...

互联是一码事,两块硅片粘一起是另一码事,一码归一码。更何况对于桌面来说,至少互联功耗低了,另一方面核心间通讯延迟也低了,对于桌面端是明显有好处。

至于温度根本就不是个问题,说白了还是看着温度高杞人忧天而已,zen4看着温度高,但是从来没成为制约性能发挥,反而隔壁牙膏厂就因为功耗翻车,zen5也进一步改进了这个问题,说白了真有需要打磨一下硅片厚度,改一下钎焊材料就好了,正常情况下发热根本就不是个问题。更何况现在高频上不去也不是温度问题,本质上工艺就没法支持6G+的频率。
发表于 2024-8-19 20:00 | 显示全部楼层
af_x_if 发表于 2024-8-19 19:35
所以说看这个16核一个CCX的Zen5c怎么实现的呀。


物理面积上是两个zen5c占一个zen5的宽度。至于是不是和intel一样公用一个端口就不知道了
发表于 2024-8-19 20:06 | 显示全部楼层
Mufasa 发表于 2024-8-19 19:35
所以我觉得AMD现在的搭配是正确的。

芯片内用Ring,芯片外用普通总线。

是的,但是现在单ring+铜互连大概也走到尽头了,zen5c铜互联已经去到16个CCD了。所以估计zen6要进一步加核心也得改,我估计可能也是用双ring+铜互联,或者两个ring+硅内部互联+铜互联,mesh我猜应该不太会。这样可以继续用铜互联不用搞cowos。
发表于 2024-8-19 20:13 | 显示全部楼层
OstCollector 发表于 2024-8-19 19:52
最近看论文 看到几个硅上互联方案
si-if
silicon interposer

不用硅上互联,用gpu上面的fanout就能做到10x带宽了
发表于 2024-8-19 20:31 来自手机 | 显示全部楼层
wjm47196 发表于 2024-8-19 20:13
不用硅上互联,用gpu上面的fanout就能做到10x带宽了

GPU 取胜之道是并行,飙频率人家不玩
人家带宽要求高,延迟不是很关心

这 CPU 的价值取向,完全不是一个路数
发表于 2024-8-19 20:34 | 显示全部楼层
wjm47196 发表于 2024-8-19 20:13
不用硅上互联,用gpu上面的fanout就能做到10x带宽了

套两层娃吗?在我看来cpu基板不就是这东西吗
发表于 2024-8-19 20:36 | 显示全部楼层
alieshex 发表于 2024-8-19 20:34
套两层娃吗?在我看来cpu基板不就是这东西吗

本质上是还是铜互联,但是增加互联触点数加大了带宽
发表于 2024-8-19 20:48 | 显示全部楼层
wjm47196 发表于 2024-8-19 20:36
本质上是还是铜互联,但是增加互联触点数加大了带宽

pcb铜互联应该到极限了。是ccd尺寸太小,得上硅才能进一步减少。感觉下一代应该不会直接上CoWoS,有可能是类似EMIB的东西。
发表于 2024-8-19 20:48 | 显示全部楼层
alieshex 发表于 2024-8-19 20:48
pcb铜互联应该到极限了。是ccd尺寸太小,得上硅才能进一步减少。感觉下一代应该不会直接上CoWoS,有可能 ...

emib也是pcb铜互连。。。。
发表于 2024-8-19 20:59 | 显示全部楼层
wjm47196 发表于 2024-8-19 20:48
emib也是pcb铜互连。。。。

emmm,类似。
cowos成本太高,直接iod堆叠ccd那epyc咋办,它iod应该没这么大吧。
类似于emib,在基板上扣一块硅,然后解决定位问题,看上去比较实际
发表于 2024-8-19 21:17 来自手机 | 显示全部楼层
alieshex 发表于 2024-8-19 20:59
emmm,类似。
cowos成本太高,直接iod堆叠ccd那epyc咋办,它iod应该没这么大吧。
类似于emib,在基板上扣 ...

最实际的方案是什么都不要动,两个ccd粘一起走硅内部互联,ccd 内核心数立马翻倍,外部继续走铜互联,单个ccd接口翻倍,不用做16个ccd ,做12个ccd,核心数增加50%到192核.......
发表于 2024-8-19 21:33 | 显示全部楼层
darkness66201 发表于 2024-8-19 21:17
最实际的方案是什么都不要动,两个ccd粘一起走硅内部互联,ccd 内核心数立马翻倍,外部继续走铜互联,单 ...

????if总线咋办。问题不在ccd里面,在iod和ccd之间。
再说ccd内部,学zen2,ccd里两ccx内部互联也不是不可以
现有8核ccd基本满足需要高频的情况,需要核心数的看之后zen5c的情况再说。
但问题是带宽。yc作者都说了,得搞定ddr5 20000   =_=  他结论是两ccd zen5需要的带宽是提供的4倍,虽然是avx512,但是普通情况也只是小一点。铜线能救if吗。。。。
发表于 2024-8-19 21:47 来自手机 | 显示全部楼层
alieshex 发表于 2024-8-19 21:33
????if总线咋办。问题不在ccd里面,在iod和ccd之间。
再说ccd内部,学zen2,ccd里两ccx内部互联也不 ...

不是说了嘛,单ccd接口翻倍啊,实际上也没变,因为本身现在一个ccd就有两个gmi接口,只是受限于iod,所以桌面端和多核心数的EPYC只能用一个接口,而低核心数的EPYC可以使用wide mode两个接口全开,现在两个ccx拼起来之后,不就是四个接口嘛,只要增加iod上面的借口数就好了,都是现成的技术,if带宽立刻翻倍。至于内存,都zen6了,给个16通道+ddr5 6400也没有很过分吧,zen4才4800,带宽就接近翻倍了,缓存再稍稍改改凑合一下,搞定.......
发表于 2024-8-19 22:03 | 显示全部楼层
wjm47196 发表于 2024-8-19 20:13
不用硅上互联,用gpu上面的fanout就能做到10x带宽了

ASE的FOPLP?
发表于 2024-8-19 22:07 | 显示全部楼层
darkness66201 发表于 2024-8-19 21:47
不是说了嘛,单ccd接口翻倍啊,实际上也没变,因为本身现在一个ccd就有两个gmi接口,只是受限于iod,所以 ...

好像也可以,只要cpu基板还有足够的布线空间。
但我还是想问,epyc咋办。桌面可都是捡漏的,改改能救就行,但epyc吃不满可是大问题
发表于 2024-8-19 22:15 来自手机 | 显示全部楼层
alieshex 发表于 2024-8-19 22:07
好像也可以,只要cpu基板还有足够的布线空间。
但我还是想问,epyc咋办。桌面可都是捡漏的,改改能救就行 ...

numa 架构,每个簇各玩各的啊。
四路八路服务器端,甚至 power 之类当年 16 路,32 路,64 路,不也这么一路走过来了么?服务端软件,numa 都适应了几十年了,分路 CPU 都无所谓,更别提跨几个 CCD 了
发表于 2024-8-19 22:19 | 显示全部楼层
8owd8wan 发表于 2024-8-19 22:15
numa 架构,每个簇各玩各的啊。
四路八路服务器端,甚至 power 之类当年 16 路,32 路,64 路,不也这么 ...

emmm,我的意思是严重卡带宽咋办。服务器严重卡带宽是我基本没见到过的情况
发表于 2024-8-19 22:20 | 显示全部楼层
记得好几年前论坛就聊过铜互连已经到了瓶颈了.那时候的说法是大英是用某种稀有金属在代替...后来说是成本太高放弃的...
发表于 2024-8-19 22:27 来自手机 | 显示全部楼层
8owd8wan 发表于 2024-8-19 06:27
是的啊,权衡之后,为了服务器,就做mesh了。
inter很清楚。
Ring:延迟低,带宽大,成本低,核间互联爽 ...

想要上限高重要的是软件层面的分布式。tpch第一名是三万多核心,Hana连跑都不敢跑
发表于 2024-8-19 22:28 来自手机 | 显示全部楼层
Mufasa 发表于 2024-8-19 06:35
所以我觉得AMD现在的搭配是正确的。

芯片内用Ring,芯片外用普通总线。

芯片外也是ring,iod的ring套着CCD的ring
发表于 2024-8-19 22:43 | 显示全部楼层
alieshex 发表于 2024-8-19 22:07
好像也可以,只要cpu基板还有足够的布线空间。
但我还是想问,epyc咋办。桌面可都是捡漏的,改改能救就行 ...

我说的就是EPYC的思路啊,布线空间不是问题,本身现阶段EPYC就已经有wide mode了,CCD和IOD之间是可以塞下翻倍的带宽的,也就是说布线的空间就不是问题。内存也不是问题,要知道7003系列只有八通道DDR4 3200总带宽204GB/s,9004引入12通道DDR5 4800之后有460GB/S,带宽翻了一倍都不止,zen5现在还不知道(当然已知没有大改),如果zen6按照我说的192大核来算,十六通道DDR5 6400可以提供817GB/s的内存带宽,带宽虽然不如zen4充裕,但是单位算力也比zen3多不少。还是嫌带宽不够用?买少核心版本不就够用了,现在也是这样的啊,有更大的内存带宽需求,瓶颈在内存带宽而不是计算能力的话,就买更少核心数,或者上x3D,当然你说AMD大发善心给24通道嘛,反正我看不大可能......

当然了,你说上Cowos+HBM+超多通道DDR5,那这些都不是问题,MI300不就这么玩,但是你说有多大可能性嘛.......只能说只要给钱一切皆有可能,但是零售的大路货EPYC嘛.......
发表于 2024-8-19 22:53 来自手机 | 显示全部楼层
赫敏 发表于 2024-8-19 22:27
想要上限高重要的是软件层面的分布式。tpch第一名是三万多核心,Hana连跑都不敢跑 ...

就算单体软件,服务端那些中间件,数据库,也得实现 numa 亲和性。记得很久很久以前, MySQL  就出过的一个 bug,numa 架构下,malloc 内存不分近端和远端,导致性能抖动。我当时还寻思着,咋 oracle 在多路服务器/小机下就不会性能抖动呢?直到翻到邮件组里谈 numa 下内存申请策略才明白,打上补丁,问题解决
发表于 2024-8-19 22:54 来自手机 | 显示全部楼层
alieshex 发表于 2024-8-19 22:19
emmm,我的意思是严重卡带宽咋办。服务器严重卡带宽是我基本没见到过的情况 ...

多路服务器/小型机 的 numa  节点之间,带宽也卡
发表于 2024-8-19 23:01 | 显示全部楼层
darkness66201 发表于 2024-8-19 22:43
我说的就是EPYC的思路啊,布线空间不是问题,本身现阶段EPYC就已经有wide mode了,CCD和IOD之间是可以塞 ...

sp5都加大面积了,布线咋还不是问题,总不可能供电线才是吧
卡带宽不是卡内存而是卡cpu内部。。现在至少12ccd 对应12通道,fclk2000 60GB的应付单通道ddr5还是够的。817/16=51
但是之后还不改fclk估计可能就不够了。将就用的话,指不定出现性能参考点是内存而不是cpu这笑话
发表于 2024-8-19 23:06 | 显示全部楼层
8owd8wan 发表于 2024-8-19 22:54
多路服务器/小型机 的 numa  节点之间,带宽也卡


互联卡没问题。但是相加总带宽卡在cpu内应该挺少见的吧
发表于 2024-8-19 23:15 来自手机 | 显示全部楼层
本帖最后由 8owd8wan 于 2024-8-19 23:20 编辑
alieshex 发表于 2024-8-19 23:06
互联卡没问题。但是相加总带宽卡在cpu内应该挺少见的吧


何以见得卡在 CPU 内?就为了那点延迟……不理解,真不理解那些喊延迟高的人,到底是何等需求🤔 (除了游戏党,但我寻思着打游戏貌似也不用 16 核,32 核,64 核……)
尤其是曾经用过16 路 power 7 ,更不理解你们说的那点簇间延迟,对实际生产力造成了多大困扰……

说说你们的实际生产困扰吧,我个人的认知可能不够...
发表于 2024-8-19 23:17 | 显示全部楼层
8owd8wan 发表于 2024-8-19 09:53
就算单体软件,服务端那些中间件,数据库,也得实现 numa 亲和性。记得很久很久以前, MySQL  就出过的一 ...

mysql,oracle,sql server,db2这些本身不是分布式所以用numa连起来。但numa本身超过2路也就求个自我安慰,实际性能提升很小甚至倒退。价格仍然直线上升

分布式的本身节点不用那么大,否则就违背初衷了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 00:16 , Processed in 0.012567 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表