找回密码
 加入我们
搜索
      
查看: 4549|回复: 30

[CPU] AMD的infinite fabric越看越像个怪物

[复制链接]
发表于 2024-10-21 10:27 | 显示全部楼层 |阅读模式
就算是默认的JEDEC 4800,A家的延迟也就80-90ns。如果那个泄露的U2 XMP默认下的内存性能图是真的,再考虑到F总线走线距离是远大于intel的这种互联封装的,恐怕if总线与i家的互联技术已经拉开了两代的差距。这到底是怎么做到的?我记得if总线诞生之后就没有大改了,这是17年的技术啊。
发表于 2024-10-21 10:34 | 显示全部楼层
IF总线是给服务器用的,多个CCD互联性能几乎线性增加,而且几乎没啥BUG

拿来民用就是为了省成本,没别的想法
发表于 2024-10-21 10:34 | 显示全部楼层
intel也开始走上和amd类似的路子之后 发现amd这IF总线看着挺普通的 但是还真挺强的
发表于 2024-10-21 10:35 | 显示全部楼层
AMD 可以 服务器+民用 一鱼两吃
intel还得搞两套架构,就问你怕不怕
发表于 2024-10-21 10:36 | 显示全部楼层
互联技术和通信效率现阶段根本就没关系 (理论上限当然有关系)
你看 strix point 整个就是 monolithic, 延迟还是那样
发表于 2024-10-21 10:37 来自手机 | 显示全部楼层
别急,我问了厂商说是不理解为撒我测的那么高他们自己是90多,反正就是各方各面跟Zen5你来我去…不…是眉来眼去…
发表于 2024-10-21 10:37 | 显示全部楼层
广义上来说,这个技术甚至可以追溯到Hyper Transport去。

一分耕耘一分收获。
 楼主| 发表于 2024-10-21 10:38 | 显示全部楼层
本帖最后由 sinopart 于 2024-10-21 10:40 编辑
nApoleon 发表于 2024-10-21 10:37
别急,我问了厂商说是不理解为撒我测的那么高他们自己是90多,反正就是各方各面跟Zen5你来我去…不…是眉来眼 ...


如果是这样,可能是部分小参优化的问题?板厂的BIOS还得调调
90ns也非常高了。
如果真是117ns,感觉应该是要比PPT上的游戏性能还要差才对。希望不是这样。
发表于 2024-10-21 10:40 | 显示全部楼层
nApoleon 发表于 2024-10-21 10:37
别急,我问了厂商说是不理解为撒我测的那么高他们自己是90多,反正就是各方各面跟Zen5你来我去…不…是眉来眼 ...

看样子还没开测游戏的阶段呐?
发表于 2024-10-21 10:40 | 显示全部楼层
mofeielva 发表于 2024-10-20 21:35
AMD 可以 服务器+民用 一鱼两吃
intel还得搞两套架构,就问你怕不怕

三套。服务器大核一套,小核一套,桌面大小核再一套
发表于 2024-10-21 10:44 | 显示全部楼层
本帖最后由 KimmyGLM 于 2024-10-21 10:46 编辑
赫敏 发表于 2024-10-21 10:40
三套。服务器大核一套,小核一套,桌面大小核再一套


LNL已经明确不会有后续,桌面和移动端以后估计是深度融合了。

感觉两家的发展路线要开始镜像了
发表于 2024-10-21 10:45 | 显示全部楼层
降本增效,服务器技术不含臭打游戏
发表于 2024-10-21 10:47 来自手机 | 显示全部楼层
轮大总线频率多少?是不是总线频率低的原因.看披露的信息,说是这一代总线3500-3800MHZ,13/14代基本4500左右。
发表于 2024-10-21 10:47 | 显示全部楼层
服务器看重的是带宽吧,应该不会对延迟有什么优化
发表于 2024-10-21 10:54 来自手机 | 显示全部楼层
yy323818 发表于 2024-10-21 10:47
轮大总线频率多少?是不是总线频率低的原因.看披露的信息,说是这一代总线3500-3800MHZ,13/14代基本4500左 ...

确实3.8…
发表于 2024-10-21 11:08 来自手机 | 显示全部楼层
哦哦,那就说明问题了,总线频率低,L3也跟着慢了,再加上内存控制器分离设计,游戏不拉才怪。
发表于 2024-10-21 11:14 | 显示全部楼层
KimmyGLM 发表于 2024-10-21 10:44
LNL已经明确不会有后续,桌面和移动端以后估计是深度融合了。

感觉两家的发展路线要开始镜像了 ...

一代又放弃了?
发表于 2024-10-21 11:14 | 显示全部楼层
yy323818 发表于 2024-10-21 11:08
哦哦,那就说明问题了,总线频率低,L3也跟着慢了,再加上内存控制器分离设计,游戏不拉才怪。 ...

不如说能跑出这个游戏说明别的部分已经很猛了?
发表于 2024-10-21 11:15 | 显示全部楼层

小核的更替不会放弃,只是说做成单独SKU以后不会再这么弄了。
ARL-U 会接替
发表于 2024-10-21 11:17 | 显示全部楼层
本帖最后由 tengyun 于 2024-10-21 11:19 编辑
KimmyGLM 发表于 2024-10-21 11:15
小核的更替不会放弃,只是说做成单独SKU以后不会再这么弄了。
ARL-U 会接替 ...



小核有12代的IPC,那么直接纯32核物理, 多线程干9950X?

大核架构到头了,面积比太烂了。面多+水 水多+面
发表于 2024-10-21 11:21 | 显示全部楼层
本帖最后由 csnb 于 2024-10-21 11:23 编辑

**Infinity Fabric**(**IF**)是AMD专有的系统互连架构,它促进了所有连接组件之间的数据和控制传输。这种架构被AMD最新的微架构用于CPU(例如,Zen)和图形(例如,Vega),以及他们未来可能添加的任何其他加速器。该架构最初由AMD的高级副总裁兼首席技术官Mark Papermaster在2017年4月宣布并详细说明。

## 目录

- 1 概述
- 2 可扩展数据结构(SDF)
  - 2.1 CAKE
  - 2.2 SerDes
    - 2.2.1 IFOP
    - 2.2.2 IFIS
- 3 可扩展控制结构(SCF)
- 4 实施
  - 4.1 Zen
- 5 参见
- 6 参考文献

## 概述



无限结构由两个独立的通信平面组成——无限**可扩展数据结构**(**SDF**)和无限**可扩展控制结构**(**SCF**)。SDF是系统内数据流动的主要方式,连接端点(例如NUMA节点,PHYs)。SDF可能有数十个连接点,连接诸如PCIe PHYs、内存控制器、USB集线器以及各种计算和执行单元。SDF是以前HyperTransport的超集。SCF是一个补充平面,负责传输许多杂项系统控制信号——包括诸如热管理和电源管理、测试、安全和第三方IP等。

在基于Zeppelin SoC和Zen核心的AMD处理器的情况下,SDF的块图在右侧显示。两个CCX直接使用**缓存一致性主**(**CCM**)连接到SDF平面,它提供了核心之间缓存数据传输的机制。还有一个单一的**I/O主/从**(IOMS)接口用于I/O集线器通信。该集线器包含两个PCIe控制器、一个SATA控制器、USB控制器、以太网控制器和南桥。从操作的角度来看,IOMS和CCM实际上是唯一能够发起DRAM请求的接口。

DRAM连接到DDR4接口,该接口连接到统一内存控制器(UMC)。每个DDR通道有两个统一内存控制器(UMC),它们也直接连接到SDF。值得注意的是,所有SDF组件都以DRAM的MEMCLK频率运行。例如,使用DDR4-2133的系统将使整个SDF平面以1066 MHz的频率运行。这是AMD为了消除时钟域延迟而做出的基本设计选择。

## 可扩展数据结构(SDF)



无限可扩展数据结构(SDF)是无限结构的数据通信平面。所有来自核心和到其他外设(例如内存控制器和I/O集线器)的数据都通过SDF路由。相干数据结构的一个关键特性是它不仅限于单个芯片,并且可以扩展到MCP上的多个芯片以及通过PCIe链路上的多个插座(甚至可能跨越独立系统,尽管这仅仅是猜测)。连接在结构上的节点的拓扑没有限制,可以直接节点到节点通信,在总线拓扑中进行跳跃,或者作为网格拓扑系统。

在基于Zeppelin SoC和Zen核心的AMD处理器的情况下,SDF的块图在右侧显示。两个CCX直接使用**缓存一致性主**(**CCM**)连接到SDF平面,它提供了核心之间缓存数据传输的机制。还有一个单一的**I/O主/从**(IOMS)接口用于I/O集线器通信。该集线器包含两个PCIe控制器、一个SATA控制器、USB控制器、以太网控制器和南桥。从操作的角度来看,IOMS和CCM实际上是唯一能够发起DRAM请求的接口。

DRAM连接到DDR4接口,该接口连接到统一内存控制器(UMC)。每个DDR通道有两个统一内存控制器(UMC),它们也直接连接到SDF。值得注意的是,所有SDF组件都以DRAM的MEMCLK频率运行。例如,使用DDR4-2133的系统将使整个SDF平面以1066 MHz的频率运行。这是AMD为了消除时钟域延迟而做出的基本设计选择。

### CAKE

在SDF和连接多个芯片和多个芯片的SerDes之间的工作机制是CAKE。**Coherent AMD socKet Extender**(**CAKE**)模块将本地SDF请求编码到每个周期的128位序列化数据包上,并通过任何SerDes接口发送。响应也由CAKE解码回SDF。与连接到SDF的所有其他内容一样,CAKE以DRAM的MEMCLK频率运行,以消除时钟域交叉延迟。

### SerDes



无限可扩展数据结构(SDF)采用两种不同类型的SerDes链路——**无限结构封装内**(**IFOP**)和**无限结构封装间**(**IFIS**)。

#### IFOP

**无限结构封装内**(**IFOP**)SerDes处理同一封装内的芯片到芯片通信。AMD设计了一个相当直接的定制SerDes,适用于短封装内跟踪长度,可以实现大约2 pJ/b的功耗效率。这是通过使用32位低摆幅单端数据传输和差分时钟完成的,其功耗大约是等效差分驱动的一半。它们利用TX/RX阻抗终止到地的零功耗驱动状态,同时禁用驱动上拉。这允许传输零比传输一消耗更少的功率,当链路空闲时也利用了这一点。另外,还使用了反相编码以节省每比特平均10%的功率。

由于封装内链路对性能敏感,IFOP链路相对于DDR4通道带宽超额配置了大约两倍,用于混合读写流量。它们是双向链路,每个数据周期都传输CRC。IFOP SerDes每个CAKE时钟进行四次传输。



由于CAKE以与DRAM的MEMCLK频率相同的频率运行,因此带宽完全取决于该频率。对于使用DDR4-2666 DIMM的系统,这意味着CAKE将以1333.33 MHz的频率运行,意味着IFOP将具有42.667 GB/s的双向带宽(=每个方向每时钟16B)。

#### IFIS

**无限结构封装间**(**IFIS**)SerDes是第二种类型,用于封装到封装通信,例如在双向多处理中。IFIS设计成可以与PCIe和SATA等其他协议复用。它们在TX/RX 16差分数据通道上运行,大约11 pJ/b。这些链路也与标准PCIe通道的封装引脚排列对齐。由于它们是16位宽,因此每个CAKE时钟运行8次传输。与IFOP相比,IFIS链路的带宽为8/9。



对于使用DDR4-2666 DIMM的系统,CAKE将以1333.33 MHz的频率运行,这意味着IFIS将具有37.926 GB/s的双向带宽。

## 可扩展控制结构(SCF)

_另见:Zen § 系统管理单元_

无限**可扩展控制结构**(**SCF**)是无限结构的控制通信平面。SCF将系统管理单元(SMU)连接到各种组件。SCF拥有自己的专用IFIS SerDes,允许系统内多个芯片的SCF相互通信。SCF还扩展到多路多处理配置中的第二插座上的芯片。

References
AMD Infinity Fabric introduction by Mark Papermaster, April 6, 2017
AMD EPYC Tech Day, June 20, 2017
IEEE ISSCC 2018
发表于 2024-10-21 11:23 | 显示全部楼层
tengyun 发表于 2024-10-21 11:17
小核有12代的IPC,那么直接纯32核物理, 多线程干9950X?

大核架构到头了,面积比太烂了。面多+水 水多 ...

现在大核纯粹为了单线程跑分不落后的。。
等小核足够强 就可以扔掉大核了
发表于 2024-10-21 11:30 来自手机 | 显示全部楼层
lion cove 核心规格看着还可以啊,
①前端由6升到8解码,
②后端由12升级到18个处理单(整数浮点分离设计6整数+4浮点),
③ROB由513升级到576,
④L1大小不变32+48K,延迟由5个周期提升到4个周期,
⑤新增加了个L1.5  大小192K,延迟9个周期。
⑥L2大小由2M提升到3M,延迟由16增加到17个周期。
⑦L3 大小36M不变。
看着这些规格,按道理不可能拉啊!
看着这硬件规格没理由拉啊!但是大小核,核心排布变了,总线频率降了,增加了核心延迟和L3延迟,同时内存控制器分离设计,这一些骚操作导致了生产力还行,游戏性能下架降的结果。纯粹就是把移动端的CPU架构硬搬到桌面端了。既节省设计成本,又节省了制造成本,咱们桌面臭打游戏的靠边站。
发表于 2024-10-21 11:50 | 显示全部楼层
xy. 发表于 2024-10-21 10:36
互联技术和通信效率现阶段根本就没关系 (理论上限当然有关系)
你看 strix point 整个就是 monolithic, 延迟 ...


你这说的毫无关系啊,strix point是monolithic但是imc与核心依旧通过fclk互联,只不过不走pcb的情况下fclk稍微能高一些,和intel的monolithic比那种直接挂ring上的差距当然巨大
发表于 2024-10-21 11:50 | 显示全部楼层
mofeielva 发表于 2024-10-21 10:35
AMD 可以 服务器+民用 一鱼两吃
intel还得搞两套架构,就问你怕不怕

内存延迟是个突破口, intel应该利用一下
发表于 2024-10-21 11:54 | 显示全部楼层
ghgfhghj 发表于 2024-10-21 11:50
你这说的毫无关系啊,strix point是monolithic但是imc与核心依旧通过fclk互联,只不过不走pcb的情况下fcl ...

我知道 strix point 也是走 if 啊, 所以这不就是互联技术和通信效率没关系吗
发表于 2024-10-21 11:58 | 显示全部楼层
明年的STX HALO似乎是硅互联的,不知道IF会不会有啥区别
发表于 2024-10-21 11:59 | 显示全部楼层
牙膏农企都准备一起阉老指令集了 以后大核怎么样还不一定呢
发表于 2024-10-21 12:00 | 显示全部楼层
xy. 发表于 2024-10-21 11:54
我知道 strix point 也是走 if 啊, 所以这不就是互联技术和通信效率没关系吗

if不就是一种互联技术吗,导致apu内存能效不好看的原因不就是因为走if互联而没有像intel之前那样挂ring上吗
发表于 2024-10-21 12:03 | 显示全部楼层
15代的  intel的互联技术叫 coherent  Fabric,配合System agent clock一起食用
285K架构图.png
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 10:26 , Processed in 0.015931 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表