AMD的infinite fabric越看越像个怪物

sinopart · 发表于 2024-10-21 10:27

就算是默认的JEDEC 4800，A家的延迟也就80-90ns。如果那个泄露的U2 XMP默认下的内存性能图是真的，再考虑到F总线走线距离是远大于intel的这种互联封装的，恐怕if总线与i家的互联技术已经拉开了两代的差距。这到底是怎么做到的？我记得if总线诞生之后就没有大改了，这是17年的技术啊。

dcl2009 · 发表于 2024-10-21 10:34

IF总线是给服务器用的，多个CCD互联性能几乎线性增加，而且几乎没啥BUG

拿来民用就是为了省成本，没别的想法

gladiator · 发表于 2024-10-21 10:34

intel也开始走上和amd类似的路子之后发现amd这IF总线看着挺普通的但是还真挺强的

mofeielva · 发表于 2024-10-21 10:35

AMD 可以服务器+民用一鱼两吃
intel还得搞两套架构，就问你怕不怕

xy. · 发表于 2024-10-21 10:36

互联技术和通信效率现阶段根本就没关系 (理论上限当然有关系)
你看 strix point 整个就是 monolithic, 延迟还是那样

nApoleon · 发表于 2024-10-21 10:37

别急,我问了厂商说是不理解为撒我测的那么高他们自己是90多,反正就是各方各面跟Zen5你来我去…不…是眉来眼去…

panzerlied · 发表于 2024-10-21 10:37

提示: 作者被禁止或删除内容自动屏蔽

sinopart · 发表于 2024-10-21 10:38

本帖最后由 sinopart 于 2024-10-21 10:40 编辑

nApoleon 发表于 2024-10-21 10:37
别急,我问了厂商说是不理解为撒我测的那么高他们自己是90多,反正就是各方各面跟Zen5你来我去…不…是眉来眼 ...

如果是这样，可能是部分小参优化的问题？板厂的BIOS还得调调
90ns也非常高了。
如果真是117ns，感觉应该是要比PPT上的游戏性能还要差才对。希望不是这样。

KimmyGLM · 发表于 2024-10-21 10:40

nApoleon 发表于 2024-10-21 10:37
别急,我问了厂商说是不理解为撒我测的那么高他们自己是90多,反正就是各方各面跟Zen5你来我去…不…是眉来眼 ...

看样子还没开测游戏的阶段呐？

赫敏 · 发表于 2024-10-21 10:40

mofeielva 发表于 2024-10-20 21:35
AMD 可以服务器+民用一鱼两吃
intel还得搞两套架构，就问你怕不怕

三套。服务器大核一套，小核一套，桌面大小核再一套

KimmyGLM · 发表于 2024-10-21 10:44

本帖最后由 KimmyGLM 于 2024-10-21 10:46 编辑

赫敏发表于 2024-10-21 10:40
三套。服务器大核一套，小核一套，桌面大小核再一套

LNL已经明确不会有后续，桌面和移动端以后估计是深度融合了。

感觉两家的发展路线要开始镜像了

PolyMorph · 发表于 2024-10-21 10:45

降本增效，服务器技术不含臭打游戏

yy323818 · 发表于 2024-10-21 10:47

轮大总线频率多少？是不是总线频率低的原因.看披露的信息，说是这一代总线3500-3800MHZ，13/14代基本4500左右。

初音空岛 · 发表于 2024-10-21 10:47

服务器看重的是带宽吧，应该不会对延迟有什么优化

nApoleon · 发表于 2024-10-21 10:54

yy323818 发表于 2024-10-21 10:47
轮大总线频率多少？是不是总线频率低的原因.看披露的信息，说是这一代总线3500-3800MHZ，13/14代基本4500左 ...

确实3.8…

yy323818 · 发表于 2024-10-21 11:08

哦哦，那就说明问题了，总线频率低，L3也跟着慢了，再加上内存控制器分离设计，游戏不拉才怪。

Illidan2004 · 发表于 2024-10-21 11:14

KimmyGLM 发表于 2024-10-21 10:44
LNL已经明确不会有后续，桌面和移动端以后估计是深度融合了。

感觉两家的发展路线要开始镜像了 ...

一代又放弃了？

Illidan2004 · 发表于 2024-10-21 11:14

yy323818 发表于 2024-10-21 11:08
哦哦，那就说明问题了，总线频率低，L3也跟着慢了，再加上内存控制器分离设计，游戏不拉才怪。 ...

不如说能跑出这个游戏说明别的部分已经很猛了？

KimmyGLM · 发表于 2024-10-21 11:15

Illidan2004 发表于 2024-10-21 11:14
一代又放弃了？

小核的更替不会放弃，只是说做成单独SKU以后不会再这么弄了。
ARL-U 会接替

tengyun · 发表于 2024-10-21 11:17

本帖最后由 tengyun 于 2024-10-21 11:19 编辑

KimmyGLM 发表于 2024-10-21 11:15
小核的更替不会放弃，只是说做成单独SKU以后不会再这么弄了。
ARL-U 会接替 ...

小核有12代的IPC，那么直接纯32核物理，多线程干9950X？

大核架构到头了，面积比太烂了。面多+水水多+面

csnb · 发表于 2024-10-21 11:21

本帖最后由 csnb 于 2024-10-21 11:23 编辑

**Infinity Fabric**（**IF**）是AMD专有的系统互连架构，它促进了所有连接组件之间的数据和控制传输。这种架构被AMD最新的微架构用于CPU（例如，Zen）和图形（例如，Vega），以及他们未来可能添加的任何其他加速器。该架构最初由AMD的高级副总裁兼首席技术官Mark Papermaster在2017年4月宣布并详细说明。

## 目录

- 1 概述
- 2 可扩展数据结构（SDF）
  - 2.1 CAKE
  - 2.2 SerDes
- 2.2.1 IFOP
- 2.2.2 IFIS
- 3 可扩展控制结构（SCF）
- 4 实施
  - 4.1 Zen
- 5 参见
- 6 参考文献

## 概述

无限结构由两个独立的通信平面组成——无限**可扩展数据结构**（**SDF**）和无限**可扩展控制结构**（**SCF**）。SDF是系统内数据流动的主要方式，连接端点（例如NUMA节点，PHYs）。SDF可能有数十个连接点，连接诸如PCIe PHYs、内存控制器、USB集线器以及各种计算和执行单元。SDF是以前HyperTransport的超集。SCF是一个补充平面，负责传输许多杂项系统控制信号——包括诸如热管理和电源管理、测试、安全和第三方IP等。

在基于Zeppelin SoC和Zen核心的AMD处理器的情况下，SDF的块图在右侧显示。两个CCX直接使用**缓存一致性主**（**CCM**）连接到SDF平面，它提供了核心之间缓存数据传输的机制。还有一个单一的**I/O主/从**（IOMS）接口用于I/O集线器通信。该集线器包含两个PCIe控制器、一个SATA控制器、USB控制器、以太网控制器和南桥。从操作的角度来看，IOMS和CCM实际上是唯一能够发起DRAM请求的接口。

DRAM连接到DDR4接口，该接口连接到统一内存控制器（UMC）。每个DDR通道有两个统一内存控制器（UMC），它们也直接连接到SDF。值得注意的是，所有SDF组件都以DRAM的MEMCLK频率运行。例如，使用DDR4-2133的系统将使整个SDF平面以1066 MHz的频率运行。这是AMD为了消除时钟域延迟而做出的基本设计选择。

## 可扩展数据结构（SDF）

无限可扩展数据结构（SDF）是无限结构的数据通信平面。所有来自核心和到其他外设（例如内存控制器和I/O集线器）的数据都通过SDF路由。相干数据结构的一个关键特性是它不仅限于单个芯片，并且可以扩展到MCP上的多个芯片以及通过PCIe链路上的多个插座（甚至可能跨越独立系统，尽管这仅仅是猜测）。连接在结构上的节点的拓扑没有限制，可以直接节点到节点通信，在总线拓扑中进行跳跃，或者作为网格拓扑系统。

在基于Zeppelin SoC和Zen核心的AMD处理器的情况下，SDF的块图在右侧显示。两个CCX直接使用**缓存一致性主**（**CCM**）连接到SDF平面，它提供了核心之间缓存数据传输的机制。还有一个单一的**I/O主/从**（IOMS）接口用于I/O集线器通信。该集线器包含两个PCIe控制器、一个SATA控制器、USB控制器、以太网控制器和南桥。从操作的角度来看，IOMS和CCM实际上是唯一能够发起DRAM请求的接口。

DRAM连接到DDR4接口，该接口连接到统一内存控制器（UMC）。每个DDR通道有两个统一内存控制器（UMC），它们也直接连接到SDF。值得注意的是，所有SDF组件都以DRAM的MEMCLK频率运行。例如，使用DDR4-2133的系统将使整个SDF平面以1066 MHz的频率运行。这是AMD为了消除时钟域延迟而做出的基本设计选择。

### CAKE

在SDF和连接多个芯片和多个芯片的SerDes之间的工作机制是CAKE。**Coherent AMD socKet Extender**（**CAKE**）模块将本地SDF请求编码到每个周期的128位序列化数据包上，并通过任何SerDes接口发送。响应也由CAKE解码回SDF。与连接到SDF的所有其他内容一样，CAKE以DRAM的MEMCLK频率运行，以消除时钟域交叉延迟。

### SerDes

无限可扩展数据结构（SDF）采用两种不同类型的SerDes链路——**无限结构封装内**（**IFOP**）和**无限结构封装间**（**IFIS**）。

#### IFOP

**无限结构封装内**（**IFOP**）SerDes处理同一封装内的芯片到芯片通信。AMD设计了一个相当直接的定制SerDes，适用于短封装内跟踪长度，可以实现大约2 pJ/b的功耗效率。这是通过使用32位低摆幅单端数据传输和差分时钟完成的，其功耗大约是等效差分驱动的一半。它们利用TX/RX阻抗终止到地的零功耗驱动状态，同时禁用驱动上拉。这允许传输零比传输一消耗更少的功率，当链路空闲时也利用了这一点。另外，还使用了反相编码以节省每比特平均10%的功率。

由于封装内链路对性能敏感，IFOP链路相对于DDR4通道带宽超额配置了大约两倍，用于混合读写流量。它们是双向链路，每个数据周期都传输CRC。IFOP SerDes每个CAKE时钟进行四次传输。

由于CAKE以与DRAM的MEMCLK频率相同的频率运行，因此带宽完全取决于该频率。对于使用DDR4-2666 DIMM的系统，这意味着CAKE将以1333.33 MHz的频率运行，意味着IFOP将具有42.667 GB/s的双向带宽（=每个方向每时钟16B）。

#### IFIS

**无限结构封装间**（**IFIS**）SerDes是第二种类型，用于封装到封装通信，例如在双向多处理中。IFIS设计成可以与PCIe和SATA等其他协议复用。它们在TX/RX 16差分数据通道上运行，大约11 pJ/b。这些链路也与标准PCIe通道的封装引脚排列对齐。由于它们是16位宽，因此每个CAKE时钟运行8次传输。与IFOP相比，IFIS链路的带宽为8/9。

对于使用DDR4-2666 DIMM的系统，CAKE将以1333.33 MHz的频率运行，这意味着IFIS将具有37.926 GB/s的双向带宽。

## 可扩展控制结构（SCF）

_另见：Zen § 系统管理单元_

无限**可扩展控制结构**（**SCF**）是无限结构的控制通信平面。SCF将系统管理单元（SMU）连接到各种组件。SCF拥有自己的专用IFIS SerDes，允许系统内多个芯片的SCF相互通信。SCF还扩展到多路多处理配置中的第二插座上的芯片。

References
AMD Infinity Fabric introduction by Mark Papermaster, April 6, 2017
AMD EPYC Tech Day, June 20, 2017
IEEE ISSCC 2018

Illidan2004 · 发表于 2024-10-21 11:23

tengyun 发表于 2024-10-21 11:17
小核有12代的IPC，那么直接纯32核物理，多线程干9950X？

大核架构到头了，面积比太烂了。面多+水水多 ...

现在大核纯粹为了单线程跑分不落后的。。
等小核足够强就可以扔掉大核了

yy323818 · 发表于 2024-10-21 11:30

lion cove 核心规格看着还可以啊，
①前端由6升到8解码，
②后端由12升级到18个处理单(整数浮点分离设计6整数+4浮点），
③ROB由513升级到576，
④L1大小不变32+48K，延迟由5个周期提升到4个周期，
⑤新增加了个L1.5 大小192K，延迟9个周期。
⑥L2大小由2M提升到3M，延迟由16增加到17个周期。
⑦L3 大小36M不变。
看着这些规格，按道理不可能拉啊！
看着这硬件规格没理由拉啊！但是大小核，核心排布变了，总线频率降了，增加了核心延迟和L3延迟，同时内存控制器分离设计，这一些骚操作导致了生产力还行，游戏性能下架降的结果。纯粹就是把移动端的CPU架构硬搬到桌面端了。既节省设计成本，又节省了制造成本，咱们桌面臭打游戏的靠边站。

ghgfhghj · 发表于 2024-10-21 11:50

xy. 发表于 2024-10-21 10:36
互联技术和通信效率现阶段根本就没关系 (理论上限当然有关系)
你看 strix point 整个就是 monolithic, 延迟 ...

你这说的毫无关系啊，strix point是monolithic但是imc与核心依旧通过fclk互联，只不过不走pcb的情况下fclk稍微能高一些，和intel的monolithic比那种直接挂ring上的差距当然巨大

netjunegg · 发表于 2024-10-21 11:50

mofeielva 发表于 2024-10-21 10:35
AMD 可以服务器+民用一鱼两吃
intel还得搞两套架构，就问你怕不怕

内存延迟是个突破口, intel应该利用一下

xy. · 发表于 2024-10-21 11:54

ghgfhghj 发表于 2024-10-21 11:50
你这说的毫无关系啊，strix point是monolithic但是imc与核心依旧通过fclk互联，只不过不走pcb的情况下fcl ...

我知道 strix point 也是走 if 啊, 所以这不就是互联技术和通信效率没关系吗

KazamiKazuki · 发表于 2024-10-21 11:58

明年的STX HALO似乎是硅互联的，不知道IF会不会有啥区别

fluttershy · 发表于 2024-10-21 11:59

牙膏农企都准备一起阉老指令集了以后大核怎么样还不一定呢

ghgfhghj · 发表于 2024-10-21 12:00

xy. 发表于 2024-10-21 11:54
我知道 strix point 也是走 if 啊, 所以这不就是互联技术和通信效率没关系吗

if不就是一种互联技术吗，导致apu内存能效不好看的原因不就是因为走if互联而没有像intel之前那样挂ring上吗

sekiroooo · 发表于 2024-10-21 12:03

15代的 intel的互联技术叫 coherent Fabric，配合System agent clock一起食用

账号		自动登录	找回密码
密码			加入我们

panzerlied panzerlied 当前离线积分 4669	发表于 2024-10-21 10:37 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
panzerlied panzerlied 当前离线积分 4669
	回复举报

[CPU] AMD的infinite fabric越看越像个怪物