话说RDNA3翻倍浮点到底是给谁用的啊

atles 发表于 2023-1-8 10:41

又看了一下RDNA3的架构参数，发现7900xtx相较6900xt的CU多了20%，频率高了20%，但是浮点性能大约是三倍，等于说是在一个同CU数同频率的RDNA2显卡基础上把浮点性能翻倍了。但是最后游戏性能只高了大约40%，所以倍增出来的浮点性能到底是干什么用的，这玩意也没法当计算卡[困惑]

tengyun 发表于 2023-1-8 10:43

同求问，RDNA3提升在哪

huhudna 发表于 2023-1-8 11:04

我看是amd根据新架构口胡的理论数据，相当于四核八线程=8核这样算

ljuc 发表于 2023-1-8 11:05

呃，随着显卡性能提升，以后的游戏会用到3d动画电影里的技术，如bxdf类材质（或者虚幻5.1新出的Strata），这些材质需要不少的乘法运算

foxsheep 发表于 2023-1-8 11:23

OpenCL聊胜于无吧

赫敏发表于 2023-1-8 11:25

30系不也一样

fafnirken 发表于 2023-1-8 11:25

RDNA3和CDNA3是通用的架构

徐家汇巡游者 发表于 2023-1-8 11:34

性能和参数相比有点落差，不知道会不会有鸡血驱动

lyent2010 发表于 2023-1-8 11:36

赫敏发表于 2023-1-8 11:25
30系不也一样

30系是跑INT的也能跑FP32了。而且考虑到游戏INT和FP32的比例。
不是基本上30系流处理器/2是原来同规格流处理器的1.3倍么。
这次RDNA2，浮点是翻倍了。但7900XTX对比6950XT，不按最初12288SP说，哪怕后面改回6144对比5120，流处理器也增加了20%。最终成绩这样子。还没更合适的解释。

赫敏发表于 2023-1-8 11:39

lyent2010 发表于 2023-1-7 22:36
30系是跑INT的也能跑FP32了。而且考虑到游戏INT和FP32的比例。
不是基本上30系流处理器/2是原来同规格流 ...

有谣言说是里面加了Xilinx的私货搞矩阵运算，但驱动写不出来

然后笔记本里面正式宣布有Xilinx的AI引擎

wg8232213 发表于 2023-1-8 11:45

panzerlied 发表于 2023-1-8 11:46

fycmouse 发表于 2023-1-8 11:47

chp1979 发表于 2023-1-8 12:01

赫敏发表于 2023-1-8 11:25
30系不也一样

安培离线渲染强啊，RDNA3呢

DEM 发表于 2023-1-8 12:13

这就是rdna3最迷惑的地方，dual issue听起来和nv的fp32/int32复用单元并不是一个东西

wg8232213 发表于 2023-1-8 12:31

csqaclp 发表于 2023-1-8 12:42

本帖最后由 csqaclp 于 2023-1-8 12:49 编辑

相当于单核双线程
其实频率提升不大，平均提升是不到15%

灵乌路空 发表于 2023-1-8 12:44

本帖最后由灵乌路空于 2023-1-8 12:46 编辑

我之前回复过一个人的：

缓存变化如图

着色器引擎 (SE) 包含更少的计算单元 (CU)，从 20 个减少到 16 个，但现在总共有 6 个 SE——比以前多了两个。这意味着 Navi 31 拥有多达 96 个 CU，总共部署了 6144 个流处理器（SP）。AMD 已经对 RDNA 3 的 SP 进行了全面升级，我们将在本文后面介绍这个问题。
每个着色引擎还包含一个专门处理栅格化的单元，一个用于三角形设置的原始引擎，32个渲染输出单元(rop)和两个256kB L1缓存。最后一个，现在是两倍的规模，但ROP本身仍然保持不变。
AMD 也没有对光栅化器和原始引擎进行太多更改——所述 50% 的改进是针对整个芯片的，因为它的 SE 比 Navi 21 芯片多 50%。然而，SE 处理指令的方式发生了变化，例如更快地处理多个绘图命令和更好地管理流水线阶段，这应该会减少 CU 在继续执行另一项任务之前需要等待的时间。
最明显的变化是在11月发布之前获得最多谣言和八卦的——GPU封装的Chiplet方式。凭借在该领域多年的经验，AMD选择这样做是合乎逻辑的，但这完全是出于成本/制造的原因，而不是性能。

AMD RDNA 3

AMD 在 GPU 的着色部分中最小的统一结构称为双计算单元(DCU)。在某些文档中，它仍称为工作组处理器 (WGP)，而其他文档则将其称为计算单元对。
请注意，如果这些图表中没有显示某些内容（例如常量缓存、双精度单元），这并不意味着它们不存在于体系结构中。

在很多方面，整体布局和结构元素与 RDNA 2 没有太大变化。两个计算单元共享一些缓存和内存，每个计算单元包含两组 32 个流处理器 (SP)。
第 3 版的新功能是每个 SP 现在包含的算术逻辑单元 (ALU) 是以前的两倍。现在每个 CU 有两组 SIMD64 单元，每组有两个数据端口——一个用于浮点、整数和矩阵运算，另一个仅用于浮点数和矩阵。
AMD 确实为不同的数据格式使用单独的 SP——RDNA 3 中的计算单元支持使用 FP16、BF16、FP32、FP64、INT4、INT8、INT16 和 INT32 值的操作。

另一个重要的新功能是 AMD 所谓的 AI 矩阵加速器的出现。
与我们很快就会看到的英特尔和 Nvidia 的架构不同，它们不作为单独的单元——所有矩阵运算都使用 SIMD 单元，任何此类计算（称为 Wave Matrix Multiply Accumulate，WMMA）将使用整组 64 ALU。
在撰写本文时，AI 加速器的确切性质尚不清楚，但它可能只是与处理指令和所涉及的大量数据相关的电路，以确保最大吞吐量。在他们的Hopper 架构中，它可能具有与 Nvidia 的 Tensor Memory Accelerator 类似的功能。
与 RDNA 2 相比，变化相对较小——旧架构也可以处理 64 线程波前（又名 Wave64），但这些是在两个周期内发布的，并且在每个计算单元中都使用了两个 SIMD32 块。现在，这一切都可以在一个周期内完成，并且只使用一个 SIMD 块。

在之前的文档中，AMD 表示 Wave32 通常用于计算和顶点着色器（也可能是光线着色器），而 Wave 64 主要用于像素着色器，驱动程序相应地编译着色器。因此，转向单周期 Wave64 指令问题将为严重依赖像素着色器的游戏提供推动力。
然而，所有这些额外的电力需要正确利用，以充分利用它。这是所有GPU架构的真实情况，为了做到这一点，它们都需要大量的线程负载(这也有助于隐藏与DRAM相关的固有延迟)。
因此，随着ALU的加倍，AMD推动了程序员尽可能多地使用指令级并行的需求。这在图形领域并不新鲜，但RDNA相对于AMD的老GCN架构的一个显著优势是，它不需要那么多线程来达到充分利用。考虑到现代渲染在游戏中的复杂程度，开发者在编写着色器代码时将有更多的工作要做。

这次RDNA3核心最大的改进大概就是光追单元，AMD表示，在相同的时钟速度下，与RDNA 2相比，射线跟踪性能提高了80%。

DCU/WGP的改进不是很大，按照某机翻网站翻译国外大佬的分析，RDNA 3 每个 SP 现在包含的算术逻辑单元 (ALU) 是以前的两倍。现在每个 CU 有两组 SIMD64 单元，每组有两个数据端口——一个用于浮点、整数和矩阵运算，另一个仅用于浮点数和矩阵。

AMD 所谓的 AI 矩阵加速器使用 SIMD 单元，任何此类计算（称为 Wave Matrix Multiply Accumulate，WMMA）将使用整组 64 ALU。

与 RDNA 2 相比，变化相对较小——旧架构也可以处理 64 线程波前（又名 Wave64），但这些是在两个周期内发布的，并且在每个计算单元中都使用了两个 SIMD32 块。现在，这一切都可以在一个周期内完成，并且只使用一个 SIMD 块。

由半导体行业观察搬运并机翻自techspot的Nick Evanson的文章

lyent2010 发表于 2023-1-8 12:44

赫敏发表于 2023-1-8 11:39
有谣言说是里面加了Xilinx的私货搞矩阵运算，但驱动写不出来

然后笔记本里面正式宣布有Xilinx的AI引擎 ...

那不是7000APU里塞的么？
GPU好像没宣布吧？

风个一 发表于 2023-1-8 12:44

我也很疑惑，79的晶体管数量是69的两倍多，性能提升如此之低。

曾经看过一张规格图，rdna3相对rdna2有一个新的特性或功能，具体是什么不清楚，估计是AI？可能增加的晶体管都用在这方面了吧。

csqaclp 发表于 2023-1-8 13:00

风个一发表于 2023-1-8 12:44
我也很疑惑，79的晶体管数量是69的两倍多，性能提升如此之低。

曾经看过一张规格图，rdna3相对rdna2有一个 ...

小芯片多连体架构效率折损

FelixIvory 发表于 2023-1-8 14:37

显卡架构又不只是浮点算力，你浮点翻倍，其它的结构不变的话，这个理论性能提升铁定没有100%啊。

inSeek 发表于 2023-1-8 14:59

晶体管多辣么多，性能提升的幅度...
所以是又回到了电热丝时代了？

ZBKX 发表于 2023-1-8 15:44

进化路上的一部分～

ZBKX 发表于 2023-1-8 15:46

灵乌路空发表于 2023-1-8 12:44
我之前回复过一个人的：

RDNA3的ISA好像没出来吧

aibo 发表于 2023-1-8 16:02

我认为还是给光追囤算力用的

ghgfhghj 发表于 2023-1-8 17:10

赫敏发表于 2023-1-8 11:25
30系不也一样

30系怎么一样了，同样是68sm，3080比2080ti强25%-30%

DEM 发表于 2023-1-8 18:00

wg8232213 发表于 2023-1-8 12:31
但是事实上……

白皮书明确写了dual issue是rdna的wave32模式专用，从gcn继承来的wave64用不了

Cloud_Strife 发表于 2023-1-8 21:58

1. 前端瓶颈
2. 驱动拉胯
简言之：没调好
[流汗][流汗][流汗]

不过，试验新架构+新封装，还要搞CDNA 3、APU、半定制，加上RTG就那些人那点钱，所以不能期望奇迹...

atles 发表于 2023-1-8 22:18

FelixIvory 发表于 2023-1-8 14:37
显卡架构又不只是浮点算力，你浮点翻倍，其它的结构不变的话，这个理论性能提升铁定没有100%啊。 ...

他不是没有100%，他是没提升，他等于是在40%的规格+频率提升的基础上叠了一个100%的浮点提升，结果性能提升只有40%，四舍五入等于浮点翻倍游戏没提升[困惑]

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

话说RDNA3翻倍浮点到底是给谁用的啊