Chiphell - 分享与交流用户体验

标题: 话说RDNA3翻倍浮点到底是给谁用的啊 [打印本页]

作者: atles    时间: 2023-1-8 10:41
标题: 话说RDNA3翻倍浮点到底是给谁用的啊
又看了一下RDNA3的架构参数,发现7900xtx相较6900xt的CU多了20%,频率高了20%,但是浮点性能大约是三倍,等于说是在一个同CU数同频率的RDNA2显卡基础上把浮点性能翻倍了。但是最后游戏性能只高了大约40%,所以倍增出来的浮点性能到底是干什么用的,这玩意也没法当计算卡
作者: tengyun    时间: 2023-1-8 10:43
同求问,RDNA3提升在哪
作者: huhudna    时间: 2023-1-8 11:04
我看是amd根据新架构口胡的理论数据,相当于四核八线程=8核这样算
作者: ljuc    时间: 2023-1-8 11:05
呃,随着显卡性能提升,以后的游戏会用到3d动画电影里的技术,如bxdf类材质(或者虚幻5.1新出的Strata),这些材质需要不少的乘法运算
作者: foxsheep    时间: 2023-1-8 11:23
OpenCL聊胜于无吧
作者: 赫敏    时间: 2023-1-8 11:25
30系不也一样
作者: fafnirken    时间: 2023-1-8 11:25
RDNA3和CDNA3是通用的架构
作者: 徐家汇巡游者    时间: 2023-1-8 11:34
性能和参数相比有点落差,不知道会不会有鸡血驱动
作者: lyent2010    时间: 2023-1-8 11:36
赫敏 发表于 2023-1-8 11:25
30系不也一样

30系是跑INT的也能跑FP32了。而且考虑到游戏INT和FP32的比例。
不是基本上30系流处理器/2是原来同规格流处理器的1.3倍么。
这次RDNA2,浮点是翻倍了。但7900XTX对比6950XT,不按最初12288SP说,哪怕后面改回6144对比5120,流处理器也增加了20%。最终成绩这样子。还没更合适的解释。
作者: 赫敏    时间: 2023-1-8 11:39
lyent2010 发表于 2023-1-7 22:36
30系是跑INT的也能跑FP32了。而且考虑到游戏INT和FP32的比例。
不是基本上30系流处理器/2是原来同规格流 ...

有谣言说是里面加了Xilinx的私货搞矩阵运算,但驱动写不出来

然后笔记本里面正式宣布有Xilinx的AI引擎
作者: wg8232213    时间: 2023-1-8 11:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: panzerlied    时间: 2023-1-8 11:46
和30系结构一样的,差距在于寄存器
作者: fycmouse    时间: 2023-1-8 11:47
ljuc 发表于 2023-1-8 11:05
呃,随着显卡性能提升,以后的游戏会用到3d动画电影里的技术,如bxdf类材质(或者虚幻5.1新出的Strata), ...

这个就有些扯了,没看到这设计也该到头,成本都控制不住了,商业化也侵蚀了芯片设计。硅基芯片总有极限的,等着新材料问世,商用,鬼知道要多少年?这些年慢慢地看着挤牙膏吧。
作者: chp1979    时间: 2023-1-8 12:01
赫敏 发表于 2023-1-8 11:25
30系不也一样

安培离线渲染强啊,RDNA3呢
作者: DEM    时间: 2023-1-8 12:13
这就是rdna3最迷惑的地方,dual issue听起来和nv的fp32/int32复用单元并不是一个东西
作者: wg8232213    时间: 2023-1-8 12:31
提示: 作者被禁止或删除 内容自动屏蔽
作者: csqaclp    时间: 2023-1-8 12:42
本帖最后由 csqaclp 于 2023-1-8 12:49 编辑

相当于单核双线程
  其实频率提升不大,平均提升是不到15%

作者: 灵乌路空    时间: 2023-1-8 12:44
本帖最后由 灵乌路空 于 2023-1-8 12:46 编辑

我之前回复过一个人的:

(, 下载次数: 60)
缓存变化如图
着色器引擎 (SE) 包含更少的计算单元 (CU),从 20 个减少到 16 个,但现在总共有 6 个 SE——比以前多了两个。这意味着 Navi 31 拥有多达 96 个 CU,总共部署了 6144 个流处理器(SP)。AMD 已经对 RDNA 3 的 SP 进行了全面升级,我们将在本文后面介绍这个问题。
每个着色引擎还包含一个专门处理栅格化的单元,一个用于三角形设置的原始引擎,32个渲染输出单元(rop)和两个256kB L1缓存。最后一个,现在是两倍的规模,但ROP本身仍然保持不变。
AMD 也没有对光栅化器和原始引擎进行太多更改——所述 50% 的改进是针对整个芯片的,因为它的 SE 比 Navi 21 芯片多 50%。然而,SE 处理指令的方式发生了变化,例如更快地处理多个绘图命令和更好地管理流水线阶段,这应该会减少 CU 在继续执行另一项任务之前需要等待的时间。
最明显的变化是在11月发布之前获得最多谣言和八卦的——GPU封装的Chiplet方式。凭借在该领域多年的经验,AMD选择这样做是合乎逻辑的,但这完全是出于成本/制造的原因,而不是性能。

AMD RDNA 3

AMD 在 GPU 的着色部分中最小的统一结构称为双计算单元(DCU)。在某些文档中,它仍称为工作组处理器 (WGP),而其他文档则将其称为计算单元对。
请注意,如果这些图表中没有显示某些内容(例如常量缓存、双精度单元),这并不意味着它们不存在于体系结构中。
(, 下载次数: 65)
在很多方面,整体布局和结构元素与 RDNA 2 没有太大变化。两个计算单元共享一些缓存和内存,每个计算单元包含两组 32 个流处理器 (SP)。
第 3 版的新功能是每个 SP 现在包含的算术逻辑单元 (ALU) 是以前的两倍。现在每个 CU 有两组 SIMD64 单元,每组有两个数据端口——一个用于浮点、整数和矩阵运算,另一个仅用于浮点数和矩阵。
AMD 确实为不同的数据格式使用单独的 SP——RDNA 3 中的计算单元支持使用 FP16、BF16、FP32、FP64、INT4、INT8、INT16 和 INT32 值的操作。
(, 下载次数: 67)
另一个重要的新功能是 AMD 所谓的 AI 矩阵加速器的出现。
与我们很快就会看到的英特尔和 Nvidia 的架构不同,它们不作为单独的单元——所有矩阵运算都使用 SIMD 单元,任何此类计算(称为 Wave Matrix Multiply Accumulate,WMMA)将使用整组 64 ALU。
在撰写本文时,AI 加速器的确切性质尚不清楚,但它可能只是与处理指令和所涉及的大量数据相关的电路,以确保最大吞吐量。在他们的Hopper 架构中,它可能具有与 Nvidia 的 Tensor Memory Accelerator 类似的功能。
与 RDNA 2 相比,变化相对较小——旧架构也可以处理 64 线程波前(又名 Wave64),但这些是在两个周期内发布的,并且在每个计算单元中都使用了两个 SIMD32 块。现在,这一切都可以在一个周期内完成,并且只使用一个 SIMD 块。
(, 下载次数: 69)
在之前的文档中,AMD 表示 Wave32 通常用于计算和顶点着色器(也可能是光线着色器),而 Wave 64 主要用于像素着色器,驱动程序相应地编译着色器。因此,转向单周期 Wave64 指令问题将为严重依赖像素着色器的游戏提供推动力。
然而,所有这些额外的电力需要正确利用,以充分利用它。这是所有GPU架构的真实情况,为了做到这一点,它们都需要大量的线程负载(这也有助于隐藏与DRAM相关的固有延迟)。
因此,随着ALU的加倍,AMD推动了程序员尽可能多地使用指令级并行的需求。这在图形领域并不新鲜,但RDNA相对于AMD的老GCN架构的一个显著优势是,它不需要那么多线程来达到充分利用。考虑到现代渲染在游戏中的复杂程度,开发者在编写着色器代码时将有更多的工作要做。


这次RDNA3核心最大的改进大概就是光追单元,AMD表示,在相同的时钟速度下,与RDNA 2相比,射线跟踪性能提高了80%。

DCU/WGP的改进不是很大,按照某机翻网站翻译国外大佬的分析,RDNA 3 每个 SP 现在包含的算术逻辑单元 (ALU) 是以前的两倍。现在每个 CU 有两组 SIMD64 单元,每组有两个数据端口——一个用于浮点、整数和矩阵运算,另一个仅用于浮点数和矩阵。

AMD 所谓的 AI 矩阵加速器使用 SIMD 单元,任何此类计算(称为 Wave Matrix Multiply Accumulate,WMMA)将使用整组 64 ALU。

与 RDNA 2 相比,变化相对较小——旧架构也可以处理 64 线程波前(又名 Wave64),但这些是在两个周期内发布的,并且在每个计算单元中都使用了两个 SIMD32 块。现在,这一切都可以在一个周期内完成,并且只使用一个 SIMD 块。

由半导体行业观察搬运并机翻自techspot的Nick Evanson的文章
作者: lyent2010    时间: 2023-1-8 12:44
赫敏 发表于 2023-1-8 11:39
有谣言说是里面加了Xilinx的私货搞矩阵运算,但驱动写不出来

然后笔记本里面正式宣布有Xilinx的AI引擎 ...

那不是7000APU里塞的么?
GPU好像没宣布吧?
作者: 风个一    时间: 2023-1-8 12:44
我也很疑惑,79的晶体管数量是69的两倍多,性能提升如此之低。

曾经看过一张规格图,rdna3相对rdna2有一个新的特性或功能,具体是什么不清楚,估计是AI?可能增加的晶体管都用在这方面了吧。
作者: csqaclp    时间: 2023-1-8 13:00
风个一 发表于 2023-1-8 12:44
我也很疑惑,79的晶体管数量是69的两倍多,性能提升如此之低。

曾经看过一张规格图,rdna3相对rdna2有一个 ...

小芯片多连体架构效率折损
作者: FelixIvory    时间: 2023-1-8 14:37
显卡架构又不只是浮点算力,你浮点翻倍,其它的结构不变的话,这个理论性能提升铁定没有100%啊。
作者: inSeek    时间: 2023-1-8 14:59
晶体管多辣么多,性能提升的幅度...
所以是又回到了电热丝时代了?
作者: ZBKX    时间: 2023-1-8 15:44
进化路上的一部分~
作者: ZBKX    时间: 2023-1-8 15:46
灵乌路空 发表于 2023-1-8 12:44
我之前回复过一个人的:



RDNA3的ISA好像没出来吧
作者: aibo    时间: 2023-1-8 16:02
我认为还是给光追囤算力用的
作者: ghgfhghj    时间: 2023-1-8 17:10
赫敏 发表于 2023-1-8 11:25
30系不也一样

30系怎么一样了,同样是68sm,3080比2080ti强25%-30%
作者: DEM    时间: 2023-1-8 18:00
wg8232213 发表于 2023-1-8 12:31
但是事实上……

白皮书明确写了dual issue是rdna的wave32模式专用,从gcn继承来的wave64用不了
作者: Cloud_Strife    时间: 2023-1-8 21:58
1. 前端瓶颈
2. 驱动拉胯
简言之:没调好


不过,试验新架构+新封装,还要搞CDNA 3、APU、半定制,加上RTG就那些人那点钱,所以不能期望奇迹...
作者: atles    时间: 2023-1-8 22:18
FelixIvory 发表于 2023-1-8 14:37
显卡架构又不只是浮点算力,你浮点翻倍,其它的结构不变的话,这个理论性能提升铁定没有100%啊。 ...

他不是没有100%,他是没提升,他等于是在40%的规格+频率提升的基础上叠了一个100%的浮点提升,结果性能提升只有40%,四舍五入等于浮点翻倍游戏没提升
作者: atles    时间: 2023-1-8 22:23
灵乌路空 发表于 2023-1-8 12:44
我之前回复过一个人的:

你这没有解答我的疑惑啊,他浮点单元翻倍了,但是如果6900xt规模X1.2的同时频率x1.2,性能应该和7900xtx一致,7900xtx的游戏性能也确实和它顶点渲染性能以及三角形渲染性能一致。那么翻倍的浮点单元对游戏和渲染的贡献在哪里。
作者: wg8232213    时间: 2023-1-8 23:07
提示: 作者被禁止或删除 内容自动屏蔽
作者: rSkip    时间: 2023-1-8 23:21
ZBKX 发表于 2023-1-8 15:46
RDNA3的ISA好像没出来吧

https://developer.amd.com/wp-con ... SA_December2022.pdf
作者: 灵乌路空    时间: 2023-1-9 01:00
atles 发表于 2023-1-8 22:23
你这没有解答我的疑惑啊,他浮点单元翻倍了,但是如果6900xt规模X1.2的同时频率x1.2,性能应该和7900xtx ...

不是写了加强光追了吗
作者: 用户    时间: 2023-1-9 01:26
NV这么做是因为cuda。amd没cuda还在这搞计算卡gpu,不太理解
作者: KimmyGLM    时间: 2023-1-9 09:02
panzerlied 发表于 2023-1-8 11:46
和30系结构一样的,差距在于寄存器

所以综合来看,RDNA3的浮点性能提升实际体现到游戏上,最多只能打个对折?
再考虑到移动平台的性能/散热限制,还得继续打个折?
作者: 赫敏    时间: 2023-1-9 23:29
lyent2010 发表于 2023-1-7 22:36
30系是跑INT的也能跑FP32了。而且考虑到游戏INT和FP32的比例。
不是基本上30系流处理器/2是原来同规格流 ...

规格提升20%,频率20%最终性能40%。说不定浮点翻倍才有现在这个线性提升的结果,毕竟同架构的7900xt到xtx规格提升25%频率提升5%性能才提升10%
作者: 赫敏    时间: 2023-1-9 23:30
chp1979 发表于 2023-1-7 23:01
安培离线渲染强啊,RDNA3呢

RDNA3啥都没有,跟Vega一样塞了一堆看起来最终被放弃的东西
作者: 赫敏    时间: 2023-1-9 23:31
lyent2010 发表于 2023-1-7 23:44
那不是7000APU里塞的么?
GPU好像没宣布吧?

是没说,这不在猜这些电阻丝到底是什么东西嘛
作者: 疾风之心    时间: 2023-1-9 23:46
本帖最后由 疾风之心 于 2023-1-9 23:48 编辑
用户 发表于 2023-1-9 01:26
NV这么做是因为cuda。amd没cuda还在这搞计算卡gpu,不太理解


amr都搞计算芯片,也没依赖cuda。并不是所有的计算类应用都需要cuda
作者: sfh0525    时间: 2023-1-10 00:55
lyent2010 发表于 2023-1-8 12:44
那不是7000APU里塞的么?
GPU好像没宣布吧?

NAVI31 7900发布时就提到了GPU内置的AI单元。但是那会因为完全没应用,所以几乎没提。
我猜FSR3可能要上AI upscaling
作者: lyent2010    时间: 2023-1-10 09:18
sfh0525 发表于 2023-1-10 00:55
NAVI31 7900发布时就提到了GPU内置的AI单元。但是那会因为完全没应用,所以几乎没提。
我猜FSR3可能要上A ...

唔,估计是.
NAVI31这波反正就很奇怪.
作者: aibo    时间: 2023-1-10 09:59
sfh0525 发表于 2023-1-10 00:55
NAVI31 7900发布时就提到了GPU内置的AI单元。但是那会因为完全没应用,所以几乎没提。
我猜FSR3可能要上A ...

但是,用FP32去跑ai。对比隔壁tensor跑。
难道没有刺刀耕地的感觉吗。。。
作者: archxm    时间: 2024-12-24 10:52
这玩意吧,计算精度属于黑盒吧,光看规模有点不实际。
比如0.996666*0.996666可能区别不大,但0.996666*0.996666*0.996666*0.996666*0.996666*0.996666可能会做骚操作来优化。到时候,虽然快了,可能画质不如从前了。
皮克斯就更喜欢用几千个CPU来做渲染,而不用gpu
作者: archxm    时间: 2024-12-24 11:19
NVidia GPU虽然擅长浮点运算,但并不严格遵守IEEE-754标准,这可能会导致与CPU计算相比的查准率/准确率差异。这种偏差在要求高数值准确率的领域尤其显著,如科学计算和财务分析。GPU架构针对速度进行了优化,导致了查准率/准确率可能会被牺牲的权衡。
对于准确率不可协商的应用程序,开发人员应考虑基于CPU的计算或提供更高查准率/准确率算法的专用库。NVidia的舍入误差虽然是标度不变的,但可以通过计算工作流程放大,这使得严格的误差分析和选择适当的数值格式或查准率/准确率水平至关重要。
在利用NVidia GPU时,了解和缓解这些查准率/准确率权衡至关重要。开发人员必须平衡GPU的计算能力和应用程序的数字需求,确保结果不会受到硬件限制的影响。

https://news.miracleplus.com/share_link/27300
作者: zhuifeng88    时间: 2024-12-24 11:32
本帖最后由 zhuifeng88 于 2024-12-24 11:37 编辑
archxm 发表于 2024-12-24 11:19
NVidia GPU虽然擅长浮点运算,但并不严格遵守IEEE-754标准,这可能会导致与CPU计算相比的查准率/准确率差异 ...


只能说少看点10年以上的旧闻....nvidia kepler开始就支持严格的ieee754浮点

至于说计算精度黑盒...? 又不是拿不到计算结果, 能直接比对怎么就计算精度黑盒了
作者: archxm    时间: 2024-12-24 11:55
zhuifeng88 发表于 2024-12-24 11:32
只能说少看点10年以上的旧闻....nvidia kepler开始就支持严格的ieee754浮点

至于说计算精度黑盒...? 又 ...

我感觉 30 系确实好多了。
这文章好像就前两年的
作者: huhudna    时间: 2024-12-24 12:43
竟然是坟贴。。。糟糕
作者: archxm    时间: 2024-12-25 10:26
本帖最后由 archxm 于 2024-12-25 10:35 编辑
zhuifeng88 发表于 2024-12-24 11:32
只能说少看点10年以上的旧闻....nvidia kepler开始就支持严格的ieee754浮点

至于说计算精度黑盒...? 又 ...


那是不是说10年前,也就是2014年,n卡确实因为浮点准确度不行,导致发灰发绿呢?因为准确度随意一些,故可以更快,帧率更高。
而a卡则一板一眼。而且,那个时候也只有a 能挖那啥。
但是据说titan还可以做计算卡。

nga 用户,还是更愿意分享一些:https://ngabbs.com/read.php?pid=711989441&opt=128
作者: aibo    时间: 2024-12-25 10:39
zhuifeng88 发表于 2024-12-24 11:32
只能说少看点10年以上的旧闻....nvidia kepler开始就支持严格的ieee754浮点

至于说计算精度黑盒...? 又 ...

从相机的有损raw压缩和无损,视频的压缩(vmaf 96和98)看
不管是静态图片还是视频
这些浮点的计算精度误差完全是肉眼不可见的。


作者: archxm    时间: 2024-12-25 10:44
aibo 发表于 2024-12-25 10:39
从相机的有损raw压缩和无损,视频的压缩(vmaf 96和98)看
不管是静态图片还是视频
这些浮点的计算精度误 ...

其实这些,一眼不可见,两眼一样分不出区别,三眼四眼也不行。
但看的多了,偶尔更换一块显卡,就仿佛发现了新世界。
作者: zhuifeng88    时间: 2024-12-25 10:48
本帖最后由 zhuifeng88 于 2024-12-25 10:59 编辑
aibo 发表于 2024-12-25 10:39
从相机的有损raw压缩和无损,视频的压缩(vmaf 96和98)看
不管是静态图片还是视频
这些浮点的计算精度误 ...


视频压缩不是通用计算单元做的, 而且也不是浮点处理的, 质量差异单纯是各家实现的子集和配置不一样的区别, 理解成类似软编参数不同的区别就行

结果比对说的是精确的数值比对, 这点在GPU通用计算普及之后各家就很重视了, 和肉眼可见没什么关系
作者: zhuifeng88    时间: 2024-12-25 10:50
本帖最后由 zhuifeng88 于 2024-12-25 10:57 编辑
archxm 发表于 2024-12-25 10:26
那是不是说10年前,也就是2014年,n卡确实因为浮点准确度不行,导致发灰发绿呢?因为准确度随意一些,故 ...


这个无关, 非标浮点误差主要是末位舍入问题, 就算是累计误差也不可能体现在最终整体颜色上, 你没有24bit色深的显示器(有也看不出来), 更何况10bit都不普及




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5