Chiphell - 分享与交流用户体验

标题: RTX 5090 vs RTX 5090 D 矩阵算力差异对比 [打印本页]

作者: PolyMorph    时间: 2025-6-22 11:17
标题: RTX 5090 vs RTX 5090 D 矩阵算力差异对比
本帖最后由 PolyMorph 于 2025-6-22 11:28 编辑

RTX 5090 vs RTX 5090 D 性能差异分析



(, 下载次数: 0)

TFLOPS: 每秒万亿次浮点运算,数值越高性能越好
执行时间: 操作完成所需时间,时间越短效率越高
不同精度格式: 对比各种位宽的计算精度和性能平衡
(, 下载次数: 0)

4位精度操作性能对比
在4位精度矩阵乘法操作中,两款显卡表现出显著的性能差异:

(, 下载次数: 0)

4位精度关键发现:

RTX 5090 在4位精度操作中表现出约70%的性能优势
两款显卡都能达到极高的计算密度,但RTX 5090明显更优
4位精度是AI推理和量化模型的关键精度格式
8位精度操作性能对比
在8位精度矩阵乘法操作中,性能差异同样明显:

(, 下载次数: 0)
8位精度关键发现:

RTX 5090 在8位精度操作中表现出约71-73%的性能优势
性能提升幅度与4位精度基本一致,说明硬件架构优化是全面性的
8位精度在训练和推理中都有重要应用
技术分析总结

硬件架构差异:

计算单元优化:RTX 5090 相比 RTX 5090 D 在低精度计算单元上有显著优化
内存带宽:虽然两者全局内存相同(31.8 GiB),但RTX 5090的内存子系统性能更优
多处理器效率:相同的170个多处理器,但RTX 5090的调度和执行效率更高

应用场景影响:

AI训练:在混合精度训练中,RTX 5090能提供70%以上的速度优势
推理加速:量化模型部署时,RTX 5090的优势更加明显
成本效益:RTX 5090在单位时间内能处理更多数据,提高整体吞吐量
神经渲染:运用本地模型推理处理材质纹理光线追踪等传统光栅化工序,依赖哪个类型矩阵算力尚不清楚,如果正好用在D版阉割的类型,对帧数可能会影响

优化建议:

对于大规模AI工作负载,优先选择RTX 5090
RTX 5090 D适合预算有限但仍需要高性能计算的场景
在4位和8位精度为主的应用中,两者性能差异最为显著




https://github.com/search?q=mmapeak&type=repositories

测试算力需要下载安装cuda toolkit环境
(, 下载次数: 0)
通过网盘分享的文件:mmapeak.zip
链接: https://pan.baidu.com/s/1N--Rt5yXuY_kHFfjZ0TnxA?pwd=2kwm 提取码: 2kwm
--来自百度网盘超级会员v5的分享

5090对比RTX PRO 6000 一些速率tf32 fp16又是对半砍,4090对6000ada也是,价格摆在那里,产品定位差异

(, 下载次数: 0)
作者: jxljk    时间: 2025-6-22 12:23
高端卡 算力 和普通人关系不大了
作者: xjr12000    时间: 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别
作者: jaycty    时间: 2025-6-22 13:17
我确实不懂为什么要买5090弟
作者: PPXG    时间: 2025-6-22 13:20
本帖最后由 PPXG 于 2025-6-22 13:23 编辑
xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...


早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这里,所以老黄哪怕阉割了也很难在实际的时间成本上显现出来差距

说白了就是,现在跑模型的瓶颈压根不在tensorcore
作者: PolyMorph    时间: 2025-6-22 13:28
xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...

你好,是的
作者: blackbeardever    时间: 2025-6-22 14:13
这跑分差不多翻倍的差距远大于硬件的差别,有点离谱啊。会不会是驱动或者固件上做的手脚?
作者: 自挂东南枝    时间: 2025-6-22 14:18
xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...

应该是因为显存带宽限制根本跑不到理论性能。所有没区别。
作者: sthuasheng    时间: 2025-6-22 14:31
jaycty 发表于 2025-6-22 13:17
我确实不懂为什么要买5090弟

因为有保修,而且不是所有人买5090都是为了跑ai
作者: 皇冠3.0L    时间: 2025-6-22 14:33
我确实不理解为什么要买5090弟弟
作者: 鬼武人    时间: 2025-6-22 14:56
满意离开
作者: shenzhensky_sz    时间: 2025-6-22 15:16
有些买了D的人心如刀绞
作者: zhensunbin0202    时间: 2025-6-22 15:39
我买5090没买D的原因就是以后卖了90肯定比90D更值钱

其实我只用来跑游戏而已
作者: dukeyli    时间: 2025-6-22 17:07
肯定买5090啊,和4090一个道理。
作者: moresun23    时间: 2025-6-22 17:45
生产力的价值会升值 而娱乐会贬值。。。
作者: chm128256    时间: 2025-6-22 20:06
FYI: TEST IN ubuntu 24.04.2LTS
(, 下载次数: 0)

(, 下载次数: 0)
作者: chm128256    时间: 2025-6-22 20:15
本帖最后由 chm128256 于 2025-6-22 22:51 编辑

                                                              RTX3070      VS            RTX5090(D)               VS                      RTX4070TI
mma_s4s4s32_8_8_32
run: 2801.6 ms                                 308.0 T(fl)ops                82.5 T(fl)ops(79.6 T(fl)ops)       583.0 T(fl)ops
mma_f8f8f16_16_8_32
run: 2968.0 ms                                                                              763.2 T(fl)ops(430.2)                   321.3 T(fl)ops
mma_f8f8f32_16_8_32
run: 2978.7 ms                                                                               385.0 T(fl)ops(370   )                   169.8 T(fl)ops
mma_s8s8s32_16_16_16
run: 2999.8 ms                                 169.9 T(fl)ops                  772.0 T(fl)ops(430.9)                   332.6 T(fl)ops
mma_s8s8s32_32_8_16
run: 2999.4 ms                                 170.0 T(fl)ops                  772.4 T(fl)ops(430.9)                   332.6 T(fl)ops
mma_f16f16f16_16_16_16
run: 3000.0 ms                                   86.4 T(fl)ops                  773.0 T(fl)ops(428.9)                    170.4 T(fl)ops
mma_f16f16f16_32_8_16
run: 3000.1 ms                                   86.4 T(fl)ops                  772.5 T(fl)ops(429.7)                     170.4 T(fl)ops
mma_f16f16f32_16_16_16
run: 2999.4 ms                                   43.2 T(fl)ops                  384.9 T(fl)ops(367.4)                       85.3 T(fl)ops
mma_f16f16f32_32_8_16
run: 2996.1 ms                                   43.2 T(fl)ops                  384.8 T(fl)ops(372.0)                       85.3 T(fl)ops
mma_bf16bf16f32_16_16_16
run: 2997.0 ms                                   43.1 T(fl)ops                  384.9 T(fl)ops(371.6)                       85.1 T(fl)ops
mma_bf16bf16f32_32_8_16
run: 2997.1 ms                                   43.1 T(fl)ops                  385.1 T(fl)ops(371.8)                       85.1 T(fl)ops
mma_tf32tf32f32_16_16_8
run: 2999.8 ms                                   21.6 T(fl)ops                    96.8 T(fl)ops(93.5)                           42.6 T(fl)ops

括号内红色标识为5090D。
作者: wun_008    时间: 2025-6-22 20:28
路过问一下 某鱼上看 4090d 48g 便宜那么多 有什么限制呢 ,不能多卡 推理吗 ?
作者: chm128256    时间: 2025-6-22 21:57
4070ti也跑了下,对比一下和5090差距大不大,不过很多运算指令集都不支持啊。是50系独家秘笈吧?
(, 下载次数: 0)
作者: chm128256    时间: 2025-6-23 09:34
chm128256 发表于 2025-6-22 21:57
4070ti也跑了下,对比一下和5090差距大不大,不过很多运算指令集都不支持啊。是50系独家秘笈吧?
...

继续跑了下3090的,发现理论能力还不如4070ti啊,就剩显存大这个优势了。
(, 下载次数: 0)
作者: 柳葉    时间: 2025-6-23 09:38
不管D不D的
其实5楼的答案 就是目前的最终答案了
作者: AndersenTY    时间: 2025-6-23 09:39
我确实不理解为什么要买5090弟弟
作者: chm128256    时间: 2025-6-23 09:43
把手头的卡都大致测了一下,和5090&5090D做了对比,理论计算性能差距还是比较大的,除了mma_s4s4s32_8_8_32这个整数矩阵,50系是倒退严重啊!
                                             RTX3070       VS      RTX5090(D)               VS       RTX4070TI         VS      RTX3090
mma_s4s4s32_8_8_32
run: 2801.6 ms                      308.0 T(fl)ops           82.5 T(fl)ops(79.6)              583.0 T(fl)ops               491.3 T(fl)ops
mma_f8f8f16_16_8_32
run: 2968.0 ms                                                     763.2 T(fl)ops(430.2)            321.3 T(fl)ops
mma_f8f8f32_16_8_32
run: 2978.7 ms                                                     385.0 T(fl)ops(370   )            169.8 T(fl)ops
mma_s8s8s32_16_16_16
run: 2999.8 ms                      169.9 T(fl)ops         772.0 T(fl)ops(430.9)             332.6 T(fl)ops              294.3 T(fl)ops
mma_s8s8s32_32_8_16
run: 2999.4 ms                      170.0 T(fl)ops         772.4 T(fl)ops(430.9)             332.6 T(fl)ops              294.3 T(fl)ops
mma_f16f16f16_16_16_16
run: 3000.0 ms                        86.4 T(fl)ops         773.0 T(fl)ops(428.9)             170.4 T(fl)ops              152.4 T(fl)ops
mma_f16f16f16_32_8_16
run: 3000.1 ms                        86.4 T(fl)ops         772.5 T(fl)ops(429.7)             170.4 T(fl)ops              151.7 T(fl)ops
mma_f16f16f32_16_16_16
run: 2999.4 ms                        43.2 T(fl)ops         384.9 T(fl)ops(367.4)               85.3 T(fl)ops                76.4 T(fl)ops
mma_f16f16f32_32_8_16
run: 2996.1 ms                        43.2 T(fl)ops         384.8 T(fl)ops(372.0)               85.3 T(fl)ops                76.1 T(fl)ops
mma_bf16bf16f32_16_16_16
run: 2997.0 ms                        43.1 T(fl)ops         384.9 T(fl)ops(371.6)               85.1 T(fl)ops                75.7 T(fl)ops
mma_bf16bf16f32_32_8_16
run: 2997.1 ms                        43.1 T(fl)ops         385.1 T(fl)ops(371.8)               85.1 T(fl)ops                76.1 T(fl)ops
mma_tf32tf32f32_16_16_8
run: 2999.8 ms                        21.6 T(fl)ops             96.8 T(fl)ops(93.5)               42.6 T(fl)ops                37.9 T(fl)ops

括号内红色标识为5090D。
作者: chrisein    时间: 2025-6-23 10:29
jaycty 发表于 2025-6-22 13:17
我确实不懂为什么要买5090弟

我买了,主要是有保修,不过如果真的弟也禁了,就不知道了。。。
作者: mumhero    时间: 2025-6-23 11:33
PPXG 发表于 2025-6-22 13:20
早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这 ...

主要是FP4的差距,那些测试没区别的都没测FP4性能
作者: mkdirmushroom    时间: 2025-6-23 13:42
四月中旬的时候我也测过了,发了帖子https://www.chiphell.com/thread-2688736-1-1.html
作者: Illidan2004    时间: 2025-6-23 13:47
PPXG 发表于 2025-6-22 13:20
早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这 ...

确实是这样 很多模型用6000ada和5000ada看起来也没多少差距
作者: PPXG    时间: 2025-6-23 14:49
blackbeardever 发表于 2025-6-22 14:13
这跑分差不多翻倍的差距远大于硬件的差别,有点离谱啊。会不会是驱动或者固件上做的手脚? ...

目前推断是驱动级的软件锁,类似于30系LHR,一但监测到大规模低精度矩阵运算就主动降算力,tensorcore物理上应该是没做阉割
作者: KimmyGLM    时间: 2025-6-23 15:10
PPXG 发表于 2025-6-23 14:49
目前推断是驱动级的软件锁,类似于30系LHR,一但监测到大规模低精度矩阵运算就主动降算力,tensorcore物 ...

所以这四位精度,FP4 为代表的大饼rubin ,目前也没看到业界跟上去啊。
反正int4 和 awq的四位简化,实际跑下来确实比FP8的差了不少,就是胜在速度快,并发高




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5