RTX 5090 vs RTX 5090 D 矩阵算力差异对比

KimmyGLM 发表于 2025-6-23 15:10

PPXG 发表于 2025-6-23 14:49
目前推断是驱动级的软件锁，类似于30系LHR，一但监测到大规模低精度矩阵运算就主动降算力，tensorcore物 ...

所以这四位精度，FP4 为代表的大饼rubin ，目前也没看到业界跟上去啊。
反正int4 和 awq的四位简化，实际跑下来确实比FP8的差了不少，就是胜在速度快，并发高

PPXG 发表于 2025-6-23 14:49

blackbeardever 发表于 2025-6-22 14:13
这跑分差不多翻倍的差距远大于硬件的差别，有点离谱啊。会不会是驱动或者固件上做的手脚？ ...

目前推断是驱动级的软件锁，类似于30系LHR，一但监测到大规模低精度矩阵运算就主动降算力，tensorcore物理上应该是没做阉割

Illidan2004 发表于 2025-6-23 13:47

PPXG 发表于 2025-6-22 13:20
早就能测出来区别了，有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这 ...

确实是这样很多模型用6000ada和5000ada看起来也没多少差距

mkdirmushroom 发表于 2025-6-23 13:42

四月中旬的时候我也测过了，发了帖子https://www.chiphell.com/thread-2688736-1-1.html

mumhero 发表于 2025-6-23 11:33

PPXG 发表于 2025-6-22 13:20
早就能测出来区别了，有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这 ...

主要是FP4的差距，那些测试没区别的都没测FP4性能

chrisein 发表于 2025-6-23 10:29

jaycty 发表于 2025-6-22 13:17
我确实不懂为什么要买5090弟

我买了，主要是有保修，不过如果真的弟也禁了，就不知道了。。。

chm128256 发表于 2025-6-23 09:43

把手头的卡都大致测了一下，和5090&5090D做了对比，理论计算性能差距还是比较大的，除了mma_s4s4s32_8_8_32这个整数矩阵，50系是倒退严重啊！
                                          RTX3070    VS    RTX5090(D)             VS    RTX4070TI       VS    RTX3090
mma_s4s4s32_8_8_32
run: 2801.6 ms                   308.0 T(fl)ops          82.5 T(fl)ops(79.6)             583.0 T(fl)ops             491.3 T(fl)ops
mma_f8f8f16_16_8_32
run: 2968.0 ms                                                    763.2 T(fl)ops(430.2)          321.3 T(fl)ops
mma_f8f8f32_16_8_32
run: 2978.7 ms                                                    385.0 T(fl)ops(370 )          169.8 T(fl)ops
mma_s8s8s32_16_16_16
run: 2999.8 ms                   169.9 T(fl)ops       772.0 T(fl)ops(430.9)          332.6 T(fl)ops             294.3 T(fl)ops
mma_s8s8s32_32_8_16
run: 2999.4 ms                   170.0 T(fl)ops       772.4 T(fl)ops(430.9)          332.6 T(fl)ops             294.3 T(fl)ops
mma_f16f16f16_16_16_16
run: 3000.0 ms                      86.4 T(fl)ops       773.0 T(fl)ops(428.9)          170.4 T(fl)ops             152.4 T(fl)ops
mma_f16f16f16_32_8_16
run: 3000.1 ms                      86.4 T(fl)ops       772.5 T(fl)ops(429.7)          170.4 T(fl)ops             151.7 T(fl)ops
mma_f16f16f32_16_16_16
run: 2999.4 ms                      43.2 T(fl)ops       384.9 T(fl)ops(367.4)             85.3 T(fl)ops             76.4 T(fl)ops
mma_f16f16f32_32_8_16
run: 2996.1 ms                      43.2 T(fl)ops       384.8 T(fl)ops(372.0)             85.3 T(fl)ops             76.1 T(fl)ops
mma_bf16bf16f32_16_16_16
run: 2997.0 ms                      43.1 T(fl)ops       384.9 T(fl)ops(371.6)             85.1 T(fl)ops             75.7 T(fl)ops
mma_bf16bf16f32_32_8_16
run: 2997.1 ms                      43.1 T(fl)ops       385.1 T(fl)ops(371.8)             85.1 T(fl)ops             76.1 T(fl)ops
mma_tf32tf32f32_16_16_8
run: 2999.8 ms                      21.6 T(fl)ops          96.8 T(fl)ops(93.5)             42.6 T(fl)ops             37.9 T(fl)ops

括号内红色标识为5090D。

AndersenTY 发表于 2025-6-23 09:39

我确实不理解为什么要买5090弟弟

柳葉 发表于 2025-6-23 09:38

不管D不D的

其实5楼的答案就是目前的最终答案了

chm128256 发表于 2025-6-23 09:34

chm128256 发表于 2025-6-22 21:57
4070ti也跑了下，对比一下和5090差距大不大，不过很多运算指令集都不支持啊。是50系独家秘笈吧？
...

继续跑了下3090的，发现理论能力还不如4070ti啊，就剩显存大这个优势了。
屏幕截图 2025-06-23 013034.png

chm128256 发表于 2025-6-22 21:57

4070ti也跑了下，对比一下和5090差距大不大，不过很多运算指令集都不支持啊。是50系独家秘笈吧？
屏幕截图 2025-06-22 215510.png

wun_008 发表于 2025-6-22 20:28

路过问一下某鱼上看 4090d 48g 便宜那么多有什么限制呢，不能多卡推理吗？

chm128256 发表于 2025-6-22 20:15

本帖最后由 chm128256 于 2025-6-22 22:51 编辑

                                                            RTX3070    VS          RTX5090(D)             VS                   RTX4070TI
mma_s4s4s32_8_8_32
run: 2801.6 ms                               308.0 T(fl)ops             82.5 T(fl)ops(79.6 T(fl)ops)    583.0 T(fl)ops
mma_f8f8f16_16_8_32
run: 2968.0 ms                                                                            763.2 T(fl)ops(430.2)                321.3 T(fl)ops
mma_f8f8f32_16_8_32
run: 2978.7 ms                                                                            385.0 T(fl)ops(370 )                169.8 T(fl)ops
mma_s8s8s32_16_16_16
run: 2999.8 ms                               169.9 T(fl)ops                772.0 T(fl)ops(430.9)                332.6 T(fl)ops
mma_s8s8s32_32_8_16
run: 2999.4 ms                               170.0 T(fl)ops                772.4 T(fl)ops(430.9)                332.6 T(fl)ops
mma_f16f16f16_16_16_16
run: 3000.0 ms                                  86.4 T(fl)ops                773.0 T(fl)ops(428.9)                   170.4 T(fl)ops
mma_f16f16f16_32_8_16
run: 3000.1 ms                                  86.4 T(fl)ops                772.5 T(fl)ops(429.7)                   170.4 T(fl)ops
mma_f16f16f32_16_16_16
run: 2999.4 ms                                  43.2 T(fl)ops                384.9 T(fl)ops(367.4)                      85.3 T(fl)ops
mma_f16f16f32_32_8_16
run: 2996.1 ms                                  43.2 T(fl)ops                384.8 T(fl)ops(372.0)                      85.3 T(fl)ops
mma_bf16bf16f32_16_16_16
run: 2997.0 ms                                  43.1 T(fl)ops                384.9 T(fl)ops(371.6)                      85.1 T(fl)ops
mma_bf16bf16f32_32_8_16
run: 2997.1 ms                                  43.1 T(fl)ops                385.1 T(fl)ops(371.8)                      85.1 T(fl)ops
mma_tf32tf32f32_16_16_8
run: 2999.8 ms                                  21.6 T(fl)ops                   96.8 T(fl)ops(93.5)                         42.6 T(fl)ops

括号内红色标识为5090D。

chm128256 发表于 2025-6-22 20:06

FYI: TEST IN ubuntu 24.04.2LTS
Screenshot from 2025-06-22 20-03-35.png