找回密码
 加入我们
搜索
      
查看: 2571|回复: 28

[显卡] RTX 5090 vs RTX 5090 D 矩阵算力差异对比

[复制链接]
发表于 2025-6-22 11:17 | 显示全部楼层 |阅读模式
本帖最后由 PolyMorph 于 2025-6-22 11:28 编辑

RTX 5090 vs RTX 5090 D 性能差异分析



benchmark5090d.png

TFLOPS: 每秒万亿次浮点运算,数值越高性能越好
执行时间: 操作完成所需时间,时间越短效率越高
不同精度格式: 对比各种位宽的计算精度和性能平衡
微信图片_20250622105724.png

4位精度操作性能对比
在4位精度矩阵乘法操作中,两款显卡表现出显著的性能差异:

屏幕截图 2025-06-22 110534.png

4位精度关键发现:

RTX 5090 在4位精度操作中表现出约70%的性能优势
两款显卡都能达到极高的计算密度,但RTX 5090明显更优
4位精度是AI推理和量化模型的关键精度格式
8位精度操作性能对比
在8位精度矩阵乘法操作中,性能差异同样明显:

屏幕截图 2025-06-22 110545.png
8位精度关键发现:

RTX 5090 在8位精度操作中表现出约71-73%的性能优势
性能提升幅度与4位精度基本一致,说明硬件架构优化是全面性的
8位精度在训练和推理中都有重要应用
技术分析总结

硬件架构差异:

计算单元优化:RTX 5090 相比 RTX 5090 D 在低精度计算单元上有显著优化
内存带宽:虽然两者全局内存相同(31.8 GiB),但RTX 5090的内存子系统性能更优
多处理器效率:相同的170个多处理器,但RTX 5090的调度和执行效率更高

应用场景影响:

AI训练:在混合精度训练中,RTX 5090能提供70%以上的速度优势
推理加速:量化模型部署时,RTX 5090的优势更加明显
成本效益:RTX 5090在单位时间内能处理更多数据,提高整体吞吐量
神经渲染:运用本地模型推理处理材质纹理光线追踪等传统光栅化工序,依赖哪个类型矩阵算力尚不清楚,如果正好用在D版阉割的类型,对帧数可能会影响

优化建议:

对于大规模AI工作负载,优先选择RTX 5090
RTX 5090 D适合预算有限但仍需要高性能计算的场景
在4位和8位精度为主的应用中,两者性能差异最为显著




https://github.com/search?q=mmapeak&type=repositories

测试算力需要下载安装cuda toolkit环境
屏幕截图 2025-06-22 111605.png
通过网盘分享的文件:mmapeak.zip
链接: https://pan.baidu.com/s/1N--Rt5yXuY_kHFfjZ0TnxA?pwd=2kwm 提取码: 2kwm
--来自百度网盘超级会员v5的分享

5090对比RTX PRO 6000 一些速率tf32 fp16又是对半砍,4090对6000ada也是,价格摆在那里,产品定位差异

屏幕截图 2025-06-22 105820.png
发表于 2025-6-22 12:23 来自手机 | 显示全部楼层
高端卡 算力 和普通人关系不大了
发表于 2025-6-22 13:10 | 显示全部楼层
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别
发表于 2025-6-22 13:17 | 显示全部楼层
我确实不懂为什么要买5090弟
发表于 2025-6-22 13:20 | 显示全部楼层
本帖最后由 PPXG 于 2025-6-22 13:23 编辑
xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...


早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这里,所以老黄哪怕阉割了也很难在实际的时间成本上显现出来差距

说白了就是,现在跑模型的瓶颈压根不在tensorcore
 楼主| 发表于 2025-6-22 13:28 | 显示全部楼层
xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...

你好,是的
发表于 2025-6-22 14:13 | 显示全部楼层
这跑分差不多翻倍的差距远大于硬件的差别,有点离谱啊。会不会是驱动或者固件上做的手脚?
发表于 2025-6-22 14:18 | 显示全部楼层
xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...

应该是因为显存带宽限制根本跑不到理论性能。所有没区别。
发表于 2025-6-22 14:31 | 显示全部楼层
jaycty 发表于 2025-6-22 13:17
我确实不懂为什么要买5090弟

因为有保修,而且不是所有人买5090都是为了跑ai
发表于 2025-6-22 14:33 | 显示全部楼层
我确实不理解为什么要买5090弟弟
发表于 2025-6-22 14:56 | 显示全部楼层
满意离开
发表于 2025-6-22 15:16 | 显示全部楼层
有些买了D的人心如刀绞
发表于 2025-6-22 15:39 | 显示全部楼层
我买5090没买D的原因就是以后卖了90肯定比90D更值钱

其实我只用来跑游戏而已
发表于 2025-6-22 17:07 | 显示全部楼层
肯定买5090啊,和4090一个道理。
发表于 2025-6-22 17:45 | 显示全部楼层
生产力的价值会升值 而娱乐会贬值。。。
发表于 2025-6-22 20:06 | 显示全部楼层
FYI: TEST IN ubuntu 24.04.2LTS
Screenshot from 2025-06-22 20-03-35.png

Screenshot from 2025-06-22 20-05-29.png
发表于 2025-6-22 20:15 | 显示全部楼层
本帖最后由 chm128256 于 2025-6-22 22:51 编辑

                                                              RTX3070      VS            RTX5090(D)               VS                      RTX4070TI
mma_s4s4s32_8_8_32
run: 2801.6 ms                                 308.0 T(fl)ops                82.5 T(fl)ops(79.6 T(fl)ops)       583.0 T(fl)ops
mma_f8f8f16_16_8_32
run: 2968.0 ms                                                                              763.2 T(fl)ops(430.2)                   321.3 T(fl)ops
mma_f8f8f32_16_8_32
run: 2978.7 ms                                                                               385.0 T(fl)ops(370   )                   169.8 T(fl)ops
mma_s8s8s32_16_16_16
run: 2999.8 ms                                 169.9 T(fl)ops                  772.0 T(fl)ops(430.9)                   332.6 T(fl)ops
mma_s8s8s32_32_8_16
run: 2999.4 ms                                 170.0 T(fl)ops                  772.4 T(fl)ops(430.9)                   332.6 T(fl)ops
mma_f16f16f16_16_16_16
run: 3000.0 ms                                   86.4 T(fl)ops                  773.0 T(fl)ops(428.9)                    170.4 T(fl)ops
mma_f16f16f16_32_8_16
run: 3000.1 ms                                   86.4 T(fl)ops                  772.5 T(fl)ops(429.7)                     170.4 T(fl)ops
mma_f16f16f32_16_16_16
run: 2999.4 ms                                   43.2 T(fl)ops                  384.9 T(fl)ops(367.4)                       85.3 T(fl)ops
mma_f16f16f32_32_8_16
run: 2996.1 ms                                   43.2 T(fl)ops                  384.8 T(fl)ops(372.0)                       85.3 T(fl)ops
mma_bf16bf16f32_16_16_16
run: 2997.0 ms                                   43.1 T(fl)ops                  384.9 T(fl)ops(371.6)                       85.1 T(fl)ops
mma_bf16bf16f32_32_8_16
run: 2997.1 ms                                   43.1 T(fl)ops                  385.1 T(fl)ops(371.8)                       85.1 T(fl)ops
mma_tf32tf32f32_16_16_8
run: 2999.8 ms                                   21.6 T(fl)ops                    96.8 T(fl)ops(93.5)                           42.6 T(fl)ops

括号内红色标识为5090D。
发表于 2025-6-22 20:28 | 显示全部楼层
路过问一下 某鱼上看 4090d 48g 便宜那么多 有什么限制呢 ,不能多卡 推理吗 ?
发表于 2025-6-22 21:57 | 显示全部楼层
4070ti也跑了下,对比一下和5090差距大不大,不过很多运算指令集都不支持啊。是50系独家秘笈吧?
屏幕截图 2025-06-22 215510.png
发表于 2025-6-23 09:34 | 显示全部楼层
chm128256 发表于 2025-6-22 21:57
4070ti也跑了下,对比一下和5090差距大不大,不过很多运算指令集都不支持啊。是50系独家秘笈吧?
...

继续跑了下3090的,发现理论能力还不如4070ti啊,就剩显存大这个优势了。
屏幕截图 2025-06-23 013034.png
发表于 2025-6-23 09:38 | 显示全部楼层
不管D不D的
其实5楼的答案 就是目前的最终答案了
发表于 2025-6-23 09:39 | 显示全部楼层
我确实不理解为什么要买5090弟弟
发表于 2025-6-23 09:43 | 显示全部楼层
把手头的卡都大致测了一下,和5090&5090D做了对比,理论计算性能差距还是比较大的,除了mma_s4s4s32_8_8_32这个整数矩阵,50系是倒退严重啊!
                                             RTX3070       VS      RTX5090(D)               VS       RTX4070TI         VS      RTX3090
mma_s4s4s32_8_8_32
run: 2801.6 ms                      308.0 T(fl)ops           82.5 T(fl)ops(79.6)              583.0 T(fl)ops               491.3 T(fl)ops
mma_f8f8f16_16_8_32
run: 2968.0 ms                                                     763.2 T(fl)ops(430.2)            321.3 T(fl)ops
mma_f8f8f32_16_8_32
run: 2978.7 ms                                                     385.0 T(fl)ops(370   )            169.8 T(fl)ops
mma_s8s8s32_16_16_16
run: 2999.8 ms                      169.9 T(fl)ops         772.0 T(fl)ops(430.9)             332.6 T(fl)ops              294.3 T(fl)ops
mma_s8s8s32_32_8_16
run: 2999.4 ms                      170.0 T(fl)ops         772.4 T(fl)ops(430.9)             332.6 T(fl)ops              294.3 T(fl)ops
mma_f16f16f16_16_16_16
run: 3000.0 ms                        86.4 T(fl)ops         773.0 T(fl)ops(428.9)             170.4 T(fl)ops              152.4 T(fl)ops
mma_f16f16f16_32_8_16
run: 3000.1 ms                        86.4 T(fl)ops         772.5 T(fl)ops(429.7)             170.4 T(fl)ops              151.7 T(fl)ops
mma_f16f16f32_16_16_16
run: 2999.4 ms                        43.2 T(fl)ops         384.9 T(fl)ops(367.4)               85.3 T(fl)ops                76.4 T(fl)ops
mma_f16f16f32_32_8_16
run: 2996.1 ms                        43.2 T(fl)ops         384.8 T(fl)ops(372.0)               85.3 T(fl)ops                76.1 T(fl)ops
mma_bf16bf16f32_16_16_16
run: 2997.0 ms                        43.1 T(fl)ops         384.9 T(fl)ops(371.6)               85.1 T(fl)ops                75.7 T(fl)ops
mma_bf16bf16f32_32_8_16
run: 2997.1 ms                        43.1 T(fl)ops         385.1 T(fl)ops(371.8)               85.1 T(fl)ops                76.1 T(fl)ops
mma_tf32tf32f32_16_16_8
run: 2999.8 ms                        21.6 T(fl)ops             96.8 T(fl)ops(93.5)               42.6 T(fl)ops                37.9 T(fl)ops

括号内红色标识为5090D。
发表于 2025-6-23 10:29 | 显示全部楼层
jaycty 发表于 2025-6-22 13:17
我确实不懂为什么要买5090弟

我买了,主要是有保修,不过如果真的弟也禁了,就不知道了。。。
发表于 2025-6-23 11:33 | 显示全部楼层
PPXG 发表于 2025-6-22 13:20
早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这 ...

主要是FP4的差距,那些测试没区别的都没测FP4性能
发表于 2025-6-23 13:42 | 显示全部楼层
四月中旬的时候我也测过了,发了帖子https://www.chiphell.com/thread-2688736-1-1.html
发表于 2025-6-23 13:47 | 显示全部楼层
PPXG 发表于 2025-6-22 13:20
早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这 ...

确实是这样 很多模型用6000ada和5000ada看起来也没多少差距
发表于 2025-6-23 14:49 来自手机 | 显示全部楼层
blackbeardever 发表于 2025-6-22 14:13
这跑分差不多翻倍的差距远大于硬件的差别,有点离谱啊。会不会是驱动或者固件上做的手脚? ...

目前推断是驱动级的软件锁,类似于30系LHR,一但监测到大规模低精度矩阵运算就主动降算力,tensorcore物理上应该是没做阉割
发表于 2025-6-23 15:10 | 显示全部楼层
PPXG 发表于 2025-6-23 14:49
目前推断是驱动级的软件锁,类似于30系LHR,一但监测到大规模低精度矩阵运算就主动降算力,tensorcore物 ...

所以这四位精度,FP4 为代表的大饼rubin ,目前也没看到业界跟上去啊。
反正int4 和 awq的四位简化,实际跑下来确实比FP8的差了不少,就是胜在速度快,并发高
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-6-24 02:37 , Processed in 0.013541 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表