RTX 5090 vs RTX 5090 D 矩阵算力差异对比
本帖最后由 PolyMorph 于 2025-6-22 11:28 编辑RTX 5090 vs RTX 5090 D 性能差异分析
TFLOPS: 每秒万亿次浮点运算,数值越高性能越好
执行时间: 操作完成所需时间,时间越短效率越高
不同精度格式: 对比各种位宽的计算精度和性能平衡
4位精度操作性能对比
在4位精度矩阵乘法操作中,两款显卡表现出显著的性能差异:
4位精度关键发现:
RTX 5090 在4位精度操作中表现出约70%的性能优势
两款显卡都能达到极高的计算密度,但RTX 5090明显更优
4位精度是AI推理和量化模型的关键精度格式
8位精度操作性能对比
在8位精度矩阵乘法操作中,性能差异同样明显:
8位精度关键发现:
RTX 5090 在8位精度操作中表现出约71-73%的性能优势
性能提升幅度与4位精度基本一致,说明硬件架构优化是全面性的
8位精度在训练和推理中都有重要应用
技术分析总结
硬件架构差异:
计算单元优化:RTX 5090 相比 RTX 5090 D 在低精度计算单元上有显著优化
内存带宽:虽然两者全局内存相同(31.8 GiB),但RTX 5090的内存子系统性能更优
多处理器效率:相同的170个多处理器,但RTX 5090的调度和执行效率更高
应用场景影响:
AI训练:在混合精度训练中,RTX 5090能提供70%以上的速度优势
推理加速:量化模型部署时,RTX 5090的优势更加明显
成本效益:RTX 5090在单位时间内能处理更多数据,提高整体吞吐量
神经渲染:运用本地模型推理处理材质纹理光线追踪等传统光栅化工序,依赖哪个类型矩阵算力尚不清楚,如果正好用在D版阉割的类型,对帧数可能会影响
优化建议:
对于大规模AI工作负载,优先选择RTX 5090
RTX 5090 D适合预算有限但仍需要高性能计算的场景
在4位和8位精度为主的应用中,两者性能差异最为显著
https://github.com/search?q=mmapeak&type=repositories
测试算力需要下载安装cuda toolkit环境
通过网盘分享的文件:mmapeak.zip
链接: https://pan.baidu.com/s/1N--Rt5yXuY_kHFfjZ0TnxA?pwd=2kwm 提取码: 2kwm
--来自百度网盘超级会员v5的分享
5090对比RTX PRO 6000 一些速率tf32 fp16又是对半砍,4090对6000ada也是,价格摆在那里,产品定位差异
高端卡 算力 和普通人关系不大了 这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 我确实不懂为什么要买5090弟 本帖最后由 PPXG 于 2025-6-22 13:23 编辑
xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...
早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这里,所以老黄哪怕阉割了也很难在实际的时间成本上显现出来差距
说白了就是,现在跑模型的瓶颈压根不在tensorcore xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...
你好,是的 这跑分差不多翻倍的差距远大于硬件的差别,有点离谱啊。会不会是驱动或者固件上做的手脚? xjr12000 发表于 2025-6-22 13:10
这是不是屯卡的卖不掉了,所以出来打广告吗?
之前3月份的测试是没有任何区别 ...
应该是因为显存带宽限制根本跑不到理论性能。[偷笑]所有没区别。 jaycty 发表于 2025-6-22 13:17
我确实不懂为什么要买5090弟
因为有保修,而且不是所有人买5090都是为了跑ai 我确实不理解为什么要买5090弟弟[偷笑] 满意离开 有些买了D的人心如刀绞 我买5090没买D的原因就是以后卖了90肯定比90D更值钱
其实我只用来跑游戏而已 肯定买5090啊,和4090一个道理。 生产力的价值会升值 而娱乐会贬值。。。 FYI: TEST IN ubuntu 24.04.2LTS
本帖最后由 chm128256 于 2025-6-22 22:51 编辑
RTX3070 VS RTX5090(D) VS RTX4070TI
mma_s4s4s32_8_8_32
run: 2801.6 ms 308.0 T(fl)ops 82.5 T(fl)ops(79.6 T(fl)ops) 583.0 T(fl)ops
mma_f8f8f16_16_8_32
run: 2968.0 ms 763.2 T(fl)ops(430.2) 321.3 T(fl)ops
mma_f8f8f32_16_8_32
run: 2978.7 ms 385.0 T(fl)ops(370 ) 169.8 T(fl)ops
mma_s8s8s32_16_16_16
run: 2999.8 ms 169.9 T(fl)ops 772.0 T(fl)ops(430.9) 332.6 T(fl)ops
mma_s8s8s32_32_8_16
run: 2999.4 ms 170.0 T(fl)ops 772.4 T(fl)ops(430.9) 332.6 T(fl)ops
mma_f16f16f16_16_16_16
run: 3000.0 ms 86.4 T(fl)ops 773.0 T(fl)ops(428.9) 170.4 T(fl)ops
mma_f16f16f16_32_8_16
run: 3000.1 ms 86.4 T(fl)ops 772.5 T(fl)ops(429.7) 170.4 T(fl)ops
mma_f16f16f32_16_16_16
run: 2999.4 ms 43.2 T(fl)ops 384.9 T(fl)ops(367.4) 85.3 T(fl)ops
mma_f16f16f32_32_8_16
run: 2996.1 ms 43.2 T(fl)ops 384.8 T(fl)ops(372.0) 85.3 T(fl)ops
mma_bf16bf16f32_16_16_16
run: 2997.0 ms 43.1 T(fl)ops 384.9 T(fl)ops(371.6) 85.1 T(fl)ops
mma_bf16bf16f32_32_8_16
run: 2997.1 ms 43.1 T(fl)ops 385.1 T(fl)ops(371.8) 85.1 T(fl)ops
mma_tf32tf32f32_16_16_8
run: 2999.8 ms 21.6 T(fl)ops 96.8 T(fl)ops(93.5) 42.6 T(fl)ops
括号内红色标识为5090D。 路过问一下 某鱼上看 4090d 48g 便宜那么多 有什么限制呢 ,不能多卡 推理吗 ? 4070ti也跑了下,对比一下和5090差距大不大,不过很多运算指令集都不支持啊。是50系独家秘笈吧?
chm128256 发表于 2025-6-22 21:57
4070ti也跑了下,对比一下和5090差距大不大,不过很多运算指令集都不支持啊。是50系独家秘笈吧?
...
继续跑了下3090的,发现理论能力还不如4070ti啊,就剩显存大这个优势了。
不管D不D的[睡觉]
其实5楼的答案 就是目前的最终答案了 我确实不理解为什么要买5090弟弟 把手头的卡都大致测了一下,和5090&5090D做了对比,理论计算性能差距还是比较大的,除了mma_s4s4s32_8_8_32这个整数矩阵,50系是倒退严重啊!
RTX3070 VS RTX5090(D) VS RTX4070TI VS RTX3090
mma_s4s4s32_8_8_32
run: 2801.6 ms 308.0 T(fl)ops 82.5 T(fl)ops(79.6) 583.0 T(fl)ops 491.3 T(fl)ops
mma_f8f8f16_16_8_32
run: 2968.0 ms 763.2 T(fl)ops(430.2) 321.3 T(fl)ops
mma_f8f8f32_16_8_32
run: 2978.7 ms 385.0 T(fl)ops(370 ) 169.8 T(fl)ops
mma_s8s8s32_16_16_16
run: 2999.8 ms 169.9 T(fl)ops 772.0 T(fl)ops(430.9) 332.6 T(fl)ops 294.3 T(fl)ops
mma_s8s8s32_32_8_16
run: 2999.4 ms 170.0 T(fl)ops 772.4 T(fl)ops(430.9) 332.6 T(fl)ops 294.3 T(fl)ops
mma_f16f16f16_16_16_16
run: 3000.0 ms 86.4 T(fl)ops 773.0 T(fl)ops(428.9) 170.4 T(fl)ops 152.4 T(fl)ops
mma_f16f16f16_32_8_16
run: 3000.1 ms 86.4 T(fl)ops 772.5 T(fl)ops(429.7) 170.4 T(fl)ops 151.7 T(fl)ops
mma_f16f16f32_16_16_16
run: 2999.4 ms 43.2 T(fl)ops 384.9 T(fl)ops(367.4) 85.3 T(fl)ops 76.4 T(fl)ops
mma_f16f16f32_32_8_16
run: 2996.1 ms 43.2 T(fl)ops 384.8 T(fl)ops(372.0) 85.3 T(fl)ops 76.1 T(fl)ops
mma_bf16bf16f32_16_16_16
run: 2997.0 ms 43.1 T(fl)ops 384.9 T(fl)ops(371.6) 85.1 T(fl)ops 75.7 T(fl)ops
mma_bf16bf16f32_32_8_16
run: 2997.1 ms 43.1 T(fl)ops 385.1 T(fl)ops(371.8) 85.1 T(fl)ops 76.1 T(fl)ops
mma_tf32tf32f32_16_16_8
run: 2999.8 ms 21.6 T(fl)ops 96.8 T(fl)ops(93.5) 42.6 T(fl)ops 37.9 T(fl)ops
括号内红色标识为5090D。 jaycty 发表于 2025-6-22 13:17
我确实不懂为什么要买5090弟
我买了,主要是有保修,不过如果真的弟也禁了,就不知道了。。。 PPXG 发表于 2025-6-22 13:20
早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这 ...
主要是FP4的差距,那些测试没区别的都没测FP4性能 四月中旬的时候我也测过了,发了帖子https://www.chiphell.com/thread-2688736-1-1.html PPXG 发表于 2025-6-22 13:20
早就能测出来区别了,有些人测出来没区别主要是因为现阶段绝大多数跑推理和训练的通用模型瓶颈压根不在这 ...
确实是这样 很多模型用6000ada和5000ada看起来也没多少差距 blackbeardever 发表于 2025-6-22 14:13
这跑分差不多翻倍的差距远大于硬件的差别,有点离谱啊。会不会是驱动或者固件上做的手脚? ...
目前推断是驱动级的软件锁,类似于30系LHR,一但监测到大规模低精度矩阵运算就主动降算力,tensorcore物理上应该是没做阉割 PPXG 发表于 2025-6-23 14:49
目前推断是驱动级的软件锁,类似于30系LHR,一但监测到大规模低精度矩阵运算就主动降算力,tensorcore物 ...
所以这四位精度,FP4 为代表的大饼rubin ,目前也没看到业界跟上去啊。
反正int4 和 awq的四位简化,实际跑下来确实比FP8的差了不少,就是胜在速度快,并发高
页:
[1]