找回密码
 加入我们
搜索
      
查看: 5819|回复: 28

[显卡] RTX 5090 D与RTX 5090的AI性能对比测试

[复制链接]
发表于 2025-3-26 19:57 来自手机 | 显示全部楼层 |阅读模式
原文链接:https://github.com/nehemiah888/rtx5090aitest?tab=readme-ov-file

省流:作者通过与Computer Vision Lab提供的5090 AI测试结果进行对比,结果显示:
在非LLM模型方面,无论是训练还是推理,5090和5090d在大部分模型的性能表现上区别不大,5090d比5090平均慢了百分之-17.2到11.4之间
但是在FP32精度上,对于Swin Base Patch4 Window7 224这个模型,5090d比5090在训练上慢了百分之41.9,在推理上慢了百分之63.3,明显低于4090
在LLM模型的推理上,两者性能的差异似乎与模型大小有关,在32b等较大模型上,两者只有个位数差距,但是在3-8b的小模型上,5090d比5090慢了百分之13到18

作者也提供了测试用的脚本和依赖环境,感兴趣的朋友可以自己复现

我奇怪的是为什么只有一个模型的一个特定精度(还是很少使用的FP32)有如此显著的区别,并且即使是有普遍差异的小参数LLM,5090d还是比4090快得多
感觉禁令禁了个寂寞
发表于 2025-3-26 20:07 | 显示全部楼层
Swin Transformer是个挺重要的模型, 那是不是基于Transformer的模型都做了限制, 那差距还是很大的.
发表于 2025-3-26 20:08 | 显示全部楼层
fp32精度的模型个人用户基本用不到
不过既然性能对比出来了
感觉高价买阉割版还是有点冤大头了
发表于 2025-3-26 20:08 来自手机 | 显示全部楼层
你要相信,这个世界是个巨大的草台班子,nv随便跑跑测试,打发了国会老爷,那些老爷们,哪里分得清什么是7B,什么是32B,哪些测试是传统ai,哪些是大模型,禁售文件只写了算力要求,老黄只要满足,就OK
发表于 2025-3-26 20:25 | 显示全部楼层
所以就是5090D还是有阉割的,但是还是强于4090?
发表于 2025-3-26 20:31 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-26 20:35 编辑

FP32不是纯CUDA么?
Tensor core都用不到,咋锁?

除非你的参数里有fp16 bf16混合精度。

我发现FP32+FP16混合精度训练确实比4090还慢。
但如果纯FP16、纯BF16又恢复了满速(比4090快20%左右),很难不觉得是软件BUG。
发表于 2025-3-26 20:34 | 显示全部楼层
本帖最后由 williamqh 于 2025-3-26 20:36 编辑
gsy111 发表于 2025-3-26 20:25
所以就是5090D还是有阉割的,但是还是强于4090?


某些模型训练弱于4090
发表于 2025-3-26 20:43 | 显示全部楼层

过卦年

加限定条件,做成ppt,轻松忽悠喊打喊杀的红脖子过关!
发表于 2025-3-26 21:05 | 显示全部楼层
50系显卡在相同算力下比40系快,5080实测没比4090算力纸面数据慢那么多,现在就等5090能有渠道买了,90D还是有点差距的
发表于 2025-3-26 21:10 | 显示全部楼层
williamqh 发表于 2025-3-26 20:34
某些模型训练弱于4090

现在收4090的厂家主要训练的模型呢?5090D有优势不?
发表于 2025-3-26 21:15 | 显示全部楼层
GZJerry 发表于 2025-3-26 21:10
现在收4090的厂家主要训练的模型呢?5090D有优势不?

人家更在意的是显存比5090大
发表于 2025-3-26 21:22 | 显示全部楼层
GZJerry 发表于 2025-3-26 21:10
现在收4090的厂家主要训练的模型呢?5090D有优势不?

看主要训练什么模型了, 貌似fp16差距不大. 有优势.
发表于 2025-3-28 16:41 | 显示全部楼层
平均弱了10%,还是得买非阉割版。
发表于 2025-3-28 17:12 | 显示全部楼层
a010301208 发表于 2025-3-26 21:05
50系显卡在相同算力下比40系快,5080实测没比4090算力纸面数据慢那么多,现在就等5090能有渠道买了,90D还 ...

满血的90最近滑的很厉害, 已经杀到2.7左右的区间
发表于 2025-3-28 17:13 | 显示全部楼层
liushihao 发表于 2025-3-28 17:12
满血的90最近滑的很厉害, 已经杀到2.7左右的区间

还是太贵
而且5090d貌似横盘好久了
90的价格就还是下不来
发表于 2025-3-28 17:17 | 显示全部楼层
manwomans 发表于 2025-3-28 17:13
还是太贵
而且5090d貌似横盘好久了
90的价格就还是下不来


90D 进2.2, 最终会和49倒挂, 倒挂就是出手的时机。
满血的滑下来一样会对D产生打压, 快了, 再一个月就能进1.X
完全不需要急, 没什么游戏49玩不了。
发表于 2025-3-28 17:18 | 显示全部楼层
StevenG 发表于 2025-3-26 20:08
你要相信,这个世界是个巨大的草台班子,nv随便跑跑测试,打发了国会老爷,那些老爷们,哪里分得清什么是7B ...

然后这个作者一通测试,国会老爷们全明白了。
发表于 2025-3-28 17:41 来自手机 | 显示全部楼层
国内花一样钱只能买太监版,NVIDIA F**K You
发表于 2025-3-28 17:43 | 显示全部楼层
有FP8和FP4相关的比对么
发表于 2025-3-28 18:00 来自手机 | 显示全部楼层
擦,我刚想买个 5090d,然后把 4090 出了,那看来还是要满血 90
发表于 2025-3-28 19:05 | 显示全部楼层
跑DP的话差距大吗?
发表于 2025-3-28 19:17 | 显示全部楼层
终于有结论了,真不容易……
发表于 2025-3-29 11:30 | 显示全部楼层
lh4357 发表于 2025-3-26 20:31
FP32不是纯CUDA么?
Tensor core都用不到,咋锁?

transformer engine锁了。虽然叫transformer engine但其实是混合精度,不是算子。而且这个te其实是cuda实现的,应该比较容易绕开。
发表于 2025-3-30 00:23 | 显示全部楼层
我实际测试过在我的应用场合两者是没有速度区别的
llama.cpp,基于qwen2.5训练的13b模型跑文字日译中,5090和5090D都是稳定126tokens左右,不过基于llama.cpp的bench确实差距很明显,一个是42,一个是29
我也不懂为什么bench和实际应用区别这么大,毕竟我只会使用不懂原理
发表于 2025-3-30 00:43 | 显示全部楼层
墨镜难 发表于 2025-3-30 00:23
我实际测试过在我的应用场合两者是没有速度区别的
llama.cpp,基于qwen2.5训练的13b模型跑文字日译中,5090 ...

你这个只是在跑推理吧
发表于 2025-3-30 00:50 | 显示全部楼层
manwomans 发表于 2025-3-30 00:43
你这个只是在跑推理吧

那我觉得区区32G肯定也不够跑训练
发表于 2025-3-30 00:55 | 显示全部楼层
墨镜难 发表于 2025-3-30 00:50
那我觉得区区32G肯定也不够跑训练

文生图模型做dreambooth训练够了
发表于 2025-3-30 04:03 来自手机 | 显示全部楼层
墨镜难 发表于 2025-3-30 00:23
我实际测试过在我的应用场合两者是没有速度区别的
llama.cpp,基于qwen2.5训练的13b模型跑文字日译中,5090 ...

有分阶段测过吗,复杂场景瓶颈不一定在计算上
发表于 2025-3-30 21:07 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-30 21:09 编辑
我輩樹である 发表于 2025-3-29 11:30
transformer engine锁了。虽然叫transformer engine但其实是混合精度,不是算子。而且这个te其实是cuda实 ...


就是pytorch训练开fp32或tf32模式的时候参数"fp16_run": true会让一个epoch时间和4090差不多,但   "fp16_run": false同时"bf16_run": true速度正常(比4090快20%)。

"fp16_run": false的时候,half_type无论是啥,速度都正常。

总之它就和fp16_run杠上了。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 23:29 , Processed in 0.085533 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表