五年一装机 发表于 2025-4-19 11:27

5090和5090D的区别基本可以盖棺了

本帖最后由 五年一装机 于 2025-4-19 11:30 编辑

https://www.bilibili.com/video/BV1JidsYDE2L
详见视频及评论区的热门回复
用最简单的语言可以总结为以下两条结论
算力阉割确认存在,和官方PPT被阉割的tensor的比值2375/3352一致
对大规模部署有影响,对个人用户几乎无影响,因为个人用户的使用场景没有那么极端

proc 发表于 2025-4-19 11:39

对个人用户无影响,但是对价格影响很大

4090、5090的价格不是靠个人用户撑起来的

63047838 发表于 2025-4-19 11:44

本帖最后由 63047838 于 2025-4-19 11:47 编辑

现在说这个有用吗,都停产了。

Mashiro_plan_C 发表于 2025-4-19 12:08

现在说这个有用吗都停产了.jpg

lh4357 发表于 2025-4-19 12:09

主要是这个差距比2375/3352可大了不少,已经只有60%性能了。

nic000fol 发表于 2025-4-19 15:17

发布后用了这么久才测出来。之前的3秒真男人呢?

踢鸡鸡 发表于 2025-4-19 15:18

所以到底有没有区别?

dukeyli 发表于 2025-4-19 16:21

对个人用户到底有没有区别呢?

秋天の神 发表于 2025-4-19 17:57

不是行不行的问题了,是有没有那个的问题

我輩樹である 发表于 2025-4-19 18:51

主要矛盾就是真实训练场景和mmapeak之间的区别。

mmapeak的代码是开源的,可以看一下,或者让ai解读一下。
https://github.com/ReinForce-II/mmapeak/blob/main/mmapeak.cu

结论就是理论性能有影响,但现实场景上影响不大。

mmapeak中使用ptx内联优化的mma指令,也就是锚定乘积与累加矩阵乘法这一单一指令进行测试,没有任何来自显存或缓存的过载。

比如数据直接在显存里面随机生成(mmapeak是数据全零的矩阵相乘),计算完后的结果也不需要移动直接废弃。

纯粹的裸跑,这样必然会触碰到老黄为了过国会老爷测试设定的红线,但也跟现实计算场景没有任何关系了。

现实场景下,训练transformer based大模型的mma指令利用率通常在50%左右,其实transformer模型已经相对计算密集了,扩散模型更加访存密集。

ai给的几个例子:

**-3 训练(A100 GPU):
A100 FP16 峰值:312 TFlops。
实际训练吞吐量:约 100-150 TFlops(基于 Megatron-LM 优化)。
满载度:约 32%-48%。
原因:注意力机制和全连接层占主导,但 LayerNorm 和通信开销降低利用率。

LLaMA 训练(H100 GPU):
H100 FP8 峰值:1979 TFlops。
实际吞吐量:约 600-1000 TFlops(基于 FP8 优化)。
满载度:约 30%-50%。
原因:FP8 减少访存开销,但小矩阵和非计算操作仍有限制。

Stable Diffusion(A100/H100):
满载度:约 20%-40%。
原因:卷积和 U-Net 结构导致矩阵形状不规则,访存密集。

这里面最大的直觉上的问题是为啥mma占用这么低,但是nvidia-smi上却都是满载,那是因为这个回报的读数还包括了内存控制器执行的时间,已经软件上的比如Tiling处理的时间。如果你的显卡啸叫的话,你大概就能明白什么时候mma在满发射了。

mythgo 发表于 2025-4-20 02:46

用50%~100%溢价上5090D的玩家真是倒大霉,AI阉割以后没有AI佬接盘,AI佬要么去买5090了要么去改4090。
停产后没有保修,参考4090的情况,坏了按照0.8倍初始价格赔偿。

衰败灼烧 发表于 2025-4-20 02:54

据说90D被禁了 这下一样五保户了

spikeout506 发表于 2025-4-20 03:24

衰败灼烧 发表于 2025-4-20 02:54
据说90D被禁了 这下一样五保户了

刚在贴吧年到,有大神爆料,英伟达正紧急协商。看现在这苗头,下一步恐怕是高端CPU了。唉,DIY就是这么难
页: [1]
查看完整版本: 5090和5090D的区别基本可以盖棺了