找回密码
 加入我们
搜索
      
查看: 7873|回复: 50

[软件] 检查算力限制条件,理论上5090D至少没割推理算力

[复制链接]
发表于 2025-2-6 09:21 | 显示全部楼层 |阅读模式
本帖最后由 T.JOHN 于 2025-2-6 21:52 编辑

2/6/25 21:50更新&纠错
我重新看了下blackwell白皮书,按4090D阉割的逻辑,二楼说了对,我之前主帖是错误的。4090的FP8的密度算力是660。那么算力阉割看密度算力,不看稀疏算力,下面写的都是废话。

5090D的flux nf4极客湾测过了,和5090性能一样的,远快于4090,也不存在软件没适配好的问题,因为nv发布会上show的就是flux。即便是看密度算力,1676*4=6704,早就超了4800了。

但我们也不能说老黄限制的是实际算力,因为实际算力依赖环境,总是和理论标称是有差距的。去年底有个做ai benchmark做了苏妈专访的,他专门测了mi300和h100实际/理论算力比,h100情况要比mi300好很多。老黄只能割理论算力,这样美国出口管理才好认定。

总之极客湾云飞说了对,5090D这个“D”了有点迷

至于推理,还是和训练有点区别的。比如你没有nvlink,推理用pcie4.0x8+pcie4.0x4/x8会慢上40%,最终结果可能还是要请人测一下
img_2187.png



美出口限制为4800TPP。以4090为例,fp16是的稀疏算力是330t,tpp=330x16=5280略超4800,老黄就刀了10%变成4090D。
但实际上这是稀疏算力,也就是党权重为0时,线性代数有大量0的值,此时n卡可以快速处理,是正常密度算力的两倍。而真实算力也就1/2,即165t。

触发稀疏算力有以下几条件
1.清洗过的模型。
怎么清洗参考 tensorflow官网,https://www.tensorflow.org/model ... ith_sparsity_2_by_4
2.支持的cuda库cusparelt或使用trt
3.使用优化的后端,比如trt-lllm能让稀疏计算使用率可以达到50-70%,vllm只有20-40%
目前llm的后端引擎有两位数了,每个在github上少则几千多则几万的star,效率各不相同。n卡最好用trt-llm+triton server测
benchmark参考:https://www.bentoml.com/blog/benchmarking-llm-inference-backends
4.使用30系显卡以后显卡,之前20系有tensor core也不支持,更别提没tensor core的卡

注:5090的真实tpp就3360,达不到限制的4800,无需阉割。4800当时都是对着a100标的
发表于 2025-2-6 09:22 | 显示全部楼层
4090 fp16稀疏算力是660
 楼主| 发表于 2025-2-6 09:25 | 显示全部楼层
660x8和330x16有区别?玩文字游戏有意思?

发表于 2025-2-6 09:44 | 显示全部楼层
如果真是这样的话出d的意义在哪啊
发表于 2025-2-6 09:45 | 显示全部楼层
不懂,就说普通用户单卡,用生产力软件渲染,和用大路算涩图软件算图,是不是都毫无影响,囧。
发表于 2025-2-6 09:48 来自手机 | 显示全部楼层
推理的工作负载太低了,还是看训练和微调。只要哪天github上出个50系支持的训练脚本就可以看看dog版的真实面目了……到时候什么nccl啊都一起上看看是不是真的在河里罗勇
发表于 2025-2-6 09:51 | 显示全部楼层
5090D显卡跑AI效果可以看一下这个视频:BV1aNPBeZE5d 微信截图_20250206094920.png
发表于 2025-2-6 09:56 | 显示全部楼层
明白了,还有个问题,多卡互联的问题,3090ti后就不支持nvlink,2080ti开始不支持p2p,3090,90ti,4090还有large bar可以用开源内核打开p2p的限制,5090, 90D large bar是否还在,如果还在的话pcie5.0的p2p也是不错的。
 楼主| 发表于 2025-2-6 09:56 | 显示全部楼层
welsmann 发表于 2025-2-6 09:48
推理的工作负载太低了,还是看训练和微调。只要哪天github上出个50系支持的训练脚本就可以看看dog版的真实 ...

首先推理工作负载不低,打满tgp没问题。其次推理和训练对gpu来说没区别,它不过是执行逻辑计算罢了。训练中能用到稀疏计算的训练有最近很流行的moe

 楼主| 发表于 2025-2-6 10:04 | 显示全部楼层
q3again0605 发表于 2025-2-6 09:56
明白了,还有个问题,多卡互联的问题,3090ti后就不支持nvlink,2080ti开始不支持p2p,3090,90ti,4090还有 ...

多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无非就是降速罢了。 问题2. 多卡训练/推理速度成倍增长,a100/h100肯定可以,消费级不清楚老黄阉割程度,ollama不提升多卡性能。没找到其他后端多卡性能测试

 楼主| 发表于 2025-2-6 10:06 | 显示全部楼层
spikeout506 发表于 2025-2-6 09:51
5090D显卡跑AI效果可以看一下这个视频:BV1aNPBeZE5d

这个up主是小白,这视频是浪费生命,blackwell很多框架正在适配中,目前跑不了正常

 楼主| 发表于 2025-2-6 10:12 | 显示全部楼层
momoka 发表于 2025-2-6 09:45
不懂,就说普通用户单卡,用生产力软件渲染,和用大路算涩图软件算图,是不是都毫无影响,囧。 ...

传统生产力没影响,sd对于开箱即用的用户没啥影响。对于手动改工作流和后端的人有一定影响,但得对部署和调模型足够专业才行

发表于 2025-2-6 10:14 | 显示全部楼层
T.JOHN 发表于 2025-2-6 10:12
传统生产力没影响,sd对于开箱即用的用户没啥影响。对于手动改工作流和后端的人有一定影响,但得对部署和 ...

比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0
发表于 2025-2-6 10:17 | 显示全部楼层
本帖最后由 welsmann 于 2025-2-6 10:19 编辑
T.JOHN 发表于 2025-2-6 09:56
首先推理工作负载不低,打满tgp没问题。其次推理和训练对gpu来说没区别,它不过是执行逻辑计算罢了。训练 ...



但训练还是要测,光推理不训练没法证明算力未阉割

要是有个50系支持的moe微调脚本就可以用90d一试了,可惜现在好像还看不到。

还有就是类似于sd3.5 large 和flux1的50系lora适配脚本还没有普及,到时候用fp8和fp4测一下就知道了
 楼主| 发表于 2025-2-6 10:20 | 显示全部楼层
momoka 发表于 2025-2-6 10:14
比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0

极客湾和装机猿有flux.dev bnb nf4模型测试,5090d遥遥领先4090,因为4090不支持fp4。但测不出和5090差距,原因就是主楼。
但实际上正经用sd的人就不会用nf4模型,q8起步。根据reddit的用户反馈q4/q5/q6模型不在于图像质量不如q8而是画出来的图形和q8是两种风格的,人类审美上根本不是一回事。

发表于 2025-2-6 10:21 来自手机 | 显示全部楼层
RIFE用的TRT,不知道能不能测出来区别,不过目前win下还是10.7版。
发表于 2025-2-6 10:25 | 显示全部楼层
本帖最后由 lh4357 于 2025-2-6 10:32 编辑

最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测出锁多卡,以及锁算力的方式的到底是咋做到的。

如果那时候不能说,现在说的话应该没问题了吧。
然而那个人好像直接消失了。
 楼主| 发表于 2025-2-6 10:35 | 显示全部楼层
lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

是挺费劲的,测试依赖后端框架适配,会python/cpp且手搓一个模型,你这不是要了自媒体的亲命么?现在起码知道密度算力并不受影响,不是么?
另外稀疏算力用的场景有限,在real world usage中测比写脚本测更有意义,现在没有这种benchmark软件。除非让furthermark公司写个aibenchmark,在windows上装一堆依赖,给几个精度选项。一键运行,那自媒体又能测出来了。

发表于 2025-2-6 10:37 | 显示全部楼层
T.JOHN 发表于 2025-2-6 10:35
是挺费劲的,测试依赖后端框架适配,会python/cpp且手搓一个模型,你这不是要了自媒体的亲命么?现在起码 ...

https://www.chiphell.com/thread-2666266-1-1.html

我是说这个。。
发表于 2025-2-6 10:37 来自手机 | 显示全部楼层
lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

建议开个主贴着重讨论
发表于 2025-2-6 10:43 | 显示全部楼层
T.JOHN 发表于 2025-2-6 10:04
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无 ...

有谁有5090D的,能看一下large bar的情况就好了,看不到了这条路是堵上了。lspci -s 01:00.0 -v,linux下的命令,01:00.0替换为5090D 5090的device号。
4090会出现
Memory at b2000000 (32-bit, non-prefetchable) [size=16M]
Memory at 28800000000 (64-bit, prefetchable) [size=32G]  这个是large bar (bar 1)
Memory at 28400000000 (64-bit, prefetchable) [size=32M]
P100
        Memory at e6000000 (32-bit, non-prefetchable) [size=16M]
        Memory at 79c00000000 (64-bit, prefetchable) [size=16G] 这个是large bar (bar 1)
        Memory at 7a000000000 (64-bit, prefetchable) [size=32M]



发表于 2025-2-6 10:44 | 显示全部楼层
momoka 发表于 2025-2-6 10:14
比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0

早了点,适配还是会有问题,这段时间都有在做了。
 楼主| 发表于 2025-2-6 10:44 | 显示全部楼层
本帖最后由 T.JOHN 于 2025-2-6 10:47 编辑

回19楼,
这种在windows下截图,谈ai锁算力的。无代码,无环境,无过程的三无人士一律无视chh信源可靠的常见就那么几个,除非那个楼主是柯基
发表于 2025-2-6 10:45 | 显示全部楼层
T.JOHN 发表于 2025-2-6 10:04
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无 ...

vllm,sglang都可以采用tp的方式加速推理,有p2p或者nvlink对延迟和卡间通讯的改善明显。
发表于 2025-2-6 10:47 | 显示全部楼层
lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

3秒真男人?
发表于 2025-2-6 12:11 | 显示全部楼层
q3again0605 发表于 2025-2-6 10:43
有谁有5090D的,能看一下large bar的情况就好了,看不到了这条路是堵上了。lspci -s 01:00.0 -v,linux下 ...


5090D的。

01:00.0 VGA compatible controller: NVIDIA Corporation Device 2b87 (rev a1) (prog-if 00 [VGA controller])
        Memory at 80000000 (32-bit, non-prefetchable) [size=64M]
        Memory at 4000000000 (64-bit, prefetchable) [size=32G]
        Memory at 4800000000 (64-bit, prefetchable) [size=32M]
发表于 2025-2-6 12:19 | 显示全部楼层
lh4357 发表于 2025-2-6 12:11
5090D的。

01:00.0 VGA compatible controller: NVIDIA Corporation Device 2b87 (rev a1) (prog-if 00  ...

谢谢,还在,看看老的补丁能否打在支持的驱动上。
发表于 2025-2-6 12:21 | 显示全部楼层
q3again0605 发表于 2025-2-6 12:19
谢谢,还在,看看老的补丁能否打在支持的驱动上。

不了解这啥补丁,我只是找了个arch的安装盘进去看了下你说的这个。
发表于 2025-2-6 12:31 | 显示全部楼层
其实我想知道, 如果只是训练给SD所用的那种LORA小模型, 5090D能做得到吗?会3秒被锁吗?
发表于 2025-2-6 12:33 | 显示全部楼层
所以是牢黄另辟蹊径,用更少的药效达成了更高的疗效?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-25 13:08 , Processed in 0.015199 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表