检查算力限制条件，理论上5090D至少没割推理算力

q3again0605 · 发表于 2025-2-6 13:05

lh4357 发表于 2025-2-6 12:21
不了解这啥补丁，我只是找了个arch的安装盘进去看了下你说的这个。

https://github.com/tinygrad/open ... /tree/550.54.15-p2p。可以看看这个，效果就是让官方不支持的p2p但有large bar的显卡支持到p2p，当然还是有些兼容性问题。

buxiang110 · 发表于 2025-2-6 13:16

T.JOHN 发表于 2025-2-6 10:06
这个up主是小白，这视频是浪费生命，blackwell很多框架正在适配中，目前跑不了正常

...

没错。

CopperBean · 发表于 2025-2-6 15:14

ainomelody 发表于 2025-2-6 09:44
如果真是这样的话出d的意义在哪啊

消化不合格芯片，老黄赢麻了

T.JOHN · 发表于 2025-2-6 21:54

lh4357 发表于 2025-2-6 10:25
最神奇的事情是，这都发售快一星期了，测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

你说的对，我写错了。根据实测，老黄没割。

zhuifeng88 · 发表于 2025-2-6 21:57

本帖最后由 zhuifeng88 于 2025-2-6 22:18 编辑

T.JOHN 发表于 2025-2-6 09:56
首先推理工作负载不低，打满tgp没问题。其次推理和训练对gpu来说没区别，它不过是执行逻辑计算罢了。训练 ...

大部分推理框架下weight only量化模型推理打满tgp和tensorcore负载不到10%是不冲突的

更进一步的哪怕不量化大部分推理框架都没法把tensorcore负载用上20%就会打满tgp

另外moe和显卡的2:4结构化稀疏mm扯不上半点关系...

举个例子随便用llama.cpp跑个128K长的量化模型prefill 看卡1 tgp满 tensorcore负载3%
7`1PKOB{J%F@E]4DS`@S~~W.png

然后bf16不量化的其他一样 tensorcore负载在tgp撞死的前提下也只到10%多
C9AIVD1J`5I5N6$[0LB5C%C.png

说的重点...你这多少有点凭想象乱解释

T.JOHN · 发表于 2025-2-6 22:22

zhuifeng88 发表于 2025-2-6 21:57
大部分推理框架下weight only量化模型推理打满tgp和tensorcore负载不到10%是不冲突的

更进一步的哪怕不 ...

不需要想象啊，前面不是说了么，你要考虑real world usage。极客湾用nv演示的flux没测出来区别。如果现有的软件测不出区别，那就是没有区别，在5090/5090D生命周期内，对现在生产力软件和ai来说，所有性能都是一样的话，就等于没有阉割。
如果不明白rwu的话，再举个简单的例子方便大家理解如何设计产品。老黄设计了辆时速260的5090，而4090有时速200，目前全世界的道路车速上限是140。5年以后通过基建的改善和法规的放宽，出现了限速210的道路，那就才能体现4090和5090区别。

最后moe的稀疏计算的关系不是我说的。你有空读下论文，不要想当然。地址我给你了，或者你show下你发的论文说明两者没关系
MoE layers use sparse computing to selectively activate only a subset of "experts" (neural network components) for each input, which can significantly reduce computational costs

http://arxiv.org/pdf/2502.02581

zhuifeng88 · 发表于 2025-2-6 22:24

本帖最后由 zhuifeng88 于 2025-2-6 22:28 编辑

T.JOHN 发表于 2025-2-6 22:22
不需要想象啊，前面不是说了么，你要考虑real world usage。极客湾用nv演示的flux没测出来区别。如果现有 ...

这个论文早看过了这里说的稀疏和2:4结构化稀疏根本就不是一回事, 你都不看内容就看个标题...

你都说了"MoE layers use sparse computing to selectively activate only a subset of "experts"

看来你是真不知道2:4结构化稀疏是个什么东西

你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算

T.JOHN · 发表于 2025-2-6 22:28

zhuifeng88 发表于 2025-2-6 22:24
这个论文早看过了这里说的稀疏和2:4结构化稀疏根本就不是一回事

所以你是英语理解能力有问题很是中文理解能力有问题？,which can significantly reduce computational costs 我引用这篇论文给的观点，然后你说和我说的不是一回东西，怎么连我自己都不知道呢？
请问你同意不同意这段英文表述？如果同意将这段英文翻译成中文，然后我贴到主帖，然后我把我错误的中文言论放那里，让只会中文的人自行理解。
你满意了不？现在去翻译吧

zhuifeng88 · 发表于 2025-2-6 22:29

本帖最后由 zhuifeng88 于 2025-2-6 22:37 编辑

T.JOHN 发表于 2025-2-6 22:28
所以你是英语理解能力有问题很是中文理解能力有问题？,which can significantly reduce computational co ...

显卡的硬件稀疏计算加速是"你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算"

你发的东西是稀疏计算, 但你不会觉得稀疏计算只有一种稀疏方式吧?

还是那句话...你看来都没了解过显卡的2:4结构化稀疏是个什么东西...全凭想象

这是你发的, 下面是nvidia的硬件稀疏, 都不是一个维度的东西你要不要再想想自己在说什么
K5KC(YV6WK3(O2Y]O5%RV_9.png

YsHaNg · 发表于 2025-2-6 23:03

T.JOHN 发表于 2025-2-6 02:04
多卡互联分有两个问题，问题1. 把模型塞到不同显卡的显存中，lamma.cpp就能做到，塞到内存中都没问题，无 ...

至少moe可以全塞多卡里激活参数在主运算卡推理

T.JOHN · 发表于 2025-2-6 23:23

zhuifeng88 发表于 2025-2-6 22:29
显卡的硬件稀疏计算加速是"你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算"

你发的东 ...

结论：稀疏计算有助于提高moe效率。我把论文发给你了，这篇论文发出来还不到24小时，你“早”就读过了，请问你“早”在它发出来之前读的吗？
方法：怎么清洗模型结构对齐到2，4。主楼第一版就引用了tensorflow官网的文章发给所有人了。
你是不是觉得只有当论文作者把论文的稀疏举例做成2，4结构，才能说明英伟达的硬件稀疏可以被应用到moe的稀疏计算上？你当年怎么读的大学？别说举一反三了，连调整数据结构都不会，我只能替你线代老师感到悲哀。
最后，别对线的时候编辑自己帖子。我对线的时候从不怕被打脸，错了就是错了，不需要挽尊。

q3again0605 · 发表于 2025-2-6 23:24

YsHaNg 发表于 2025-2-6 23:03
至少moe可以全塞多卡里激活参数在主运算卡推理

这怎么设定？

zhuifeng88 · 发表于 2025-2-6 23:34

T.JOHN 发表于 2025-2-6 23:23
结论：稀疏计算有助于提高moe效率。我把论文发给你了，这篇论文发出来还不到24小时，你“早”就读过了， ...

编辑是补充内容, 不希望把楼弄得很长而已, 压根就没修改已有的内容

对齐到2:4那是无关的工作, 和文章说的稀疏发生的位置就不一样, 你发的paper是在gather/redufce阶段的稀疏对齐到2:4是mm的事情一个在说通信一个在说计算你还调整数据结构, 瞎说以为别人都看不懂

YsHaNg · 发表于 2025-2-6 23:36

q3again0605 发表于 2025-2-6 15:24
这怎么设定？

用gpu visibility all全暴露就能显存全部叠加给模型配置num_gpu 还有flash_attention会让cuda level最高的卡跑 k_v cache参数也有同样效果

manwomans · 发表于 2025-2-6 23:46

太专业了
我是不是可以理解为目前90和90d的ai推理算力一样
训练是否有区别现在没法验证

ScjMitsui · 发表于 2025-2-7 03:22

这么说，跑深度学习炼丹 5090和5090d性能一样？

Illidan2004 · 发表于 2025-2-25 13:26

pdvc 发表于 2025-2-6 10:21
RIFE用的TRT，不知道能不能测出来区别，不过目前win下还是10.7版。

对就像看跑RIFE ESRGAN这种有多少影响

hred9D · 发表于 2025-3-8 17:48

x想多了，5090D和5090的拆解视频截图，两张显卡的核心代码都不同！不知道GPU-Z为什么要显示为一样的？

hred9D · 发表于 2025-3-8 17:52

视频可以到B站看得到的

nickywin · 发表于 2025-3-8 17:54

我有问题请教，nvlink需不需要主板支持？双卡普通的x570两个x8能用不？

buxp · 发表于 2025-3-8 17:57

结论就是单卡没区别多卡不行呗？

账号		自动登录	找回密码
密码			加入我们

[软件] 检查算力限制条件，理论上5090D至少没割推理算力

浏览过的版块