找回密码
 加入我们
搜索
      
楼主: T.JOHN

[软件] 检查算力限制条件,理论上5090D至少没割推理算力

[复制链接]
发表于 2025-2-6 13:05 | 显示全部楼层
lh4357 发表于 2025-2-6 12:21
不了解这啥补丁,我只是找了个arch的安装盘进去看了下你说的这个。

https://github.com/tinygrad/open ... /tree/550.54.15-p2p。可以看看这个,效果就是让官方不支持的p2p但有large bar的显卡支持到p2p,当然还是有些兼容性问题。
发表于 2025-2-6 13:16 | 显示全部楼层
T.JOHN 发表于 2025-2-6 10:06
这个up主是小白,这视频是浪费生命,blackwell很多框架正在适配中,目前跑不了正常

...

没错。                     
发表于 2025-2-6 15:14 来自手机 | 显示全部楼层
ainomelody 发表于 2025-2-6 09:44
如果真是这样的话出d的意义在哪啊

消化不合格芯片,老黄赢麻了
 楼主| 发表于 2025-2-6 21:54 来自手机 | 显示全部楼层
lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

你说的对,我写错了。根据实测,老黄没割。
发表于 2025-2-6 21:57 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-2-6 22:18 编辑
T.JOHN 发表于 2025-2-6 09:56
首先推理工作负载不低,打满tgp没问题。其次推理和训练对gpu来说没区别,它不过是执行逻辑计算罢了。训练 ...


大部分推理框架下weight only量化模型推理打满tgp和tensorcore负载不到10%是不冲突的

更进一步的 哪怕不量化大部分推理框架都没法把tensorcore负载用上20%就会打满tgp

另外moe和显卡的2:4结构化稀疏mm扯不上半点关系...

举个例子 随便用llama.cpp跑个128K长的量化模型prefill 看卡1 tgp满 tensorcore负载3%
7`1PKOB{J%F@E]4DS`@S~~W.png

然后bf16不量化的 其他一样 tensorcore负载在tgp撞死的前提下也只到10%多
C9AIVD1J`5I5N6$[0LB5C%C.png

说的重点...你这多少有点凭想象乱解释
 楼主| 发表于 2025-2-6 22:22 | 显示全部楼层
zhuifeng88 发表于 2025-2-6 21:57
大部分推理框架下weight only量化模型推理打满tgp和tensorcore负载不到10%是不冲突的

更进一步的 哪怕不 ...

不需要想象啊,前面不是说了么,你要考虑real world usage。极客湾用nv演示的flux没测出来区别。如果现有的软件测不出区别,那就是没有区别,在5090/5090D生命周期内,对现在生产力软件和ai来说,所有性能都是一样的话,就等于没有阉割。
如果不明白rwu的话,再举个简单的例子方便大家理解如何设计产品。老黄设计了辆时速260的5090,而4090有时速200,目前全世界的道路车速上限是140。5年以后通过基建的改善和法规的放宽,出现了限速210的道路,那就才能体现4090和5090区别。

最后moe的稀疏计算的关系不是我说的。你有空读下论文,不要想当然。地址我给你了,或者你show下你发的论文说明两者没关系
MoE layers use sparse computing to selectively activate only a subset of "experts" (neural network components) for each input, which can significantly reduce computational costs

http://arxiv.org/pdf/2502.02581

发表于 2025-2-6 22:24 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-2-6 22:28 编辑
T.JOHN 发表于 2025-2-6 22:22
不需要想象啊,前面不是说了么,你要考虑real world usage。极客湾用nv演示的flux没测出来区别。如果现有 ...


这个论文早看过了 这里说的稀疏和2:4结构化稀疏根本就不是一回事, 你都不看内容就看个标题...


你都说了"MoE layers use sparse computing to selectively activate only a subset of "experts"


看来你是真不知道2:4结构化稀疏是个什么东西


你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算
 楼主| 发表于 2025-2-6 22:28 | 显示全部楼层
zhuifeng88 发表于 2025-2-6 22:24
这个论文早看过了 这里说的稀疏和2:4结构化稀疏根本就不是一回事

所以你是英语理解能力有问题很是中文理解能力有问题?,which can significantly reduce computational costs 我引用这篇论文给的观点,然后你说和我说的不是一回东西,怎么连我自己都不知道呢?
请问你同意不同意这段英文表述?如果同意将这段英文翻译成中文,然后我贴到主帖,然后我把我错误的中文言论放那里,让只会中文的人自行理解。
你满意了不?现在去翻译吧

发表于 2025-2-6 22:29 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-2-6 22:37 编辑
T.JOHN 发表于 2025-2-6 22:28
所以你是英语理解能力有问题很是中文理解能力有问题?,which can significantly reduce computational co ...


显卡的硬件稀疏计算加速是"你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算"

你发的东西是稀疏计算, 但你不会觉得稀疏计算只有一种稀疏方式吧?

还是那句话...你看来都没了解过显卡的2:4结构化稀疏是个什么东西...全凭想象

这是你发的, 下面是nvidia的硬件稀疏, 都不是一个维度的东西 你要不要再想想自己在说什么
K5KC(YV6WK3(O2Y]O5%RV_9.png 8~[RVFOA3Q@E_(}(J)1X_22.png
发表于 2025-2-6 23:03 | 显示全部楼层
T.JOHN 发表于 2025-2-6 02:04
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无 ...

至少moe可以全塞多卡里 激活参数在主运算卡推理
 楼主| 发表于 2025-2-6 23:23 | 显示全部楼层
zhuifeng88 发表于 2025-2-6 22:29
显卡的硬件稀疏计算加速是"你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算"

你发的东 ...

结论:稀疏计算有助于提高moe效率。我把论文发给你了,这篇论文发出来还不到24小时,你“早”就读过了,请问你“早”在它发出来之前读的吗?
方法:怎么清洗模型结构对齐到2,4。主楼第一版就引用了tensorflow官网的文章发给所有人了。
你是不是觉得只有当论文作者把论文的稀疏举例做成2,4结构,才能说明英伟达的硬件稀疏可以被应用到moe的稀疏计算上?你当年怎么读的大学?别说举一反三了,连调整数据结构都不会,我只能替你线代老师感到悲哀。
最后,别对线的时候编辑自己帖子。我对线的时候从不怕被打脸,错了就是错了,不需要挽尊。

发表于 2025-2-6 23:24 | 显示全部楼层
YsHaNg 发表于 2025-2-6 23:03
至少moe可以全塞多卡里 激活参数在主运算卡推理

这怎么设定?
发表于 2025-2-6 23:34 | 显示全部楼层
T.JOHN 发表于 2025-2-6 23:23
结论:稀疏计算有助于提高moe效率。我把论文发给你了,这篇论文发出来还不到24小时,你“早”就读过了, ...


编辑是补充内容, 不希望把楼弄得很长而已, 压根就没修改已有的内容

对齐到2:4那是无关的工作, 和文章说的稀疏发生的位置就不一样, 你发的paper是在gather/redufce阶段的稀疏 对齐到2:4是mm的事情 一个在说通信一个在说计算你还调整数据结构, 瞎说以为别人都看不懂
发表于 2025-2-6 23:36 | 显示全部楼层

用gpu visibility all全暴露就能显存全部叠加 给模型配置num_gpu 还有flash_attention会让cuda level最高的卡跑 k_v cache参数也有同样效果
发表于 2025-2-6 23:46 | 显示全部楼层
太专业了
我是不是可以理解为目前90和90d的ai推理算力一样
训练是否有区别现在没法验证
发表于 2025-2-7 03:22 | 显示全部楼层
这么说,跑深度学习炼丹 5090和5090d性能一样?
发表于 2025-2-25 13:26 | 显示全部楼层
pdvc 发表于 2025-2-6 10:21
RIFE用的TRT,不知道能不能测出来区别,不过目前win下还是10.7版。

对 就像看跑RIFE  ESRGAN这种有多少影响
发表于 2025-3-8 17:48 | 显示全部楼层
x想多了,5090D和5090的拆解视频截图,两张显卡的核心代码都不同!不知道GPU-Z为什么要显示为一样的?

50909ED8AC.jpg
发表于 2025-3-8 17:52 | 显示全部楼层
视频可以到B站看得到的
发表于 2025-3-8 17:54 | 显示全部楼层
我有问题请教,nvlink需不需要主板支持?双卡普通的x570两个x8能用不?
发表于 2025-3-8 17:57 | 显示全部楼层
结论就是单卡没区别多卡不行呗?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 04:50 , Processed in 0.029730 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表