Chiphell - 分享与交流用户体验

标题: RTX5090D测试跑完了,跑AI的天塌了 [打印本页]

作者: omonob    时间: 2025-1-18 17:51
标题: RTX5090D测试跑完了,跑AI的天塌了
(, 下载次数: 64)
先说今天能聊的,之前有网友说吧5090D核心扣下来,弄到5090PCB上不就是5090了么。
首先这在国内能做到,你看看华强北的涡轮卡或48G的4090哪来的,不都是这么干的么。
但是5090D我们昨做完拆解发现核心不是GB202-300-A1而是GB202-XXX-XX
也不排除是媒体测试卡的缘故,但是如果5090和5090D核心代号都不一样,破解AI算力机会渺茫。

但是好消息这卡只要不缺货够呛能有溢价 顺便提一嘴我们搞到了600W的BIOS但是也不能拉功率性能提升了一点(真的就是一点不多)
作者: manwomans    时间: 2025-1-18 17:53
浪费大显存了
拜登坏事做尽人人得儿诛之
作者: omonob    时间: 2025-1-18 17:54
manwomans 发表于 2025-1-18 17:53
浪费大显存了
拜登坏事做尽人人得儿诛之

可不是呗
作者: jiajia    时间: 2025-1-18 17:54
575W和600W才差多少?肯定没啥提升啊
作者: gbawrc    时间: 2025-1-18 17:54
提示: 作者被禁止或删除 内容自动屏蔽
作者: omonob    时间: 2025-1-18 17:55
jiajia 发表于 2025-1-18 17:54
575W和600W才差多少?肯定没啥提升啊

有只能高一点点,PS二仙桥
作者: 自旋烧麦    时间: 2025-1-18 17:55
这一代最馋的还是FE的设计
作者: omonob    时间: 2025-1-18 17:56
自旋烧麦 发表于 2025-1-18 17:55
这一代最馋的还是FE的设计

我也馋今年6月有朋友从美国回。让他带一块。
作者: yiriyige    时间: 2025-1-18 17:57
这波是真拉了裤里了
作者: nlnjnj    时间: 2025-1-18 17:57
个人对多卡AI其实没啥需求,但是想跑一些图片和小视频玩玩
作者: 雪雨濂毅    时间: 2025-1-18 18:01
确实 几乎所有的电子产品 只要货足 随时可以买到原价 必然不会溢价 甚至破发 希望解禁后马上破发
作者: ghgfhghj    时间: 2025-1-18 18:02
核心不一样那也基本不可能刷4090的bios了
作者: ghgfhghj    时间: 2025-1-18 18:04
jiajia 发表于 2025-1-18 17:54
575W和600W才差多少?肯定没啥提升啊

5090d普通非公应该没有575w那么高的,4090d那时候大部分卡都是425w的,就猛禽可以拉600w
作者: dream3446    时间: 2025-1-18 18:05
omonob 发表于 2025-1-18 17:56
我也馋今年6月有朋友从美国回。让他带一块。

馋+1(字数补丁~)
作者: ihainan    时间: 2025-1-18 18:09
对于我这种纯游戏党来说,算是好事吧
作者: beckcppes    时间: 2025-1-18 18:11
好消息,利好游戏党
作者: guanqq_64    时间: 2025-1-18 18:27
跑AI的天塌了,臭打游戏的天晴了~
作者: fgfdhgg    时间: 2025-1-18 18:29
4090攥手里还能捂俩月,平换甚至倒贴不是梦了
作者: yuyuyu    时间: 2025-1-18 18:32
fgfdhgg 发表于 2025-1-18 18:29
4090攥手里还能捂俩月,平换甚至倒贴不是梦了

1.64卖出去的,1.55又赎回来了,感觉老美那边FE也是很难抢
作者: fgfdhgg    时间: 2025-1-18 18:41
yuyuyu 发表于 2025-1-18 18:32
1.64卖出去的,1.55又赎回来了,感觉老美那边FE也是很难抢

我反正纯玩游戏的,4090捏了两年甚至都没碰过SD。
哪怕是玩SD,也用不上那么高的算力。
对于我来说,如果游戏性能能提升30%而不用什么代价甚至还tm能赚钱,那我为什么不干呢
作者: 雨季不再来    时间: 2025-1-18 18:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: PolyMorph    时间: 2025-1-18 18:47
本帖最后由 PolyMorph 于 2025-1-18 18:57 编辑

300%缺货,5090d一样能改48gb,就是速度慢
作者: sunnest    时间: 2025-1-18 18:51
跑AI的应该窃喜啊,收的4090一样用,还能再收几块
作者: jihuan    时间: 2025-1-18 19:24
挺好的 ai不行对个人用户很有利
作者: welsmann    时间: 2025-1-18 19:31
本帖最后由 welsmann 于 2025-1-18 19:35 编辑
但是5090D我们昨做完拆解发现核心不是GB202-300-A1而是GB202-XXX-XX


如果这个是普遍现象,那么看起来就是4090dog的套路——激光物理切断tensor core的链接
回归游戏卡的本质了。

5090 game-only-Definition ver.  =>  5090D


(希望有个大佬拍个X光再比对BLKWL架构的白皮书看看有没有激光切断)
作者: xjr12000    时间: 2025-1-18 19:38
4090我估计最少7成都在跑算力用,真正用它打游戏,并且即使不打游戏了还留着不卖的,我估计很少
4090发布半年后曾经有一段时间价格几乎破发,后来不知怎么被ai佬看中了
作者: testcb00    时间: 2025-1-18 19:44
xjr12000 发表于 2025-1-18 19:38
4090我估计最少7成都在跑算力用,真正用它打游戏,并且即使不打游戏了还留着不卖的,我估计很少
4090发布半 ...

ECC模式啊 科研必须用ECC
作者: 寒蝉鸣泣    时间: 2025-1-18 19:59
ghgfhghj 发表于 2025-1-18 18:04
5090d普通非公应该没有575w那么高的,4090d那时候大部分卡都是425w的,就猛禽可以拉600w ...

名人堂666W路过
作者: ryan9247    时间: 2025-1-18 20:01
喜大普奔哈哈哈,好了大家首发都别抢,让我来
作者: 雪雨濂毅    时间: 2025-1-18 20:19
xjr12000 发表于 2025-1-18 19:38
4090我估计最少7成都在跑算力用,真正用它打游戏,并且即使不打游戏了还留着不卖的,我估计很少
4090发布半 ...

Steam全球玩家硬件统计表里 4090的用户比4080多 不过80一直都是性价比最低的那一款 所以80相对90要少一些
作者: 星辰柯博文    时间: 2025-1-18 20:24
自旋烧麦 发表于 2025-1-18 17:55
这一代最馋的还是FE的设计

飞线被600瓦暖风机吹氧化了就老实了。
作者: sunchengqm    时间: 2025-1-18 20:24
我比较在意的是就算是5090,单16pin的情况下是不是也没法超频提升多少(毕竟线上限就600w)……又要等名人堂吗,但是国内都没90了,难道要靠玄人志向出名人堂吗
作者: 星辰柯博文    时间: 2025-1-18 20:25
welsmann 发表于 2025-1-18 19:31
如果这个是普遍现象,那么看起来就是4090dog的套路——激光物理切断tensor core的链接
回归游戏卡的本质 ...

目前测试结果是AI算力三秒真男人,应该还是软锁。
作者: welsmann    时间: 2025-1-18 21:04
星辰柯博文 发表于 2025-1-18 20:25
目前测试结果是AI算力三秒真男人,应该还是软锁。

让子弹飞具体以后面解禁以后的分析为准。我估计他可能是在4090d的基础上再对ai加锁,同等于4090d……4090d只不过是没有这一层软件锁,它就是单纯的硬件阉割。你看,楼主拿到的卡核心编号都跟那个不一样,说明里面的内部结构是有一定的变动的,不然直接 gb 102-300.不就完了,刻印的激光还不用再额外开模,降本增效,多好
作者: fsc625    时间: 2025-1-18 21:09
sunchengqm 发表于 2025-1-18 20:24
我比较在意的是就算是5090,单16pin的情况下是不是也没法超频提升多少(毕竟线上限就600w)……又要等名人 ...

那是肯定的了
作者: fsc625    时间: 2025-1-18 21:09
上一代的媒体卡也是不一样的核心代码的
作者: lh4357    时间: 2025-1-18 21:14
welsmann 发表于 2025-1-18 21:04
让子弹飞具体以后面解禁以后的分析为准。我估计他可能是在4090d的基础上再对ai加锁,同等于4090d……4090 ...

没记错的话,30系LHR卡也是不一样的核心编号。
作者: Phonty    时间: 2025-1-18 21:24
能测新卡在pcie5.0x8下的性能损失吗?双卡用户表示关心
作者: welsmann    时间: 2025-1-18 21:31
lh4357 发表于 2025-1-18 21:14
没记错的话,30系LHR卡也是不一样的核心编号。

那就等子弹飞吧。有人肯定会去分析核心的,比如说拍个片子,如果tc模块有明显的激光断点的话,那是彻底没救了
作者: csqaclp    时间: 2025-1-18 21:42
这次老黄自己卡玩翻车了吗
能效比是不是不如4000系列了?
作者: zuochen    时间: 2025-1-18 21:49
welsmann 发表于 2025-1-18 21:31
那就等子弹飞吧。有人肯定会去分析核心的,比如说拍个片子,如果tc模块有明显的激光断点的话,那是彻底没 ...

老黄应该没那么闲去徒增产线成本,虽然对臭打游戏的不算好事
作者: wikieden    时间: 2025-1-18 21:52
确认过是一样的,渠道有老总拆过
作者: 取个名字真是难    时间: 2025-1-18 22:04
本帖最后由 取个名字真是难 于 2025-1-18 22:08 编辑
雪雨濂毅 发表于 2025-1-18 20:19
Steam全球玩家硬件统计表里 4090的用户比4080多 不过80一直都是性价比最低的那一款 所以80相对90要少一些 ...


steam的显卡统计表上ad103核心三兄弟(4070tis、4080、4080s)占比在整个40系桌面端里包揽倒数前三
作者: 落寞之心    时间: 2025-1-18 22:08
90D和90的电压墙上限一样吗?也是一点都不给拉?
作者: omonob    时间: 2025-1-18 22:31
Phonty 发表于 2025-1-18 21:24
能测新卡在pcie5.0x8下的性能损失吗?双卡用户表示关心

没测
作者: hushi007    时间: 2025-1-18 22:40
我觉得,般板这事你能想到老黄也能想到,毕竟4090前车之鉴放着,注定给你增加一些无法越过门槛,这样既满足臭打游戏了,有可以有需求去买专业卡 一举两得
作者: xjr12000    时间: 2025-1-18 23:29
本帖最后由 xjr12000 于 2025-1-18 23:32 编辑

我感觉,5090和5090D,在芯片的物理层面上,绝对不同
很多人说多切一刀会增加成本,可实际上,这种成本对nv来说几乎忽略不计
切一刀本身就是nv的流水线的一环,这种属于已经投入过的设备,增加这一刀的边际成本几乎为0,反正后面一系列显卡不都是某个规模芯片切出来的

作者: yangzi123aaa20    时间: 2025-1-18 23:34
Phonty 发表于 2025-1-18 21:24
能测新卡在pcie5.0x8下的性能损失吗?双卡用户表示关心

楼主之前不是说5090锁死双卡了吗,根本用不了
作者: neavo    时间: 2025-1-18 23:38
PolyMorph 发表于 2025-1-18 18:47
300%缺货,5090d一样能改48gb,就是速度慢

还没发布你就知道了大聪明?
作者: jy03336393    时间: 2025-1-19 00:03
neavo 发表于 2025-1-18 23:38
还没发布你就知道了大聪明?

别人等着囤卡收割呢,不得往死里吹,游戏佬手上能有几个钱?
还是AI佬的钱好赚
作者: yangzi123aaa20    时间: 2025-1-19 00:14
jy03336393 发表于 2025-1-19 00:03
别人等着囤卡收割呢,不得往死里吹,游戏佬手上能有几个钱?
还是AI佬的钱好赚 ...

理论上来说只要有3gb颗粒对应的bios就能改,但是还不如指望老黄真出5090ti 48g呢
作者: panzerlied    时间: 2025-1-19 01:17
本帖最后由 panzerlied 于 2025-1-19 01:20 编辑

5090D本来就是GB202-250-A1啊

而且SKU号都不一样啊,SKU35

你在想啥呢,虽然早期文档显示两个卡的id一样,但是后面就改成不一样了啊
作者: aasa0001    时间: 2025-1-19 03:19
welsmann 发表于 2025-1-18 19:31
如果这个是普遍现象,那么看起来就是4090dog的套路——激光物理切断tensor core的链接
回归游戏卡的本质 ...

白皮书里哪有这种东西?
作者: 赫敏    时间: 2025-1-19 03:30
星辰柯博文 发表于 2025-1-18 07:24
飞线被600瓦暖风机吹氧化了就老实了。

不至于。笔记本不都这样吗
作者: mythgo    时间: 2025-1-19 04:10
能介绍一下锁死多卡发细节吗?多卡在一张机器上是每张卡限制到4090d的算力还是其他卡全部算力归零?
如果多卡的限制比4090d还狠的话,严重怀疑5090d的价格会跌倒比4090d还低,已经没有那么多的游戏玩家支撑5090d的价格了
作者: rubycon2008    时间: 2025-1-19 07:32
ghgfhghj 发表于 2025-1-18 18:02
核心不一样那也基本不可能刷4090的bios了

是刷 5090 的 BIOS 吧
作者: 星辰柯博文    时间: 2025-1-19 08:58
赫敏 发表于 2025-1-19 03:30
不至于。笔记本不都这样吗

笔记本啥时候散热鳍片正对着飞线了?
公版5090完全可以用左右挖孔的异形PCB,结果硬要搞飞线。
作者: glader    时间: 2025-1-19 09:19
雪雨濂毅 发表于 2025-1-18 20:19
Steam全球玩家硬件统计表里 4090的用户比4080多 不过80一直都是性价比最低的那一款 所以80相对90要少一些 ...

是不是老黄也发现80性价比低,所以通过降低90的性价比来解决问题?哈哈哈
作者: PolyMorph    时间: 2025-1-19 09:51
mythgo 发表于 2025-1-19 04:10
能介绍一下锁死多卡发细节吗?多卡在一张机器上是每张卡限制到4090d的算力还是其他卡全部算力归零?
如果多 ...

9800x3d还要4000呢
作者: archxm    时间: 2025-1-19 10:14
panzerlied 发表于 2025-1-19 01:17
5090D本来就是GB202-250-A1啊

而且SKU号都不一样啊,SKU35

教主竟然要亲自翻文档
作者: panzerlied    时间: 2025-1-19 10:21
archxm 发表于 2025-1-19 10:14
教主竟然要亲自翻文档

内存哥你属苍蝇的啊,大过年的这没话找话的。
作者: tophnanfong    时间: 2025-1-19 12:17
那就买海外版咯
作者: ghgfhghj    时间: 2025-1-19 15:12
sunchengqm 发表于 2025-1-18 20:24
我比较在意的是就算是5090,单16pin的情况下是不是也没法超频提升多少(毕竟线上限就600w)……又要等名人 ...

上代还有水神630w,不过单16pin就这么点了,40系的pcie不怎么取电的
作者: wjm47196    时间: 2025-1-19 15:28
mythgo 发表于 2025-1-19 04:10
能介绍一下锁死多卡发细节吗?多卡在一张机器上是每张卡限制到4090d的算力还是其他卡全部算力归零?
如果多 ...

只能有一张工作。。。。
作者: gmlee1999    时间: 2025-1-19 16:32
破发到1W5以下,游戏玩家个人AI跑跑挺不错的,也免去了专业工作室和黄牛的炒作。
作者: fengpc    时间: 2025-1-19 17:40
testcb00 发表于 2025-1-18 19:44
ECC模式啊 科研必须用ECC

以前的科研超算是跑双精度,数据不能错所以要ECC。现在跑深度学习的,特别是transformer模型FP8、FP4这么低的精度都能用,有丁点数据错误对结果不影响的,而且GDDR5、GDDR6、GDDR7显存本来就有EDC,最容易出错的传输环节已经是带纠错的
作者: fengpc    时间: 2025-1-19 17:46
xjr12000 发表于 2025-1-18 19:38
4090我估计最少7成都在跑算力用,真正用它打游戏,并且即使不打游戏了还留着不卖的,我估计很少
4090发布半 ...

如果是FP8、FP16精度训练LLM,砍tensor core对性能影响比较大。如果是用FP32全精度训练就没什么影响,FP32是用shader核心跑的。我们公司买4090D跑训练,速度就比30系快得多,不是训练LLM,就是一些CNN和transformer结合的模型,FP16训练超参调不好就容易炸,都是用FP32在训练。FP32训练尽管开就行,FP16就得时常盯着,炸了就得调学习率从异常位置再开始
作者: fighte97    时间: 2025-1-20 11:19
yangzi123aaa20 发表于 2025-1-19 00:14
理论上来说只要有3gb颗粒对应的bios就能改,但是还不如指望老黄真出5090ti 48g呢 ...

这相当于施坦纳温克魏德林一起发动进攻
作者: neavo    时间: 2025-1-20 11:30
fengpc 发表于 2025-1-19 17:46
如果是FP8、FP16精度训练LLM,砍tensor core对性能影响比较大。如果是用FP32全精度训练就没什么影响,FP3 ...

也就只有传统 CV、NLP 可以用 FP32 来训练了,LLM 或者 Diffusion 用全精度训练那太奢侈了 。。。
作者: 就爱TJ    时间: 2025-1-20 12:03
顺便提一嘴我们搞到了600W的BIOS但是也不能拉功率性能提升了一点(真的就是一点不多)


并联检流电阻可破功耗墙吗?
作者: 我輩樹である    时间: 2025-1-20 12:54
本帖最后由 我輩樹である 于 2025-1-20 12:57 编辑

llm微调一般是fp16 lora,这里说的训练都是微调,预训练就想多了(一般用bf16),目前世界上能做预训练的厂家就那些(国内能做预训练且openweight的可以参考美国实体清单),没有游戏卡啥事,不是个人和local llm搞的。

local llm做推理一般是q4/q3/q2,精度下降的影响有但是有限,因为能装下更多参数和上下文才是最大化利用scaling law的关键。

文生图方面,目前微调一般使用fp32或者混合精度,推理用fp16或int8,nv搞了个flux,在跟comfyui合作准备把推理精度降到q4。

作者: neavo    时间: 2025-1-20 13:01
我輩樹である 发表于 2025-1-20 12:54
llm微调一般是fp16 lora,这里说的训练都是微调,预训练就想多了(一般用bf16),目前世界上能做预训练的厂 ...


也不是只有 72B 才算 LLM, 现在的 1.5B 作为专项任务模型很多时候就已经表现很好了

比如 jinaai 最近这个信息抽取与格式化的模型 https://huggingface.co/jinaai/ReaderLM-v2

还有我自己的语义分析模型 https://huggingface.co/neavo/keyword_gacha_llm_1.5b_multilingual

后面这个是在 Qwen-2.5-1.5B 的基础上进行二次 PT 以后再 SFT 得来的,Continue Pretrain 是挺常见的领域优化策略,也没那么高门槛
作者: 我輩樹である    时间: 2025-1-20 13:06
neavo 发表于 2025-1-20 13:01
也不是只有 72B 才算 LLM, 现在的 1.5B 作为专项任务模型很多时候就已经表现很好了

比如 jinaai 最近这 ...

领域模型又不挑硬件,我自己train了几个esp32都可以跑。不是本帖的话题。
作者: 我輩樹である    时间: 2025-1-20 13:08
testcb00 发表于 2025-1-18 19:44
ECC模式啊 科研必须用ECC

科研也只有网格计算那种仿真才需要。深度学习模型本身就是大号纠错器。
作者: nunnally    时间: 2025-1-20 13:19
既然3秒真男人,那就让程序控制它跑2.9s,歇0.1,如此循环岂不美哉
作者: neavo    时间: 2025-1-20 13:19
我輩樹である 发表于 2025-1-20 13:06
领域模型又不挑硬件,我自己train了几个esp32都可以跑。不是本帖的话题。


esp32 也能跑的那也太小了

我想表达的意思是实际上需求没有这么极端:并非除了打游戏就是训练大参数量模型

在这其中其实是有一个中间态的,之前大量的 4090、L40 之类卡其实也是用在这种场景上,这些需求才是撑起 4090 价格的主力
特别是在国内,游戏玩家的需求与之对比九牛一毛

如果真的锁了多卡,那这部分需求就不存在了,同时又不影响个人玩家兴趣爱好性质的单卡训练或者推理,挺好的
就看这个锁是怎么实现的,能不能穿透虚拟化识别到物理机上的多卡
作者: 我輩樹である    时间: 2025-1-20 13:26
neavo 发表于 2025-1-20 13:19
esp32 也能跑的那也太小了

我想表达的意思是实际上需求没有这么极端:并非除了打游戏就是训练大参数量 ...


现在torch deepspeed它们都用nccl的backend,说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子可能可以绕开nv的管制。我对这个就不期待了,我们实验室都开始用国产卡了。
作者: 大头吃小头    时间: 2025-1-20 13:29
我輩樹である 发表于 2025-1-20 13:26
现在torch deepspeed它们都用nccl的backend,说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子 ...

能透露一下用啥卡吗?
作者: 我輩樹である    时间: 2025-1-20 13:30
大头吃小头 发表于 2025-1-20 13:29
能透露一下用啥卡吗?

华为的。
作者: neavo    时间: 2025-1-20 13:32
我輩樹である 发表于 2025-1-20 13:26
现在torch deepspeed它们都用nccl的backend,说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子 ...


理论上在虚拟化环境下,我把八卡机虚拟成8台单卡机然后走多机互联的模式,虽然效率差一点,但是也是可以工作的

毕竟驱动能接触到的信息并没有办法分辨自己所在的物理机上还有没有其他卡

所以我就挺好奇这个“锁死多卡”是怎么实现的,总不能检测到虚拟化环境直接ban卡吧

如果只是物理机上通过驱动锁多卡,那等于没锁
作者: 我輩樹である    时间: 2025-1-20 13:37
neavo 发表于 2025-1-20 13:32
理论上在虚拟化环境下,我把八卡机虚拟成8台单卡机然后走多机互联的模式,虽然效率差一点,但是也是可以 ...

前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi,不知道还活着么。
作者: neavo    时间: 2025-1-20 13:40
我輩樹である 发表于 2025-1-20 13:37
前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi,不知道还活着么。 ...

我的意思是如果直通硬件虚拟成多台单卡机的话,nccl 也没办法知道这些“单卡机”实际上是同一台物理机上的虚拟机啊,最多再检查一下其他硬件设备的ID啥的来辅助判断一下,但是这都是小问题
作者: 我輩樹である    时间: 2025-1-20 13:46
neavo 发表于 2025-1-20 13:40
我的意思是如果直通硬件虚拟成多台单卡机的话,nccl 也没办法知道这些“单卡机”实际上是同一台物理机上 ...

不知道当前nccl怎么检查多卡的,但它想要做到不靠硬件信息来检测的手段有的是,加一些检测手段到驱动或nccl里面对nv来说太简单了。




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5