Chiphell - 分享与交流用户体验»社区 › 讨论区-生活与技术的讨论 › 电脑讨论(新) › RTX5090D测试跑完了，跑AI的天塌了

RTX5090D测试跑完了，跑AI的天塌了

查看数: 18359 | 评论数: 82 | 收藏 3

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

omonob

发布时间: 2025-1-18 17:51

正文摘要:

先说今天能聊的，之前有网友说吧5090D核心扣下来，弄到5090PCB上不就是5090了么。首先这在国内能做到，你看看华强北的涡轮卡或48G的4090哪来的，不都是这么干的么。但是5090D我们昨做完拆解发现核心不是GB202-3 ...

我輩樹である 发表于 2025-1-20 13:46

neavo 发表于 2025-1-20 13:40
我的意思是如果直通硬件虚拟成多台单卡机的话，nccl 也没办法知道这些“单卡机”实际上是同一台物理机上 ...

不知道当前nccl怎么检查多卡的，但它想要做到不靠硬件信息来检测的手段有的是，加一些检测手段到驱动或nccl里面对nv来说太简单了。

neavo 发表于 2025-1-20 13:40

我輩樹である发表于 2025-1-20 13:37
前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi，不知道还活着么。 ...

我的意思是如果直通硬件虚拟成多台单卡机的话，nccl 也没办法知道这些“单卡机”实际上是同一台物理机上的虚拟机啊，最多再检查一下其他硬件设备的ID啥的来辅助判断一下，但是这都是小问题

我輩樹である 发表于 2025-1-20 13:37

neavo 发表于 2025-1-20 13:32
理论上在虚拟化环境下，我把八卡机虚拟成8台单卡机然后走多机互联的模式，虽然效率差一点，但是也是可以 ...

前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi，不知道还活着么。

neavo 发表于 2025-1-20 13:32

我輩樹である发表于 2025-1-20 13:26
现在torch deepspeed它们都用nccl的backend，说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子 ...

理论上在虚拟化环境下，我把八卡机虚拟成8台单卡机然后走多机互联的模式，虽然效率差一点，但是也是可以工作的

毕竟驱动能接触到的信息并没有办法分辨自己所在的物理机上还有没有其他卡

所以我就挺好奇这个“锁死多卡”是怎么实现的，总不能检测到虚拟化环境直接ban卡吧

如果只是物理机上通过驱动锁多卡，那等于没锁

我輩樹である 发表于 2025-1-20 13:30

大头吃小头发表于 2025-1-20 13:29
能透露一下用啥卡吗？

华为的。

大头吃小头 发表于 2025-1-20 13:29

我輩樹である发表于 2025-1-20 13:26
现在torch deepspeed它们都用nccl的backend，说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子 ...

能透露一下用啥卡吗？

我輩樹である 发表于 2025-1-20 13:26

neavo 发表于 2025-1-20 13:19
esp32 也能跑的那也太小了

我想表达的意思是实际上需求没有这么极端：并非除了打游戏就是训练大参数量 ...

现在torch deepspeed它们都用nccl的backend，说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子可能可以绕开nv的管制。我对这个就不期待了，我们实验室都开始用国产卡了。

neavo 发表于 2025-1-20 13:19

我輩樹である发表于 2025-1-20 13:06
领域模型又不挑硬件，我自己train了几个esp32都可以跑。不是本帖的话题。

esp32 也能跑的那也太小了

我想表达的意思是实际上需求没有这么极端：并非除了打游戏就是训练大参数量模型

在这其中其实是有一个中间态的，之前大量的 4090、L40 之类卡其实也是用在这种场景上，这些需求才是撑起 4090 价格的主力
特别是在国内，游戏玩家的需求与之对比九牛一毛

如果真的锁了多卡，那这部分需求就不存在了，同时又不影响个人玩家兴趣爱好性质的单卡训练或者推理，挺好的
就看这个锁是怎么实现的，能不能穿透虚拟化识别到物理机上的多卡

nunnally 发表于 2025-1-20 13:19

既然3秒真男人，那就让程序控制它跑2.9s，歇0.1，如此循环岂不美哉

我輩樹である 发表于 2025-1-20 13:08

testcb00 发表于 2025-1-18 19:44
ECC模式啊科研必须用ECC

科研也只有网格计算那种仿真才需要。深度学习模型本身就是大号纠错器。

我輩樹である 发表于 2025-1-20 13:06

neavo 发表于 2025-1-20 13:01
也不是只有 72B 才算 LLM，现在的 1.5B 作为专项任务模型很多时候就已经表现很好了

比如 jinaai 最近这 ...

领域模型又不挑硬件，我自己train了几个esp32都可以跑。不是本帖的话题。

neavo 发表于 2025-1-20 13:01

我輩樹である发表于 2025-1-20 12:54
llm微调一般是fp16 lora，这里说的训练都是微调，预训练就想多了（一般用bf16），目前世界上能做预训练的厂 ...

也不是只有 72B 才算 LLM，现在的 1.5B 作为专项任务模型很多时候就已经表现很好了

比如 jinaai 最近这个信息抽取与格式化的模型 https://huggingface.co/jinaai/ReaderLM-v2

还有我自己的语义分析模型 https://huggingface.co/neavo/keyword_gacha_llm_1.5b_multilingual

后面这个是在 Qwen-2.5-1.5B 的基础上进行二次 PT 以后再 SFT 得来的，Continue Pretrain 是挺常见的领域优化策略，也没那么高门槛

我輩樹である 发表于 2025-1-20 12:54

本帖最后由我輩樹である于 2025-1-20 12:57 编辑

llm微调一般是fp16 lora，这里说的训练都是微调，预训练就想多了（一般用bf16），目前世界上能做预训练的厂家就那些（国内能做预训练且openweight的可以参考美国实体清单），没有游戏卡啥事，不是个人和local llm搞的。

local llm做推理一般是q4/q3/q2，精度下降的影响有但是有限，因为能装下更多参数和上下文才是最大化利用scaling law的关键。

文生图方面，目前微调一般使用fp32或者混合精度，推理用fp16或int8，nv搞了个flux，在跟comfyui合作准备把推理精度降到q4。

就爱TJ 发表于 2025-1-20 12:03

顺便提一嘴我们搞到了600W的BIOS但是也不能拉功率性能提升了一点（真的就是一点不多）

并联检流电阻可破功耗墙吗？

neavo 发表于 2025-1-20 11:30

fengpc 发表于 2025-1-19 17:46
如果是FP8、FP16精度训练LLM，砍tensor core对性能影响比较大。如果是用FP32全精度训练就没什么影响，FP3 ...

也就只有传统 CV、NLP 可以用 FP32 来训练了，LLM 或者 Diffusion 用全精度训练那太奢侈了。。。

fighte97 发表于 2025-1-20 11:19

yangzi123aaa20 发表于 2025-1-19 00:14
理论上来说只要有3gb颗粒对应的bios就能改，但是还不如指望老黄真出5090ti 48g呢 ...

这相当于施坦纳温克魏德林一起发动进攻

fengpc 发表于 2025-1-19 17:46

xjr12000 发表于 2025-1-18 19:38
4090我估计最少7成都在跑算力用，真正用它打游戏，并且即使不打游戏了还留着不卖的，我估计很少
4090发布半 ...

如果是FP8、FP16精度训练LLM，砍tensor core对性能影响比较大。如果是用FP32全精度训练就没什么影响，FP32是用shader核心跑的。我们公司买4090D跑训练，速度就比30系快得多，不是训练LLM，就是一些CNN和transformer结合的模型，FP16训练超参调不好就容易炸，都是用FP32在训练。FP32训练尽管开就行，FP16就得时常盯着，炸了就得调学习率从异常位置再开始

fengpc 发表于 2025-1-19 17:40