RTX5090D测试跑完了，跑AI的天塌了

neavo · 发表于 2025-1-18 23:38

PolyMorph 发表于 2025-1-18 18:47
300%缺货，5090d一样能改48gb，就是速度慢

还没发布你就知道了大聪明？

neavo · 发表于 2025-1-20 11:30

fengpc 发表于 2025-1-19 17:46
如果是FP8、FP16精度训练LLM，砍tensor core对性能影响比较大。如果是用FP32全精度训练就没什么影响，FP3 ...

也就只有传统 CV、NLP 可以用 FP32 来训练了，LLM 或者 Diffusion 用全精度训练那太奢侈了。。。

neavo · 发表于 2025-1-20 13:01

我輩樹である发表于 2025-1-20 12:54
llm微调一般是fp16 lora，这里说的训练都是微调，预训练就想多了（一般用bf16），目前世界上能做预训练的厂 ...

也不是只有 72B 才算 LLM，现在的 1.5B 作为专项任务模型很多时候就已经表现很好了

比如 jinaai 最近这个信息抽取与格式化的模型 https://huggingface.co/jinaai/ReaderLM-v2

还有我自己的语义分析模型 https://huggingface.co/neavo/keyword_gacha_llm_1.5b_multilingual

后面这个是在 Qwen-2.5-1.5B 的基础上进行二次 PT 以后再 SFT 得来的，Continue Pretrain 是挺常见的领域优化策略，也没那么高门槛

neavo · 发表于 2025-1-20 13:19

我輩樹である发表于 2025-1-20 13:06
领域模型又不挑硬件，我自己train了几个esp32都可以跑。不是本帖的话题。

esp32 也能跑的那也太小了

我想表达的意思是实际上需求没有这么极端：并非除了打游戏就是训练大参数量模型

在这其中其实是有一个中间态的，之前大量的 4090、L40 之类卡其实也是用在这种场景上，这些需求才是撑起 4090 价格的主力
特别是在国内，游戏玩家的需求与之对比九牛一毛

如果真的锁了多卡，那这部分需求就不存在了，同时又不影响个人玩家兴趣爱好性质的单卡训练或者推理，挺好的
就看这个锁是怎么实现的，能不能穿透虚拟化识别到物理机上的多卡

neavo · 发表于 2025-1-20 13:32

我輩樹である发表于 2025-1-20 13:26
现在torch deepspeed它们都用nccl的backend，说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子 ...

理论上在虚拟化环境下，我把八卡机虚拟成8台单卡机然后走多机互联的模式，虽然效率差一点，但是也是可以工作的

毕竟驱动能接触到的信息并没有办法分辨自己所在的物理机上还有没有其他卡

所以我就挺好奇这个“锁死多卡”是怎么实现的，总不能检测到虚拟化环境直接ban卡吧

如果只是物理机上通过驱动锁多卡，那等于没锁

neavo · 发表于 2025-1-20 13:40

我輩樹である发表于 2025-1-20 13:37
前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi，不知道还活着么。 ...

我的意思是如果直通硬件虚拟成多台单卡机的话，nccl 也没办法知道这些“单卡机”实际上是同一台物理机上的虚拟机啊，最多再检查一下其他硬件设备的ID啥的来辅助判断一下，但是这都是小问题

账号		自动登录	找回密码
密码			加入我们

[显卡] RTX5090D测试跑完了，跑AI的天塌了

浏览过的版块