RTX5090D测试跑完了，跑AI的天塌了

我輩樹である · 发表于 2025-1-20 12:54

本帖最后由我輩樹である于 2025-1-20 12:57 编辑

llm微调一般是fp16 lora，这里说的训练都是微调，预训练就想多了（一般用bf16），目前世界上能做预训练的厂家就那些（国内能做预训练且openweight的可以参考美国实体清单），没有游戏卡啥事，不是个人和local llm搞的。

local llm做推理一般是q4/q3/q2，精度下降的影响有但是有限，因为能装下更多参数和上下文才是最大化利用scaling law的关键。

文生图方面，目前微调一般使用fp32或者混合精度，推理用fp16或int8，nv搞了个flux，在跟comfyui合作准备把推理精度降到q4。

我輩樹である · 发表于 2025-1-20 13:06

neavo 发表于 2025-1-20 13:01
也不是只有 72B 才算 LLM，现在的 1.5B 作为专项任务模型很多时候就已经表现很好了

比如 jinaai 最近这 ...

领域模型又不挑硬件，我自己train了几个esp32都可以跑。不是本帖的话题。

我輩樹である · 发表于 2025-1-20 13:08

testcb00 发表于 2025-1-18 19:44
ECC模式啊科研必须用ECC

科研也只有网格计算那种仿真才需要。深度学习模型本身就是大号纠错器。

我輩樹である · 发表于 2025-1-20 13:26

neavo 发表于 2025-1-20 13:19
esp32 也能跑的那也太小了

我想表达的意思是实际上需求没有这么极端：并非除了打游戏就是训练大参数量 ...

现在torch deepspeed它们都用nccl的backend，说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子可能可以绕开nv的管制。我对这个就不期待了，我们实验室都开始用国产卡了。

我輩樹である · 发表于 2025-1-20 13:30

大头吃小头发表于 2025-1-20 13:29
能透露一下用啥卡吗？

华为的。

我輩樹である · 发表于 2025-1-20 13:37

neavo 发表于 2025-1-20 13:32
理论上在虚拟化环境下，我把八卡机虚拟成8台单卡机然后走多机互联的模式，虽然效率差一点，但是也是可以 ...

前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi，不知道还活着么。

我輩樹である · 发表于 2025-1-20 13:46

neavo 发表于 2025-1-20 13:40
我的意思是如果直通硬件虚拟成多台单卡机的话，nccl 也没办法知道这些“单卡机”实际上是同一台物理机上 ...

不知道当前nccl怎么检查多卡的，但它想要做到不靠硬件信息来检测的手段有的是，加一些检测手段到驱动或nccl里面对nv来说太简单了。

账号		自动登录	找回密码
密码			加入我们

[显卡] RTX5090D测试跑完了，跑AI的天塌了

浏览过的版块