找回密码
 加入我们
搜索
      
查看: 17562|回复: 82

[显卡] RTX5090D测试跑完了,跑AI的天塌了

[复制链接]
发表于 2025-1-20 12:54 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-1-20 12:57 编辑

llm微调一般是fp16 lora,这里说的训练都是微调,预训练就想多了(一般用bf16),目前世界上能做预训练的厂家就那些(国内能做预训练且openweight的可以参考美国实体清单),没有游戏卡啥事,不是个人和local llm搞的。

local llm做推理一般是q4/q3/q2,精度下降的影响有但是有限,因为能装下更多参数和上下文才是最大化利用scaling law的关键。

文生图方面,目前微调一般使用fp32或者混合精度,推理用fp16或int8,nv搞了个flux,在跟comfyui合作准备把推理精度降到q4。
发表于 2025-1-20 13:06 | 显示全部楼层
neavo 发表于 2025-1-20 13:01
也不是只有 72B 才算 LLM, 现在的 1.5B 作为专项任务模型很多时候就已经表现很好了

比如 jinaai 最近这 ...

领域模型又不挑硬件,我自己train了几个esp32都可以跑。不是本帖的话题。
发表于 2025-1-20 13:08 | 显示全部楼层
testcb00 发表于 2025-1-18 19:44
ECC模式啊 科研必须用ECC

科研也只有网格计算那种仿真才需要。深度学习模型本身就是大号纠错器。
发表于 2025-1-20 13:26 | 显示全部楼层
neavo 发表于 2025-1-20 13:19
esp32 也能跑的那也太小了

我想表达的意思是实际上需求没有这么极端:并非除了打游戏就是训练大参数量 ...


现在torch deepspeed它们都用nccl的backend,说白了用nv的东西被锁是当然的。

那意味着自己发明一个轮子可能可以绕开nv的管制。我对这个就不期待了,我们实验室都开始用国产卡了。
发表于 2025-1-20 13:30 | 显示全部楼层
大头吃小头 发表于 2025-1-20 13:29
能透露一下用啥卡吗?

华为的。
发表于 2025-1-20 13:37 | 显示全部楼层
neavo 发表于 2025-1-20 13:32
理论上在虚拟化环境下,我把八卡机虚拟成8台单卡机然后走多机互联的模式,虽然效率差一点,但是也是可以 ...

前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi,不知道还活着么。
发表于 2025-1-20 13:46 | 显示全部楼层
neavo 发表于 2025-1-20 13:40
我的意思是如果直通硬件虚拟成多台单卡机的话,nccl 也没办法知道这些“单卡机”实际上是同一台物理机上 ...

不知道当前nccl怎么检查多卡的,但它想要做到不靠硬件信息来检测的手段有的是,加一些检测手段到驱动或nccl里面对nv来说太简单了。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-6-14 03:18 , Processed in 0.008881 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表