[吐槽]4090涡轮太贵了 另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗?
本帖最后由 godspeed66 于 2023-4-19 11:35 编辑[吐槽]4090涡轮太贵了 另求问用Ptuning训练2个及以上4090能比1个RTX6000ADA48GB快吗?
本地4090涡轮已经涨到1.75万一张了,而且还是未税的[流泪]
即使在咸鱼上4090涡轮也要1.5万一张,就咸鱼那个维保服务,还不敢买
另求问用Ptuning训练2张或4张4090,能比1张RTX6000 ADA 48GB快很多吗?网上有信息说由于4090和RTX6000 ADA不支持NVLINK,某些时候会导致多张训练效果还不如单卡。
目前设置batch_size 24训练时大约使用45G显存,max_steps 20000 大约需要45个小时,max_steps 2000 大约需要2.1个小时
能,mini_batch_size设置成12,4卡4090 DDP 4090涡轮质保条例一直在变,之前是可以个人送保去找厂家,现在变成只能去找经销商了。建议如果不是有本地商家认识的话,最好还是不要去闲鱼上买。或者你走闲鱼上商家采购合同买,开票对公。 是tune哪个模型?我们实验室在玩llama,还没做优化,基本可以跑满4张4090(2张卡一台机器,2台,万兆连接)。
要在这里找到有多块H100/H800的人估计难吧。nvlink主要是改善统一寻址的速度,可以用nv nsight system prof分析一下python代码,看看同步的负载。 本帖最后由 godspeed66 于 2023-4-19 13:22 编辑
我輩樹である 发表于 2023-4-19 12:10
是tune哪个模型?我们实验室在玩llama,还没做优化,基本可以跑满4张4090(2张卡一台机器,2台,万兆连接) ...
现在用的是chatglm-6b,用官方的ChatGLM-6B/ptuning/ 在训练;
也同步在探索llama。
目前验证结果是具备可玩性,但离最基本的可用还差亿点点距离,初步判断是训练数据不足导致,正在继续增加数据集JSON,为了确保数据集准确目前只能人工处理。
非常感谢大神的你的帮助,等我们的数据集处理完就向4090多卡前进了
再次感谢大神 ycsos 发表于 2023-4-19 11:39
能,mini_batch_size设置成12,4卡4090 DDP
非常感谢提供参数[可爱] godspeed66 发表于 2023-4-19 13:22
非常感谢提供参数
根据经验,你要是多卡训练的话,单卡能跑起来bs==1的情况下,没有nvlink的情况下,DDP的性能是最好的,因为DDP的反向梯度all reduce是overlap在反向回传里面的。但是如果模型bs==1放不下的话,只能用TP或者PP的话没有nvlink性能会下降很多,因为每次同步都要走pcie,所以还是要看你的模型大小。并且如果模型太大可以看看zero-2 我们在用A100全NVLINK,多机IB800G互联,跑得飞起
对楼上的机器流下了羡慕的口水。
问大神们一个问题,如果是做chatglm的ptuning,使用的数据是我们自己的5000条左右的对话,不太考虑时效,一晚上的时间10-12个小时能完成目前都能接受的情况,bs如果调到2或者1,用3080 10g够吗?谢谢 本帖最后由 kovaakdebil 于 2023-4-19 15:25 编辑
再问问其他服务器商家吧,我问的一个是1.55万未税 terryhux 发表于 2023-4-19 15:07
我们在用A100全NVLINK,多机IB800G互联,跑得飞起
你司这个是整机采购的么,哪里采的呢,方便PM不。SXM版的机器不太好买的牙子 我们刚买了4090涡轮 一万七千多含税 上水就是单槽。 q3again0605 发表于 2023-4-19 15:17
问大神们一个问题,如果是做chatglm的ptuning,使用的数据是我们自己的5000条左右的对话,不太考虑时效,一 ...
chatglm-6B batch_size 2 ,FP16 非向量模式 ,需要15.4GB显存
预估用int 410GB显存能跑,但不建议,本来微调数据集量就小,再量化,不看好效果 ycsos 发表于 2023-4-19 14:03
根据经验,你要是多卡训练的话,单卡能跑起来bs==1的情况下,没有nvlink的情况下,DDP的性能是最好的,因 ...
学习中,还没接触到你说的参数[雷人]
8楼的这是什么神仙配置,好生羡慕~
页:
[1]