[吐槽]4090涡轮太贵了另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗？

godspeed66 · 发表于 2023-4-19 11:29

本帖最后由 godspeed66 于 2023-4-19 11:35 编辑

4090涡轮太贵了另求问用Ptuning训练2个及以上4090能比1个RTX6000ADA48GB快吗？

本地4090涡轮已经涨到1.75万一张了，而且还是未税的

即使在咸鱼上4090涡轮也要1.5万一张，就咸鱼那个维保服务，还不敢买

另求问用Ptuning训练2张或4张4090，能比1张RTX6000 ADA 48GB快很多吗？网上有信息说由于4090和RTX6000 ADA不支持NVLINK，某些时候会导致多张训练效果还不如单卡。

目前设置batch_size 24 训练时大约使用45G显存，max_steps 20000 大约需要45个小时，max_steps 2000 大约需要2.1个小时

godspeed66 · 发表于 2023-4-19 13:20

本帖最后由 godspeed66 于 2023-4-19 13:22 编辑

我輩樹である发表于 2023-4-19 12:10
是tune哪个模型？我们实验室在玩llama，还没做优化，基本可以跑满4张4090（2张卡一台机器，2台，万兆连接） ...

现在用的是chatglm-6b，用官方的ChatGLM-6B/ptuning/ 在训练；

也同步在探索llama。

目前验证结果是具备可玩性，但离最基本的可用还差亿点点距离，初步判断是训练数据不足导致，正在继续增加数据集JSON，为了确保数据集准确目前只能人工处理。

非常感谢大神的你的帮助，等我们的数据集处理完就向4090多卡前进了

再次感谢大神

godspeed66 · 发表于 2023-4-19 13:22

ycsos 发表于 2023-4-19 11:39
能，mini_batch_size设置成12,4卡4090 DDP

非常感谢提供参数

godspeed66 · 发表于 2023-4-21 08:14

q3again0605 发表于 2023-4-19 15:17
问大神们一个问题，如果是做chatglm的ptuning，使用的数据是我们自己的5000条左右的对话，不太考虑时效，一 ...

chatglm-6B batch_size 2 ，FP16 非向量模式，需要15.4GB显存

预估用int 4 10GB显存能跑，但不建议，本来微调数据集量就小，再量化，不看好效果

godspeed66 · 发表于 2023-4-21 08:16

ycsos 发表于 2023-4-19 14:03
根据经验，你要是多卡训练的话，单卡能跑起来bs==1的情况下，没有nvlink的情况下，DDP的性能是最好的，因 ...

学习中，还没接触到你说的参数

账号		自动登录	找回密码
密码			加入我们

[显卡] [吐槽]4090涡轮太贵了另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗？

浏览过的版块

[显卡] [吐槽]4090涡轮太贵了 另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗？

浏览过的版块

[显卡] [吐槽]4090涡轮太贵了另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗？