找回密码
 加入我们
搜索
      
查看: 9556|回复: 16

[显卡] [吐槽]4090涡轮太贵了 另求问用Ptuning训练2张或4张4090能比1张RTX6000ADA快吗?

[复制链接]
发表于 2023-4-19 11:29 | 显示全部楼层 |阅读模式
本帖最后由 godspeed66 于 2023-4-19 11:35 编辑

4090涡轮太贵了 另求问用Ptuning训练2个及以上4090能比1个RTX6000ADA48GB快吗?

本地4090涡轮已经涨到1.75万一张了,而且还是未税的


即使在咸鱼上4090涡轮也要1.5万一张,就咸鱼那个维保服务,还不敢买



另求问用Ptuning训练2张或4张4090,能比1张RTX6000 ADA 48GB快很多吗?  网上有信息说由于4090和RTX6000 ADA不支持NVLINK,某些时候会导致多张训练效果还不如单卡。


目前设置batch_size 24  训练时大约使用45G显存,max_steps 20000 大约需要45个小时,max_steps 2000 大约需要2.1个小时



 楼主| 发表于 2023-4-19 13:20 | 显示全部楼层
本帖最后由 godspeed66 于 2023-4-19 13:22 编辑
我輩樹である 发表于 2023-4-19 12:10
是tune哪个模型?我们实验室在玩llama,还没做优化,基本可以跑满4张4090(2张卡一台机器,2台,万兆连接) ...


现在用的是chatglm-6b,用官方的ChatGLM-6B/ptuning/ 在训练;

也同步在探索llama。


目前验证结果是具备可玩性,但离最基本的可用还差亿点点距离,初步判断是训练数据不足导致,正在继续增加数据集JSON,为了确保数据集准确目前只能人工处理。


非常感谢大神的你的帮助,等我们的数据集处理完就向4090多卡前进了


再次感谢大神
 楼主| 发表于 2023-4-19 13:22 | 显示全部楼层
ycsos 发表于 2023-4-19 11:39
能,mini_batch_size设置成12,4卡4090 DDP

非常感谢提供参数
 楼主| 发表于 2023-4-21 08:14 | 显示全部楼层
q3again0605 发表于 2023-4-19 15:17
问大神们一个问题,如果是做chatglm的ptuning,使用的数据是我们自己的5000条左右的对话,不太考虑时效,一 ...

chatglm-6B    batch_size 2 ,FP16 非向量模式 ,需要15.4GB显存

预估用int 4  10GB显存能跑,但不建议,本来微调数据集量就小,再量化,不看好效果
 楼主| 发表于 2023-4-21 08:16 | 显示全部楼层
ycsos 发表于 2023-4-19 14:03
根据经验,你要是多卡训练的话,单卡能跑起来bs==1的情况下,没有nvlink的情况下,DDP的性能是最好的,因 ...

学习中,还没接触到你说的参数

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-10-26 07:33 , Processed in 0.008068 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表