[求助]为啥我的GPU-Z不显示Bus Interface Load了? 我怎么知道瓶颈在哪?
[求助]为啥我的GPU-Z不显示Bus Interface Load了?我怎么知道瓶颈在哪?按道理两张卡不应该频繁的传数据吗? 本帖最后由 zhuifeng88 于 2024-2-23 15:02 编辑
看你用法啊, 要是ddp/zero2以下的话本来就不会频繁传数据, tensor parallel/zero3才会
而且又不是没显示 zhuifeng88 发表于 2024-2-23 15:01
看你用法啊, 要是ddp/zero2以下的话本来就不会频繁传数据, tensor parallel/zero3才会
而且又不是没显示 ...
就是Qwen1.5-72B-Chat-**Q-Int4的推理,transformers 4.37.2,不是在微调 本帖最后由 zhuifeng88 于 2024-2-23 15:33 编辑
godspeed66 发表于 2024-2-23 15:16
就是Qwen1.5-72B-Chat-**Q-Int4的推理,transformers 4.37.2,不是在微调
transformers sequential map bs=1 generation的话正常, 每token两张卡之间只要传不到1MB的数据, bus load当然不带动的
稍微动那3次应该能和prompt prefill的时间点对上 zhuifeng88 发表于 2024-2-23 15:27
transformers sequential map bs=1 generation的话正常, 每token两张卡之间只要传不到1MB的数据, bus loa ...
收到 谢谢
页:
[1]