zhuifeng88 发表于 2024-2-23 15:27 收到 谢谢 |
本帖最后由 zhuifeng88 于 2024-2-23 15:33 编辑 godspeed66 发表于 2024-2-23 15:16 transformers sequential map bs=1 generation的话正常, 每token两张卡之间只要传不到1MB的数据, bus load当然不带动的 稍微动那3次应该能和prompt prefill的时间点对上 |
zhuifeng88 发表于 2024-2-23 15:01 就是Qwen1.5-72B-Chat-**Q-Int4的推理,transformers 4.37.2,不是在微调 |
本帖最后由 zhuifeng88 于 2024-2-23 15:02 编辑 看你用法啊, 要是ddp/zero2以下的话本来就不会频繁传数据, tensor parallel/zero3才会 而且又不是没显示 ![]() |
Archiver|手机版|小黑屋|Chiphell
( 沪ICP备12027953号-5 )310112100042806
GMT+8, 2025-5-2 18:03 , Processed in 0.011229 second(s), 9 queries , Gzip On, Redis On.
Powered by Discuz! X3.5 Licensed
© 2007-2024 Chiphell.com All rights reserved.