5090D不能AI是不是实锤
本帖最后由 purityWang 于 2025-1-22 11:36 编辑我用其他卡多卡经常是跑在100多瓦功耗,全量微调1B,3B,7B, 比如用huggingface accelerate加deepspeed 或加fsdp,就是功耗跑不上去,目前猜测是显存限制只能小batch size,再加上用这些框架多卡间通信可能多,可能存在等待,但占用率100%
暂时没实验单卡是不是存在小batch size功耗上不去的情况
顺便问问牛们有没有优化提升功耗的方法
前面说了由于显存限制指的是说我的卡24G三张只有72G这个限制,不是显存本身受到限制了,是72G显存小限制了batch size,如果八张应该batch size就上去了。不是指显存本身采取了啥措施被限制 5090d跑ai连显存都限制?
本来就指着多出来的显存开高batch size能把屏蔽的性能给提上来呢 自宫弟不配谈Ai~ manwomans 发表于 2025-1-22 11:24
5090d跑ai连显存都限制?
本来就指着多出来的显存开高batch size能把屏蔽的性能给提上来呢 ...
显存限制是说我的卡24G三张只有72G这个限制,不是显存本身受到限制了,是72G显存小限制了batch size,如果八张应该batch size就上去了。不是指显存本身采取了啥措施被限制 你这显然是遇到了通信瓶颈,看看显卡用的是PCIE多少的通道,是否是工作站/服务器主板,否则应该是没那么多PCIE通道的。
5090D未接谜题就是多卡限制,传闻限制了,但不知道怎么限制的,如果是一台机器只能有一张卡在跑,那这限制比算力-30%狠多了。 mythgo 发表于 2025-1-22 11:43
你这显然是遇到了通信瓶颈,看看显卡用的是PCIE多少的通道,是否是工作站/服务器主板,否则应该是没那么多P ...
查过了,都是pcie4x16,epyc3 服务器,主板s8030 你把你的代码跑一个nsignt的profile,里面啥都有。 purityWang 发表于 2025-1-22 11:46
查过了,都是pcie4x16,epyc3 服务器,主板s8030
哇塞,这不是通道已经到了满血状态,要再高只能pcie5.0x16了
目前好像没有全槽pcie5.0x16的主板吧? 我輩樹である 发表于 2025-1-22 11:53
你把你的代码跑一个nsignt的profile,里面啥都有。
等我搜搜看看这个 5090D 直接改名為 5090Go算了, Go for Gaming only 我更关心blender渲染会不会缩水
页:
[1]