purityWang 发表于 2025-1-22 10:16

5090D不能AI是不是实锤

本帖最后由 purityWang 于 2025-1-22 11:36 编辑

我用其他卡多卡经常是跑在100多瓦功耗,全量微调1B,3B,7B, 比如用huggingface accelerate加deepspeed 或加fsdp,就是功耗跑不上去,目前猜测是显存限制只能小batch size,再加上用这些框架多卡间通信可能多,可能存在等待,但占用率100%
暂时没实验单卡是不是存在小batch size功耗上不去的情况
顺便问问牛们有没有优化提升功耗的方法

前面说了由于显存限制指的是说我的卡24G三张只有72G这个限制,不是显存本身受到限制了,是72G显存小限制了batch size,如果八张应该batch size就上去了。不是指显存本身采取了啥措施被限制

manwomans 发表于 2025-1-22 11:24

5090d跑ai连显存都限制?
本来就指着多出来的显存开高batch size能把屏蔽的性能给提上来呢

nApoleon 发表于 2025-1-22 11:25

自宫弟不配谈Ai~

purityWang 发表于 2025-1-22 11:34

manwomans 发表于 2025-1-22 11:24
5090d跑ai连显存都限制?
本来就指着多出来的显存开高batch size能把屏蔽的性能给提上来呢 ...

显存限制是说我的卡24G三张只有72G这个限制,不是显存本身受到限制了,是72G显存小限制了batch size,如果八张应该batch size就上去了。不是指显存本身采取了啥措施被限制

mythgo 发表于 2025-1-22 11:43

你这显然是遇到了通信瓶颈,看看显卡用的是PCIE多少的通道,是否是工作站/服务器主板,否则应该是没那么多PCIE通道的。

5090D未接谜题就是多卡限制,传闻限制了,但不知道怎么限制的,如果是一台机器只能有一张卡在跑,那这限制比算力-30%狠多了。

purityWang 发表于 2025-1-22 11:46

mythgo 发表于 2025-1-22 11:43
你这显然是遇到了通信瓶颈,看看显卡用的是PCIE多少的通道,是否是工作站/服务器主板,否则应该是没那么多P ...

查过了,都是pcie4x16,epyc3 服务器,主板s8030

我輩樹である 发表于 2025-1-22 11:53

你把你的代码跑一个nsignt的profile,里面啥都有。

xjr12000 发表于 2025-1-22 11:55

purityWang 发表于 2025-1-22 11:46
查过了,都是pcie4x16,epyc3 服务器,主板s8030

哇塞,这不是通道已经到了满血状态,要再高只能pcie5.0x16了
目前好像没有全槽pcie5.0x16的主板吧?

purityWang 发表于 2025-1-22 11:59

我輩樹である 发表于 2025-1-22 11:53
你把你的代码跑一个nsignt的profile,里面啥都有。

等我搜搜看看这个

松田 发表于 2025-1-22 12:01

5090D 直接改名為 5090Go算了, Go for Gaming only

mkkkno1 发表于 2025-1-22 12:19

我更关心blender渲染会不会缩水
页: [1]
查看完整版本: 5090D不能AI是不是实锤