zzeng12 发表于 2023-4-8 13:59

pytorch代码纯CPU跑不稳定

深度学习菜鸟一枚,由于课题有一些涉及深度学习的内容,这段时间试着跑了一个1DCNN的小模型,目前用的A卡,用不了CUDA,就直接纯CPU了。我的10920x用的u12a压着,oc很保守就全核4.6日常用,都没问题。结果跑这个模型,CPU占用也就60%,但时不时就是蓝屏。才开始以为是内存的锅,真香条降到默认频率还是蓝,就再看CPU,这才发现24个框框只用一半,12个满载,12个0利用,aida看了下核心温度最高也就70度么 咋就不停蓝屏,调了一早上也没稳下来,倒是把avx offset 降低一档能稍微好一些,不过还是偶尔会蓝。有经验的大佬来指点指点哈[流汗]

surfwave 发表于 2023-4-8 14:02

pytorch已经支持A卡了,自己去官网看看说明。当然A卡不能太旧。

zzeng12 发表于 2023-4-8 14:10

surfwave 发表于 2023-4-8 14:02
pytorch已经支持A卡了,自己去官网看看说明。当然A卡不能太旧。

看了下,那个最好后边还是用n卡 貌似a卡的rocm还不太成熟

ysc3839 发表于 2023-4-8 14:12

全默认,还是蓝的话MemTest86跑内存测试,看看散热能力是否足够,散热器是否压太紧。有能力的话分析一下蓝屏dump看看具体是什么错误。

ysc3839 发表于 2023-4-8 14:13

zzeng12 发表于 2023-4-8 14:10
看了下,那个最好后边还是用n卡 貌似a卡的rocm还不太成熟

遇到问题再说,好过CPU跑超级慢

zzeng12 发表于 2023-4-8 14:20

ysc3839 发表于 2023-4-8 14:13
遇到问题再说,好过CPU跑超级慢

小模型 几分钟就跑完了 dump那个我也不会看,蓝屏就是那个小一圈的蓝屏,终止代码是 system service exception

zzeng12 发表于 2023-4-8 14:22

ysc3839 发表于 2023-4-8 14:12
全默认,还是蓝的话MemTest86跑内存测试,看看散热能力是否足够,散热器是否压太紧。有能力的话分析一下蓝 ...

重装了下系统 ltsc 2021 能比之前的win11稳一些,连着跑了5 6遍还没有蓝 在win11最多跑两遍必蓝

xy. 发表于 2023-4-8 14:24

mesh 没超?

zzeng12 发表于 2023-4-8 14:27

xy. 发表于 2023-4-8 14:24
mesh 没超?

超了 3200吧 不过之前fpu cb15 20都是测试过的 没问题 就是这个小模型老是蓝。现在在ltsc2021下 早上蓝了一次 看CPU实际只用可能是比较高的,就avx降了一档offset 稳了一些

ysc3839 发表于 2023-4-8 14:37

zzeng12 发表于 2023-4-8 14:20
小模型 几分钟就跑完了 dump那个我也不会看,蓝屏就是那个小一圈的蓝屏,终止代码是 system service exce ...

system service exception的话怀疑是硬盘问题
页: [1]
查看完整版本: pytorch代码纯CPU跑不稳定