pytorch代码纯CPU跑不稳定
深度学习菜鸟一枚,由于课题有一些涉及深度学习的内容,这段时间试着跑了一个1DCNN的小模型,目前用的A卡,用不了CUDA,就直接纯CPU了。我的10920x用的u12a压着,oc很保守就全核4.6日常用,都没问题。结果跑这个模型,CPU占用也就60%,但时不时就是蓝屏。才开始以为是内存的锅,真香条降到默认频率还是蓝,就再看CPU,这才发现24个框框只用一半,12个满载,12个0利用,aida看了下核心温度最高也就70度么 咋就不停蓝屏,调了一早上也没稳下来,倒是把avx offset 降低一档能稍微好一些,不过还是偶尔会蓝。有经验的大佬来指点指点哈[流汗] pytorch已经支持A卡了,自己去官网看看说明。当然A卡不能太旧。 surfwave 发表于 2023-4-8 14:02pytorch已经支持A卡了,自己去官网看看说明。当然A卡不能太旧。
看了下,那个最好后边还是用n卡 貌似a卡的rocm还不太成熟 全默认,还是蓝的话MemTest86跑内存测试,看看散热能力是否足够,散热器是否压太紧。有能力的话分析一下蓝屏dump看看具体是什么错误。 zzeng12 发表于 2023-4-8 14:10
看了下,那个最好后边还是用n卡 貌似a卡的rocm还不太成熟
遇到问题再说,好过CPU跑超级慢 ysc3839 发表于 2023-4-8 14:13
遇到问题再说,好过CPU跑超级慢
小模型 几分钟就跑完了 dump那个我也不会看,蓝屏就是那个小一圈的蓝屏,终止代码是 system service exception ysc3839 发表于 2023-4-8 14:12
全默认,还是蓝的话MemTest86跑内存测试,看看散热能力是否足够,散热器是否压太紧。有能力的话分析一下蓝 ...
重装了下系统 ltsc 2021 能比之前的win11稳一些,连着跑了5 6遍还没有蓝 在win11最多跑两遍必蓝
mesh 没超? xy. 发表于 2023-4-8 14:24
mesh 没超?
超了 3200吧 不过之前fpu cb15 20都是测试过的 没问题 就是这个小模型老是蓝。现在在ltsc2021下 早上蓝了一次 看CPU实际只用可能是比较高的,就avx降了一档offset 稳了一些 zzeng12 发表于 2023-4-8 14:20
小模型 几分钟就跑完了 dump那个我也不会看,蓝屏就是那个小一圈的蓝屏,终止代码是 system service exce ...
system service exception的话怀疑是硬盘问题
页:
[1]