AkerIII 发表于 2025-1-15 16:42

【求助】奇怪的死机现象,困扰很久了

本帖最后由 AkerIII 于 2025-1-15 17:10 编辑

产品上的一批单板工控机,会安装我们自己的一些软件和依赖长时间运行,偶发其中某几台会死机
如果发生了死机,用同型号的单板工控机替换掉(只保留硬盘)可能就不再出现死机了

死机现象是USB先掉线,这时候触摸屏什么的就无法工作了,接入鼠标键盘什么的都不会亮
然后再运行五到十分钟系统彻底死机,ping网卡也ping不通,远程连接不上,只有断电重启

用小工具记录死机前后的CPU、内存占用,都是比较正常40%~60%水平。
像电源稳定性、外设接口方面都排查过,系统设置也调整了禁止硬盘、网口休眠,但是现象依旧
开启了系统的dump转储,但是这个现象死机不产生minidump文件

求教论坛大佬,有哪些排查方向可以再试试的。

QyInvoLing 发表于 2025-1-15 16:49

AkerIII 发表于 2025-1-15 17:19

QyInvoLing 发表于 2025-1-15 16:49
有考虑过内存ecc吗

这个板本身是不支持内存ecc的,内存运行在ddr4-2666,如果是内存存取出错的问题除了ecc还有别的方式解决吗,或者有没有什么手段可以判别死机时是发生了内存存取出错呢

zhjook 发表于 2025-1-15 17:56

有没有可能 是某个 时序 错误比如 内存,USB,网络等等,或者什么错误报错,攒到一定程度 崩了
你们自己设计的板子吗

tide~ 发表于 2025-1-15 18:01

USB上单个设备失去响应,确实会导致整机假死,有时能恢复有时只能重启;
既提到工控,瞎猜是有USB转485/422的设备,把波特率下降一点试试,485的话收/发翻转之间要留10ms

AkerIII 发表于 2025-1-15 18:10

zhjook 发表于 2025-1-15 17:56
有没有可能 是某个 时序 错误比如 内存,USB,网络等等,或者什么错误报错,攒到一定程度 崩了
你们自己 ...

感觉像是系统时序、逻辑死锁,因为监控资源都是没有占满

AkerIII 发表于 2025-1-15 18:11

tide~ 发表于 2025-1-15 18:01
USB上单个设备失去响应,确实会导致整机假死,有时能恢复有时只能重启;
既提到工控,瞎猜是有USB转485/422 ...

确实有USB转232设备,但是我们试过发生死机的机器把所有USB外设拔掉其他不变,仍会发生死机

zhjook 发表于 2025-1-15 18:31

AkerIII 发表于 2025-1-15 18:11
确实有USB转232设备,但是我们试过发生死机的机器把所有USB外设拔掉其他不变,仍会发生死机 ...

换一下 驱动 程序 试试 ,
页: [1]
查看完整版本: 【求助】奇怪的死机现象,困扰很久了