找回密码
 加入我们
搜索
      
查看: 6495|回复: 16

[存储] 【已解决】同一台电脑两块不同品牌的SSD以极为相似的方式掉盘,会是散热器的锅吗

[复制链接]
发表于 2024-1-24 03:12 | 显示全部楼层 |阅读模式
本帖最后由 __|__ 于 2024-8-18 13:33 编辑

把这个参数加到内核就可以了:
  1. sudo grubby --update-kernel=ALL --args="nvme_core.default_ps_max_latency_us=0"
复制代码

------------------------------------------------------------------问题解决----------------------------------------------------------------------------



RT,一块硬盘是致钛TiPlus7100 2T一块硬盘是三星990Pro 4T,主板是H13SSL,U是EPYC 9654。

Rocky Linux 9系统装在致钛上,如果致钛掉盘的话会直接重启,并且重启后会提示没有启动设备,BIOS中也看不到致钛硬盘;990Pro上只存储程序临时文件,掉盘不影响系统但是程序肯定都寄了。调换两块硬盘位置不影响他俩随机掉盘。离谱的是只要关机然后彻底断电再上电重启,100%能恢复识别硬盘,两块硬盘无论是谁掉盘都可以恢复屡试不爽。重启后硬盘性能正常,SMART除了Unsafe Shutdown增加其他都没有变化,两块硬盘都没有0E、0F。不过该说不说990Pro的健康度掉得确实比970EP、9A1这些2T盘快一点,后两者基本是30多T写入掉1%,990Pro 4T是20T左右1%吧。

要说两块硬盘都是残次品或者主板两个M2口都有问题这概率实在是低,自己想了想会不会有其他影响因素,比如说两块硬盘安装的利民HR-09 Pro散热器太重导致接触不良?另外这个电脑如果身上有静电去触摸一下机箱外壳,电脑100%立即重启并且有较高概率重启后掉盘。

求各位用过的彦祖告知下这种比较大的SSD散热器会影响稳定性吗?现在基本上是十天八天就掉盘一次,作为生产力电脑基本是不可用了
发表于 2024-1-24 08:33 | 显示全部楼层
你先测测电脑的地线通不通
发表于 2024-1-24 08:36 | 显示全部楼层
没看日志?
发表于 2024-1-24 09:19 | 显示全部楼层
是不是电源不稳啊,冬天应该没有那么热吧?
发表于 2024-1-24 09:35 来自手机 | 显示全部楼层
不可能热掉盘的,70度不可能掉,80度不清楚
发表于 2024-1-24 10:02 来自手机 | 显示全部楼层
尽量加个散热片  
发表于 2024-1-24 10:43 | 显示全部楼层
应该不是 散热。。。。
发表于 2024-1-24 12:02 | 显示全部楼层
固态硬盘只是掉盘,还能一直用?

那么把散热拆下来,用几天电脑,不就知道是不是散热的锅了。
 楼主| 发表于 2024-1-24 19:39 | 显示全部楼层

就是用着用着盘没有了,这应该看什么日志?dmesg还是BMC的日志?
 楼主| 发表于 2024-1-24 19:41 | 显示全部楼层
cuixiang 发表于 2024-1-24 12:02
固态硬盘只是掉盘,还能一直用?

那么把散热拆下来,用几天电脑,不就知道是不是散热的锅了。 ...

但是使用场景下有很多硬盘重负载的情况,没有散热器990Pro作为苦力盘分分钟90+

掉盘之后彻底下电再上电就恢复如初……然后十天半个月之后又掉盘……
发表于 2024-1-24 21:24 | 显示全部楼层
去掉散热器试试看,如果好了就是散热器的锅。
发表于 2024-1-24 23:05 | 显示全部楼层
__|__ 发表于 2024-1-24 19:41
但是使用场景下有很多硬盘重负载的情况,没有散热器990Pro作为苦力盘分分钟90+

掉盘之后彻底下电再上电 ...

那就把固态硬盘安装在PCI-E转接盘上,用9-12cm的风扇吹。。
发表于 2024-1-25 11:57 | 显示全部楼层
h12 8654口和m.2口,三星盘一堆问题

你可以尝试把990pro去掉试试
发表于 2024-2-7 21:59 | 显示全部楼层
经常写这么多数据是生产力了吧,干嘛不用企业盘,最好是2。5寸的,m2作为热数据日常用就行
发表于 2024-2-7 22:27 | 显示全部楼层
负载要是超过消费类的负载上限,掉盘保命算好的。
个人感觉如果不是负载因素,大概率是主板、M2接口问题。
 楼主| 发表于 2024-2-19 12:22 | 显示全部楼层
更新一下掉盘时的系统日志:
  1. [934420.688013] nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0xffff
  2. [934420.688017] nvme nvme1: Does your device have a faulty power saving mode enabled?
  3. [934420.688018] nvme nvme1: Try "nvme_core.default_ps_max_latency_us=0 pcie_aspm=off" and report a bug
  4. [934420.716027] nvme 0000:41:00.0: Unable to change power state from D3cold to D0, device inaccessible
  5. [934420.716126] nvme nvme1: Disabling device after reset failure: -19
  6. [934420.722023] nvme1n1: detected capacity change from 7814037168 to 0
  7. [934420.722038] XFS (nvme1n1): log I/O error -5
  8. [934420.722042] XFS (nvme1n1): Filesystem has been shut down due to log error (0x2).
  9. [934420.722043] XFS (nvme1n1): Please unmount the filesystem and rectify the problem(s).
  10. [934420.722938] nvme1n1: writeback error on inode 122103, offset 1955528704, sector 1600708776
  11. [934420.722948] nvme1n1: writeback error on inode 122096, offset 133292032, sector 681897400
  12. [934420.722955] nvme1n1: writeback error on inode 122096, offset 133296128, sector 681897408
  13. [934420.722957] nvme1n1: writeback error on inode 5028566547, offset 133292032, sector 4654046744
  14. [934420.722962] nvme1n1: writeback error on inode 5028566547, offset 133296128, sector 4654046752
  15. [934420.722964] nvme1n1: writeback error on inode 2147484257, offset 133292032, sector 1987766376
  16. [934420.722971] nvme1n1: writeback error on inode 2147484257, offset 133296128, sector 1987766384
  17. [934420.722973] nvme1n1: writeback error on inode 2147484259, offset 133292032, sector 1956233488
  18. [934420.722979] nvme1n1: writeback error on inode 2147484259, offset 133296128, sector 1956233496
复制代码


网上搜了一下似乎把nvme_core.default_ps_max_latency_us=0加入到内核参数就可以了,不过多方尝试还是没有成功加入这个参数,系统是Rocky Linux 9,求各位大佬指导一下~
发表于 2024-2-20 00:47 | 显示全部楼层
__|__ 发表于 2024-2-19 12:22
更新一下掉盘时的系统日志:

  1. sudo grubby --update-kernel=ALL --args="nvme_core.default_ps_max_latency_us=0"
复制代码


适用于Almalinux、RockyLinux、CentOS和RHEL,执行完需要重启一遍
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 19:07 , Processed in 0.012095 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表