【已解决】同一台电脑两块不同品牌的SSD以极为相似的方式掉盘，会是散热器的锅吗

__|__ 发表于 2024-1-24 03:12

本帖最后由 __|__ 于 2024-8-18 13:33 编辑

把这个参数加到内核就可以了：
sudo grubby --update-kernel=ALL --args="nvme_core.default_ps_max_latency_us=0"
------------------------------------------------------------------问题解决----------------------------------------------------------------------------

RT，一块硬盘是致钛TiPlus7100 2T一块硬盘是三星990Pro 4T，主板是H13SSL，U是EPYC 9654。

Rocky Linux 9系统装在致钛上，如果致钛掉盘的话会直接重启，并且重启后会提示没有启动设备，BIOS中也看不到致钛硬盘；990Pro上只存储程序临时文件，掉盘不影响系统但是程序肯定都寄了。调换两块硬盘位置不影响他俩随机掉盘。离谱的是只要关机然后彻底断电再上电重启，100%能恢复识别硬盘，两块硬盘无论是谁掉盘都可以恢复屡试不爽。重启后硬盘性能正常，SMART除了Unsafe Shutdown增加其他都没有变化，两块硬盘都没有0E、0F。不过该说不说990Pro的健康度掉得确实比970EP、9A1这些2T盘快一点，后两者基本是30多T写入掉1%，990Pro 4T是20T左右1%吧。

要说两块硬盘都是残次品或者主板两个M2口都有问题这概率实在是低，自己想了想会不会有其他影响因素，比如说两块硬盘安装的利民HR-09 Pro散热器太重导致接触不良？另外这个电脑如果身上有静电去触摸一下机箱外壳，电脑100%立即重启并且有较高概率重启后掉盘。

求各位用过的彦祖告知下这种比较大的SSD散热器会影响稳定性吗？现在基本上是十天八天就掉盘一次，作为生产力电脑基本是不可用了[困惑]

人生是风 发表于 2024-1-24 08:33

你先测测电脑的地线通不通

normanlu 发表于 2024-1-24 08:36

没看日志？

smallanntse 发表于 2024-1-24 09:19

是不是电源不稳啊，冬天应该没有那么热吧？

再也不对喷 发表于 2024-1-24 09:35

不可能热掉盘的，70度不可能掉，80度不清楚

chainofhonor 发表于 2024-1-24 10:02

尽量加个散热片

kanshuderen 发表于 2024-1-24 10:43

应该不是散热。。。。

cuixiang 发表于 2024-1-24 12:02

固态硬盘只是掉盘，还能一直用？

那么把散热拆下来，用几天电脑，不就知道是不是散热的锅了。

__|__ 发表于 2024-1-24 19:39

normanlu 发表于 2024-1-24 08:36
没看日志？

就是用着用着盘没有了，这应该看什么日志？dmesg还是BMC的日志？

__|__ 发表于 2024-1-24 19:41

cuixiang 发表于 2024-1-24 12:02
固态硬盘只是掉盘，还能一直用？

那么把散热拆下来，用几天电脑，不就知道是不是散热的锅了。 ...

但是使用场景下有很多硬盘重负载的情况，没有散热器990Pro作为苦力盘分分钟90+[无奈]

掉盘之后彻底下电再上电就恢复如初……然后十天半个月之后又掉盘……

ufofc 发表于 2024-1-24 21:24

去掉散热器试试看，如果好了就是散热器的锅。

cuixiang 发表于 2024-1-24 23:05

__|__ 发表于 2024-1-24 19:41
但是使用场景下有很多硬盘重负载的情况，没有散热器990Pro作为苦力盘分分钟90+

掉盘之后彻底下电再上电 ...

那就把固态硬盘安装在PCI-E转接盘上，用9-12cm的风扇吹。。

mdk2000 发表于 2024-1-25 11:57

h12 8654口和m.2口,三星盘一堆问题

你可以尝试把990pro去掉试试

ruanjianxuqiu 发表于 2024-2-7 21:59

经常写这么多数据是生产力了吧，干嘛不用企业盘，最好是2。5寸的，m2作为热数据日常用就行

zerozerone 发表于 2024-2-7 22:27

负载要是超过消费类的负载上限，掉盘保命算好的。
个人感觉如果不是负载因素，大概率是主板、M2接口问题。

__|__ 发表于 2024-2-19 12:22

更新一下掉盘时的系统日志：
nvme nvme1: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0xffff
nvme nvme1: Does your device have a faulty power saving mode enabled?
nvme nvme1: Try "nvme_core.default_ps_max_latency_us=0 pcie_aspm=off" and report a bug
nvme 0000:41:00.0: Unable to change power state from D3cold to D0, device inaccessible
nvme nvme1: Disabling device after reset failure: -19
nvme1n1: detected capacity change from 7814037168 to 0
XFS (nvme1n1): log I/O error -5
XFS (nvme1n1): Filesystem has been shut down due to log error (0x2).
XFS (nvme1n1): Please unmount the filesystem and rectify the problem(s).
nvme1n1: writeback error on inode 122103, offset 1955528704, sector 1600708776
nvme1n1: writeback error on inode 122096, offset 133292032, sector 681897400
nvme1n1: writeback error on inode 122096, offset 133296128, sector 681897408
nvme1n1: writeback error on inode 5028566547, offset 133292032, sector 4654046744
nvme1n1: writeback error on inode 5028566547, offset 133296128, sector 4654046752
nvme1n1: writeback error on inode 2147484257, offset 133292032, sector 1987766376
nvme1n1: writeback error on inode 2147484257, offset 133296128, sector 1987766384
nvme1n1: writeback error on inode 2147484259, offset 133292032, sector 1956233488
nvme1n1: writeback error on inode 2147484259, offset 133296128, sector 1956233496

网上搜了一下似乎把nvme_core.default_ps_max_latency_us=0加入到内核参数就可以了，不过多方尝试还是没有成功加入这个参数，系统是Rocky Linux 9，求各位大佬指导一下~

proc 发表于 2024-2-20 00:47

__|__ 发表于 2024-2-19 12:22
更新一下掉盘时的系统日志：

sudo grubby --update-kernel=ALL --args="nvme_core.default_ps_max_latency_us=0"

适用于Almalinux、RockyLinux、CentOS和RHEL，执行完需要重启一遍

页: [1]

Chiphell - 分享与交流用户体验's Archiver

【已解决】同一台电脑两块不同品牌的SSD以极为相似的方式掉盘，会是散热器的锅吗