Chiphell - 分享与交流用户体验

 找回密码
 加入我们
搜索
      
查看: 7889|回复: 63

[HDD] 分享一个静默损坏的案例,有兴趣来聊聊

[复制链接]
发表于 2018-9-6 10:31 | 显示全部楼层 |阅读模式
本帖最后由 flysilkworm 于 2018-9-6 11:20 编辑

前段时间个人NAS raid6挂了三块硬盘,不得已将原数据用多块单硬盘另外备份下来,准备换硬盘重建raid6后再传回去。
数据备份还原手段是局域网FTP传输,传输方向依次是 ext4(raid6)->ntfs->btrfs(raid6)。
数据全部还原到NAS后,用transmission校验了一下大部分早已100%下载完毕种子(接近16T资源,还在校验中),发现有近20个左右的种子出现99%完成状态,其中5个种子因无人补种基本宣告报废。
我想这就是传说中的静默损坏案例了,本地FTP传输过程应该是没有问题的,但是无从分析损坏发生在数据保存和中转的哪个环节,这些数据不用transmission校验可能放N年都不知道损坏了。
可想而知百度云出现数据损坏多么正常了,在乎数据完整的,单盘数据有多大可能出问题想想都被吓到(比如一个dll文件损坏),看来家用电脑的数据完整性就是个笑话。


发表于 2018-9-6 10:43 来自手机 | 显示全部楼层
为什么不认为是操作系统bug,蓝屏才是bug?
 楼主| 发表于 2018-9-6 10:44 | 显示全部楼层
本帖最后由 flysilkworm 于 2018-9-6 10:51 编辑

随便想想,windows使用正常过程中,偶然发现故障(蓝屏、报错窗口、进不了系统),这不一定是主板、CPU、内存、或显卡的锅,更不一定是人为操作/装卸软件的锅,可能只是一次非常正常的“静默损坏”造成的。最近的新闻加上自身体会,我才意识到这问题有多严重,却没有低成本的有效方法能发现或避免此问题的发生,这才是根本
发表于 2018-9-6 10:48 | 显示全部楼层
不懂  反正我的硬盘不是用坏的,是放坏的
 楼主| 发表于 2018-9-6 10:48 | 显示全部楼层
utlr 发表于 2018-9-6 10:43
为什么不认为是操作系统bug,蓝屏才是bug?

操作系统BUG是指win?还是黑裙?以上案例操作系统参与很少,只有传输和保存工作,当然不能说没有这种可能,只是这种可能性太低了
发表于 2018-9-6 10:57 | 显示全部楼层
好高端看不太懂,不过学到了,谢谢
发表于 2018-9-6 11:01 | 显示全部楼层
我也想分享一个静默损坏的案例 这次是SSD的 pm981 1tb从台机上拆下来后发现刚保存的xlsx文件损坏  但是刚才编辑和重新打开确认过都没问题 目前还不清楚是哪个环节出了问题;这个事情之后 我觉得保存历史版本是非常重要而且明智的选择 覆盖已有文件很不安全
 楼主| 发表于 2018-9-6 11:06 | 显示全部楼层
misslee 发表于 2018-9-6 11:01
我也想分享一个静默损坏的案例 这次是SSD的 pm981 1tb从台机上拆下来后发现刚保存的xlsx文件损坏  但是刚才 ...

固态也存在“静默损坏”?这真是第一次听说的案例了
发表于 2018-9-6 11:15 | 显示全部楼层
电子产品就这样 服务器的硬盘说坏也就坏了 没办法
你要很看重数据安全就做RAID 1
发表于 2018-9-6 11:15 | 显示全部楼层
flysilkworm 发表于 2018-9-6 11:06
固态也存在“静默损坏”?这真是第一次听说的案例了

我也觉得很奇怪 照道理来说是不可能的 因为我保存后又重新打开确认了一次 等于又做了一次校验;然后我正常关机 把固态拆下来换到新主板上去 文件损坏了....好在我有备份 这事情说起来挺诡异,因为就这个文件损坏了,我这个盘也是新盘 pm981 写入不到300G 就很奇怪
发表于 2018-9-6 11:18 | 显示全部楼层
楼主你检查下这20个种子所在的文件夹是否有其他种子也占用,或者曾经和其他种子同时占用过。。

举个例子说更容易点:
以前我下whatcd的时候,一手歌有很多版本,比如mp3 192k,mp3 320k,种子对应的文件夹名字是一样的,比如都是"13415-song"这下面,两个种子同时下,种子1下面的文件1先完成了区块1,标记为已完成,但是种子2下面同样名称的文件1区块1还没完成,就覆盖了,或者先下一个,另一个也可能覆盖的时候,特别容易出现这种。

还有就是电影文件,很多source的nfo文件是不一样的。nfo一般就几k,两个站的如果其他都一样,就nfo不一样,特别容易出现99%。

评分

1

查看全部评分

 楼主| 发表于 2018-9-6 11:26 | 显示全部楼层
tmdodd 发表于 2018-9-6 11:18
楼主你检查下这20个种子所在的文件夹是否有其他种子也占用,或者曾经和其他种子同时占用过。。

举个例子说 ...

你说这种方式可能类似于多站共种,不过我基本上不会多站共用一个种子,一个资源也会注意只要一个版本,,毕竟硬盘不够用,呵呵,谢谢提出一种检查问题的思路
 楼主| 发表于 2018-9-6 11:41 | 显示全部楼层
正在路上 发表于 2018-9-6 11:15
电子产品就这样 服务器的硬盘说坏也就坏了 没办法
你要很看重数据安全就做RAID 1 ...

其实知道硬盘坏了倒还好办,关键是谁都不知道数据坏了(硬盘是好的),才会造成更大的灾难
发表于 2018-9-6 11:56 | 显示全部楼层
flysilkworm 发表于 2018-9-6 11:26
你说这种方式可能类似于多站共种,不过我基本上不会多站共用一个种子,一个资源也会注意只要一个版本,, ...

不是多站共用1个种子,就是辅种?

比如HDX(纯假设的站名)有fighting club 1080 blu don这个种子,这个种子对应最后的文件夹名字叫“fighting club 1080 blu dd 5.1 don”,他里面有nfo文件,是一个版本。

HDY也有fight club 1080 club blu don这个种子,这个种子对应最后的文件夹名字也叫“fighting club 1080 blu dd 5.1 don”,,他里面也有nfo文件,但是一个版本。

如果这两个种子对应物理硬盘上同一个文件夹,那这样只要 recheck,有1个就会99%。

我没有transmission,我用的ut,是可以看到是每个具体文件的完成度的,因为bt验证信息是按区块的,所以可能出现文件A,99%,文件B,0%,文件C,99%,其他文件都是100%,最后整体99%。你可以看下你的。
发表于 2018-9-6 11:59 | 显示全部楼层
如果真是这样,貌似磁带才可以对付静默损坏了。
 楼主| 发表于 2018-9-6 12:10 | 显示全部楼层
tmdodd 发表于 2018-9-6 11:56
不是多站共用1个种子,就是辅种?

比如HDX(纯假设的站名)有fighting club 1080 blu don这个种子,这个 ...

意思我懂,谢谢
 楼主| 发表于 2018-9-6 12:41 | 显示全部楼层
本帖最后由 flysilkworm 于 2018-9-6 12:50 编辑

捕获.JPG
尝试给不明白的人解释一下:
以上截图为一个损坏的资源数据,该数据共43.57GB,合计包含有2722个文件,共有5569个数据块,其中每个数据块8MB,
此资源发布时间是2013年1月3日,下载时间是2014年9月15日,完成时间是2014年9月19日,此后一直未更改过,一直保存在NAS上。

此次备份还原后,手动校验数据,发现分隔开的两处数据损坏(进度条的两处微小空白),合计影响数据块5块,容量5*8=40MB,不过损坏文件达到14个(就不放截图了)
这14个文件不做手动校验根本不知道是坏的,文件大小正常,文件名正常,只是数据损坏了,这部分数据损坏的发生概率是极低的,损坏的数据量也是极低的,只是谁也不知道这14个文件是坏的,这就是静默损坏的严重之处,坏了就认命,呵呵!


评分

1

查看全部评分

发表于 2018-9-6 14:20 | 显示全部楼层
flysilkworm 发表于 2018-9-6 12:41
尝试给不明白的人解释一下:
以上截图为一个损坏的资源数据,该数据共43.57GB,合计包含有2722个文件,共 ...

图像视频文件允许一定量的数据差异,另外你用的这个bt软件我也在用,他的完整性校验机制有一定缺陷,不是基于文件而是基于块的,如果只下载部分文件,他会提示文件不完整,实际上文件本身是完整的但缺少了你没下载的部分导致文件校验不完整,这会导致与文件真的损坏混在一起,如果没人补种永远都是校验不通过但可能文件本身是完整的,另外百度云不存在你说的情况,至少我到现在都没发现文件hash值有差异

另外可以试试refs等新的文件系统,想起以前保存的资源现在来说几乎不可能再去访问了,数据可能并没有想象中需要保存太久
发表于 2018-9-6 14:24 | 显示全部楼层
正在路上 发表于 2018-9-6 11:15
电子产品就这样 服务器的硬盘说坏也就坏了 没办法
你要很看重数据安全就做RAID 1 ...

看重数据安全仅靠raid完全不够看,应该起码有如下几重防护:


0. 靠谱存储设备,你要弄个七彩虹黑片拆机片固态那肯定是不行的;
1. raid,这个不谈了;
2. 每天定期备份到一块与raid无关的硬盘上;
3. 私有云端的网络同步备份;
4. 每隔一段时间将重要数据拷贝到与电脑不在一个位置的移动硬盘上,至少不能在同一个小区;
5. 在老家或者外国放置一块移动硬盘,每隔较长时间备份一次移动数据。
发表于 2018-9-6 14:25 | 显示全部楼层
本帖最后由 jie_chen 于 2018-9-6 20:54 编辑

这种问题就是HD从电脑里拔下的时候没有切断电源开关,或者关闭电源没有等待一段时间(风扇没有停)就拿下HD。
 楼主| 发表于 2018-9-6 14:47 | 显示全部楼层
uuyyhhjj 发表于 2018-9-6 14:20
图像视频文件允许一定量的数据差异,另外你用的这个bt软件我也在用,他的完整性校验机制有一定缺陷,不是 ...

用来说明的资源截图是完整下载的,无论是文件还是数据块当初下载时都是完整的,这并不是transmission的锅。
不过,确实用transmission下载一部分资料时,文件与数据块之间不同的容量计算是存在的,经常会出现如果只需要下载1个文件,需要的文件头尾与数据块对齐不一致的现象,造成数据下载过多或过少,这我也发现了,呵呵,尽量多下完整资源,或只下部分资源时,把资源前后文件都勾选一下就行了,数据多了总比少了好。
发表于 2018-9-6 17:24 | 显示全部楼层
用网件路由也有可能出现文件损坏的情况,坛里有贴
发表于 2018-9-6 18:23 | 显示全部楼层
flysilkworm 发表于 2018-9-6 12:41
尝试给不明白的人解释一下:
以上截图为一个损坏的资源数据,该数据共43.57GB,合计包含有2722个文件,共 ...

当年下载完以后立即校验过嘛?

至少utorrent 100%以后立即rehash 变成99%的情况不少见
发表于 2018-9-6 18:48 | 显示全部楼层
我倒觉得楼上说的原因也有可能,我自己就碰到过下载完成正常做种的文件突然报错提示要进行校验的情况,但是因为用的群辉的shr而且每次定期的磁盘校验也从不报错,应该不会说是数据存着存着就出错了,想来应该是下载的时候就有部分区块是有问题的。
发表于 2018-9-6 21:49 | 显示全部楼层
FTP传输损坏的案例遇到多次,而且确实有在本地网络中传输坏的,所以某些时候FTP传输不如直接拷贝来的稳定。
发表于 2018-9-6 23:11 | 显示全部楼层
你确定不是你传的时候的问题?盘都挂了3块确定不是nas问题。
raid6 不如你另找一个地方备份。重要数据备3份。
pt bt一直读的文件是会坏的。 下好看着是100%,过几天突然就变99.9%了。
 楼主| 发表于 2018-9-7 00:28 | 显示全部楼层
本帖最后由 flysilkworm 于 2018-9-7 00:50 编辑
creatie 发表于 2018-9-6 23:11
你确定不是你传的时候的问题?盘都挂了3块确定不是nas问题。
raid6 不如你另找一个地方备份。重要数据备3份 ...

1.见“但是无从分析损坏发生在数据保存和中转的哪个环节”这一句。其次,应该不是数据区的问题,因为挂盘是挂了三块系统区(黑裙)
2.本来不准备讨论“不用raid,备份数据是不是更安全”这种议题。忍不住多聊一句,大数据量的使用没有那么多精力折腾备份这种事,很多数据日常要用或者要方便的取用,视频不重要,音乐不重要,系统dll文件重不重要呢?游戏重不重要呢?各类软件安装包重不重要呢,损坏了都能很容易的找回来吗?raid本来就是个节省精力的办法,要数据绝对安全的办法很多,不外乎多花钱或多花精力,此话题到此为止吧,用什么人工手段保障数据见仁见智。
3.一直读的文件变99.9%,排除效验错误以外,我想应该就是静默损坏,难道BT软件只读数据还能把数据读坏?!
谢谢提出宝贵看法!
发表于 2018-9-7 01:21 | 显示全部楼层
uuyyhhjj 发表于 2018-9-6 14:20
图像视频文件允许一定量的数据差异,另外你用的这个bt软件我也在用,他的完整性校验机制有一定缺陷,不是 ...

百毒云下载坏档是老毛病了,很多资源论坛都强制要求百毒云的包加恢复记录


lz这个应该是当初下载的时候就不完整,用过几个bt软件,都遇到过下载完成之后重校验变99%的情况


p2p软件里面,大约只有emule是靠谱的。。。
发表于 2018-9-7 02:49 | 显示全部楼层
本帖最后由 shine360 于 2018-9-7 02:51 编辑

这种99%不是很正常吗?

比如做种的人抓个盘结果写入的硬盘有一个坏道,由于视频播放是有容错率的,不会出现不hash 100%不能播放的情况,那所有人下载完毕播放一点问题没有。但是如果校验就可能会出现到99%永远不能完成100%

这种情况直接跳过校验就能做种,TR貌似是用硬链接,如果用utorrent的话直接跳过散列检测就100%了
所以不一定是静默损坏这么高大上,最大可能是发种的人那里出了问题
发表于 2018-9-7 03:10 | 显示全部楼层
coolcatlin 发表于 2018-9-7 01:21
百毒云下载坏档是老毛病了,很多资源论坛都强制要求百毒云的包加恢复记录

百度云限速后就没传过大文件,小文件没有一个坏档案例,估计是客户端p2p的原因吧,网页一直很正常,另外有多年存储经验的话都会碰到一个问题就是大文件copy后hash一遍,非常耗时,避免部署时出现意外,lz的情况不光可能出现在传输过程,硬件本身也会导致,没有恢复机制的文件系统数据保存太久也无法保证绝对完整,也就是静默错误

举个最简单的例子,一个软件躺在你硬盘里很多年了,有天突然你看到他并打开它发现动不动就崩溃,很可能就是存放在硬盘里部分关键代码数据已经改变了,当你重新安装一下发现又正常了,数据其实存放周期比想象中短很多,以前用ntfs存的vhd文件大约都是30G级别的,上次一对比,发现一个hash值都不同,想想还是算了也不细究里面哪些文件出问题了,现在换refs,几年后再看看吧,emule已经成为历史了连ipv6都不能支持,Transmission可以以服务形式运行,一直都在用这个
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

小黑屋|手机版|Archiver|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806

GMT+8, 2020-7-5 12:50 , Processed in 0.012788 second(s), 21 queries , Gzip On, Redis On.

Powered by Discuz! X3.2

© 2007-2019 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表