家用服务器,每三天定时从启动一下就行了。
握爪,我的x64旁路由器就弄了个定时开关,主板设了来电启动,一周自动重启一次。 yargee 发表于 2022-10-7 00:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...
专业[傻笑] wuya2357 发表于 2022-10-8 08:59
服务器内存出问题概率跟家用可比性不大。服务器满插内存的压力不低。以前X99 e5v3时,开鸡血单路满插ddr4 6 ...
没有ECC内存的nas,是需要软件层面来做纠错的,或者一些nas干脆就不做了,数据坏了就坏了。 yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...
您好,请问就您的了解而言,学术界有没有大样本研究不同闪存颗粒或者不同SSD在数据中心应用下的可靠性的? ztwindwalker 发表于 2022-10-8 22:55
您好,请问就您的了解而言,学术界有没有大样本研究不同闪存颗粒或者不同SSD在数据中心应用下的可靠性的 ...
关注数据中心SSD可靠性的工作肯定非常多,上面说的那个工作的组在21年也和阿里一起发过SSD可靠性的工作,An In-Depth Study of Correlated Failures in Production SSD-Based Data Centers,你可以看看。
不过感觉如果具体到你这个问题,关心不同颗粒可靠性的,和关心数据中心应用可靠性的,可能是两批人,所以可能没有个详细的答案。 blacksnoopy 发表于 2022-10-7 19:35
其实就差一点,如果7*24不关机ecc就有效果,另外工作站等生产力工具最好也有ecc,臭打游戏的就无所谓 ...
普通内存条跑jedec时序也很稳啦 我的工作站15年至今没重装过系统,天天干活,机械设计和仿真,基本不关机,只是长假关机,从来没有过蓝屏死机闪退无响应报错等情况,我认为这里有ecc的作用,当然也有其他因素的作用,比如志强用默频,显卡用quadro,主板用料足,电源质量好,软件用正版,内网不中毒 首先问你多久关一次机 一年以下 就没必要 内存中出现错误位 bit 的原因是多样的,比如:内存颗粒/硬件本身品质、超频、传输过程的 EMI 电磁干扰 等等......
即使同一条内存,放在不同的使用场景中可能出现位翻转的机率也是不同的,比如在大型的数据中心 EMI 的情况比家中要高,或者家住在 EMI 相对严重的地方;另外,像银行数据中心、天猫/京东这种需求场景,和家里码段代码、下载机、开几台服务器这种也都完全不是一个级别的。或者换句话说,即使在阿里数据中心能偶尔检测到 ECC 错误的内存条,换到我家用服务器上也许 2~3 年都不报一次错也不奇怪
所以,抛开使用场景一味地强调 ECC 的重要性是没有道理的,我自己目前服役了 8 年的家用服务器就 2条普通内存,日常 7x24 开三台虚拟机,我印象中就没有一次因为内存的原因造成过任何数据上的问题,所以,对我来讲,上 ECC 也就是心理安慰一下,毕竟之前 8 年都这么过来了。
不过,若两者价格差不太多,而自己又有心理洁癖的,那该上 ECC 就上吧。 均热板赛高 发表于 2022-10-10 17:44
普通内存条跑jedec时序也很稳啦
像我公司的台式机或者笔记本,一周不重启就会很卡,甚至出现内存不能为read的报错,重启后就流畅了,这个很大原因也跟内存ecc校验机制有关, blacksnoopy 发表于 2022-10-10 21:23
像我公司的台式机或者笔记本,一周不重启就会很卡,甚至出现内存不能为read的报错,重启后就流畅了,这个 ...
你说的现象是正解,普通机器开几天就会卡。 nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响
这个是片内ECC,主要是解决高频带来的可能出现的错误问题,跟ECC还是有差别的,可以去看相关科普的视频。 rendezvous 发表于 2022-10-8 11:09
握爪,我的x64旁路由器就弄了个定时开关,主板设了来电启动,一周自动重启一次。 ...
是的,我是1个月重启一次,X86的爱快 纯ECC似乎很少见吧,ECC-REG现在普通主板能用么?好久不研究了 yargee 发表于 2022-10-10 17:23
关注数据中心SSD可靠性的工作肯定非常多,上面说的那个工作的组在21年也和阿里一起发过SSD可靠性的工作, ...
谢谢回复! 有大佬推荐下DDR5 纯ECC型号吗,国内TB 黄鱼都搜不到
页:
1
[2]