Chiphell - 分享与交流用户体验

标题: ECC和非ECC内存,稳定性到底相差多少? [打印本页]

作者: imluvian    时间: 2022-10-7 15:20
标题: ECC和非ECC内存,稳定性到底相差多少?
请问有没有可靠的量化数据,比如对比一下相同的系统,仅打开/关闭ECC,看看内存出错的概率对比?
作者: 堕落的翼    时间: 2022-10-7 15:26
本帖最后由 堕落的翼 于 2022-10-7 15:57 编辑

https://www.bilibili.com/video/BV1AW4y1y796
https://www.bilibili.com/video/BV1GF411V7sC
当然也有反例
http://www.cs.toronto.edu/~bianca/papers/sigmetrics09.pdf
作者: zhuifeng88    时间: 2022-10-7 15:38
ddr2时代的可以找到一份详细的
https://static.googleusercontent ... s/archive/35162.pdf
直接说结论的话, 如果你有很多机器, 场景需求几个月以上稳定运行, 从总的发生的错误量上来说, ecc的效果是非常明显的

新的就似乎没有这样详细的公开的research了
作者: xbill    时间: 2022-10-7 15:42
google的统计数据是每条DIMM每年出现1个字节错误的概率是8.6%。服务器内存不追求频率,散热也是暴力风冷,出问题的概率应该天然就比普通内存低一些,不过基本上也不是普通人值得顾虑的事情。
作者: crystone    时间: 2022-10-7 16:38
我的需求是多个扩展pcie通道,奈何只有服务器板子才有了,所以只能上regecc内存
作者: yargee    时间: 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据中心的内存错误,An In-Depth Correlative Study Between DRAM Errors and Server Failures in Production Data Centers。
25万台机器,300万条内存,8个月的数据。有超过3万台机器出现过内存错误。只挑ECC能修复的错误(CE)来看,这3万台机器就报了75.1M次。

ECC对于生产环境稳定性的重要性无可置疑。

另外,是不需要“仅打开/关闭ECC”来看有无ECC的区别的,MCA会告诉你detect了多少,recover了多少。
作者: RedMomoe    时间: 2022-10-7 17:39
提示: 作者被禁止或删除 内容自动屏蔽
作者: imluvian    时间: 2022-10-7 18:19
yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

这个数据可以啊,看来弄个ECC对于家用服务器还是很有必要,特别是现在内存容量都上来了。
作者: gnattu    时间: 2022-10-7 18:22
yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

请问有没有文献原文链接?我想看一下
作者: nihilum    时间: 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响
作者: gnattu    时间: 2022-10-7 18:57
nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响

这个ECC和我们服务器上用的那个ECC不是一个ECC,它无法保证从内存到CPU的端到端ECC,只是用来提升颗粒良率的一个手段,虽然但是用了这样的手段D5价格依然比较高
作者: st1860    时间: 2022-10-7 19:28
不出事则已一出事暴毙
太太,你也不想你存的照片电影有绿块不显示吧
作者: blacksnoopy    时间: 2022-10-7 19:35
本帖最后由 blacksnoopy 于 2022-10-7 19:48 编辑

其实就差一点,如果7*24不关机ecc就有效果,另外工作站等生产力工具最好也有ecc,臭打游戏的就无所谓
作者: blacksnoopy    时间: 2022-10-7 19:42
RedMomoe 发表于 2022-10-7 17:39
家用无所谓的。

nas还是最好有ecc
作者: RedMomoe    时间: 2022-10-7 19:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: blacksnoopy    时间: 2022-10-7 19:51
RedMomoe 发表于 2022-10-7 19:49
最好的话,当然是上ecc内存,再搞个恒温机房了。家用,真的无所谓那些出错的问题。企业用,那就不一样了 ...

恒温机房到无所谓,家用平台一般温度不是问题。
作者: ltpterry    时间: 2022-10-7 20:25
gnattu 发表于 2022-10-7 18:22
请问有没有文献原文链接?我想看一下

https://www.cse.cuhk.edu.hk/~pclee/www/pubs/srds22.pdf
作者: klxq15    时间: 2022-10-7 21:18
不懂为啥会说不7x24小时,就没必要上ECC
从我亲身经历来看,某台服务器的内存坏了,因为有ECC机制存在,很容易就能感知到
换普通内存,怕不是坏了都发现不了,干啥数据都是错的
作者: 堕落的翼    时间: 2022-10-7 21:19
ltpterry 发表于 2022-10-7 20:25
https://www.cse.cuhk.edu.hk/~pclee/www/pubs/srds22.pdf

谢谢!
作者: azure001    时间: 2022-10-7 21:34
nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响

有专门的ECC DDR5内存的,而且效果比之前的ECC内存更好。只是现在很难找到,如网上这里列的各公司的具体型号就支持ECC。
作者: MaverickLee    时间: 2022-10-7 21:40
不好量化,而且普通用户的使用强度也不见得能明显感知得到。
但可以肯定的是,ECC插满可以使心里更舒服,免得整天念念想。比如我的NAS就是C226芯片组+E3 v3+四根纯ECC插满
作者: yargee    时间: 2022-10-7 21:53
gnattu 发表于 2022-10-7 18:57
这个ECC和我们服务器上用的那个ECC不是一个ECC,它无法保证从内存到CPU的端到端ECC,只是用来提升颗粒良 ...

是的,不过也可以说on-die ECC是在更底层做的一部分可靠性保障。当然商用的话,肯定还是会出现两层ECC,毕竟似乎好像也没有人讨论过DRAM上错误更多出现在哪些个环节。
作者: yargee    时间: 2022-10-7 21:57
堕落的翼 发表于 2022-10-7 21:19
谢谢!

这个数据集也是公开的。https://tianchi.aliyun.com/dataset/dataDetail?dataId=132973
作者: 堕落的翼    时间: 2022-10-7 22:37
yargee 发表于 2022-10-7 21:53
是的,不过也可以说on-die ECC是在更底层做的一部分可靠性保障。当然商用的话,肯定还是会出现两层ECC, ...

更多的应该是局部单元失效之后疯狂报错吧,我看之前google的论文大概是这种感觉,毕竟不会人人家里都有福岛核辐射网卡(
作者: fyc858    时间: 2022-10-7 23:52
blacksnoopy 发表于 2022-10-7 19:42
nas还是最好有ecc

我 NAS 内存  还  在 玩 超频
作者: wuya2357    时间: 2022-10-8 08:59
本帖最后由 wuya2357 于 2024-1-18 00:27 编辑

-none-delete
作者: a6057c    时间: 2022-10-8 09:06
稳定的时候ECC和非ECC都一样稳定,不稳定的时候一个悄悄让你的数据废掉,一个能给你留下一点日志或者报个WHEA蓝屏。
作者: ljy1414    时间: 2022-10-8 09:22
a6057c 发表于 2022-10-8 09:06
稳定的时候ECC和非ECC都一样稳定,不稳定的时候一个悄悄让你的数据废掉,一个能给你留下一点日志或者报个WH ...

+1,我自己测试过,原生3200内存
非ecc的小超3333直接蓝
带ecc的小超3333会报whea-19,顺带已修正错误
作者: awpak78    时间: 2022-10-8 10:06
yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

对大部分Atom性能都绰绰有余的NAS,和B550游戏主板强行配ECC的嘴硬玩家来说
实际跑起来完全没法和机房的骇人数据相提并论

我之前在群里调查过,下载机、软路由之类上X9SCM或类似ECC平台的,毛报错都没有
作者: jibberchao    时间: 2022-10-8 10:15
awpak78 发表于 2022-10-8 10:06
对大部分Atom性能都绰绰有余的NAS,和B550游戏主板强行配ECC的嘴硬玩家来说
实际跑起来完全没法和机房的 ...

我自己唯一一台觉得ECC有用的机器是E5+X99+RECC,当年图便宜买的一根一千块的16G RECC内存(那时候非ECC内存价格更离谱)后来跑有限元的时候确实比较不容易出问题,可以两个星期重载不挂逼
作者: fluttershy    时间: 2022-10-8 10:27
ECC只不过多一颗检验 真要得上REG REG热的一批 ECC D5就是了
作者: finalx    时间: 2022-10-8 10:47
提示: 作者被禁止或删除 内容自动屏蔽
作者: rendezvous    时间: 2022-10-8 11:09
finalx 发表于 2022-10-8 10:47
家用服务器,每三天定时从启动一下就行了。

握爪,我的x64旁路由器就弄了个定时开关,主板设了来电启动,一周自动重启一次。
作者: 一日    时间: 2022-10-8 11:37
yargee 发表于 2022-10-7 00:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

专业
作者: blacksnoopy    时间: 2022-10-8 22:17
wuya2357 发表于 2022-10-8 08:59
服务器内存出问题概率跟家用可比性不大。服务器满插内存的压力不低。以前X99 e5v3时,开鸡血单路满插ddr4 6 ...

没有ECC内存的nas,是需要软件层面来做纠错的,或者一些nas干脆就不做了,数据坏了就坏了。
作者: ztwindwalker    时间: 2022-10-8 22:55
yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

您好,请问就您的了解而言,学术界有没有大样本研究不同闪存颗粒或者不同SSD在数据中心应用下的可靠性的?
作者: yargee    时间: 2022-10-10 17:23
ztwindwalker 发表于 2022-10-8 22:55
您好,请问就您的了解而言,学术界有没有大样本研究不同闪存颗粒或者不同SSD在数据中心应用下的可靠性的 ...

关注数据中心SSD可靠性的工作肯定非常多,上面说的那个工作的组在21年也和阿里一起发过SSD可靠性的工作,An In-Depth Study of Correlated Failures in Production SSD-Based Data Centers,你可以看看。

不过感觉如果具体到你这个问题,关心不同颗粒可靠性的,和关心数据中心应用可靠性的,可能是两批人,所以可能没有个详细的答案。
作者: 均热板赛高    时间: 2022-10-10 17:44
blacksnoopy 发表于 2022-10-7 19:35
其实就差一点,如果7*24不关机ecc就有效果,另外工作站等生产力工具最好也有ecc,臭打游戏的就无所谓 ...

普通内存条跑jedec时序也很稳啦
作者: brucelee1126    时间: 2022-10-10 17:59
我的工作站15年至今没重装过系统,天天干活,机械设计和仿真,基本不关机,只是长假关机,从来没有过蓝屏死机闪退无响应报错等情况,我认为这里有ecc的作用,当然也有其他因素的作用,比如志强用默频,显卡用quadro,主板用料足,电源质量好,软件用正版,内网不中毒
作者: iamyangyi    时间: 2022-10-10 18:11
首先问你多久关一次机 一年以下 就没必要
作者: imyz    时间: 2022-10-10 19:35
内存中出现错误位 bit 的原因是多样的,比如:内存颗粒/硬件本身品质、超频、传输过程的 EMI 电磁干扰 等等......

即使同一条内存,放在不同的使用场景中可能出现位翻转的机率也是不同的,比如在大型的数据中心 EMI 的情况比家中要高,或者家住在 EMI 相对严重的地方;另外,像银行数据中心、天猫/京东这种需求场景,和家里码段代码、下载机、开几台服务器这种也都完全不是一个级别的。或者换句话说,即使在阿里数据中心能偶尔检测到 ECC 错误的内存条,换到我家用服务器上也许 2~3 年都不报一次错也不奇怪

所以,抛开使用场景一味地强调 ECC 的重要性是没有道理的,我自己目前服役了 8 年的家用服务器就 2条普通内存,日常 7x24 开三台虚拟机,我印象中就没有一次因为内存的原因造成过任何数据上的问题,所以,对我来讲,上 ECC 也就是心理安慰一下,毕竟之前 8 年都这么过来了。

不过,若两者价格差不太多,而自己又有心理洁癖的,那该上 ECC 就上吧。
作者: blacksnoopy    时间: 2022-10-10 21:23
均热板赛高 发表于 2022-10-10 17:44
普通内存条跑jedec时序也很稳啦

像我公司的台式机或者笔记本,一周不重启就会很卡,甚至出现内存不能为read的报错,重启后就流畅了,这个很大原因也跟内存ecc校验机制有关,
作者: 丑牛宝贝    时间: 2022-10-10 21:35
blacksnoopy 发表于 2022-10-10 21:23
像我公司的台式机或者笔记本,一周不重启就会很卡,甚至出现内存不能为read的报错,重启后就流畅了,这个 ...

你说的现象是正解,普通机器开几天就会卡。
作者: blacksnoopy    时间: 2022-10-10 22:06
nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响

这个是片内ECC,主要是解决高频带来的可能出现的错误问题,跟ECC还是有差别的,可以去看相关科普的视频。
作者: blacksnoopy    时间: 2022-10-10 22:08
rendezvous 发表于 2022-10-8 11:09
握爪,我的x64旁路由器就弄了个定时开关,主板设了来电启动,一周自动重启一次。 ...

是的,我是1个月重启一次,X86的爱快
作者: swimvc    时间: 2022-10-10 22:23
纯ECC似乎很少见吧,ECC-REG现在普通主板能用么?好久不研究了
作者: ztwindwalker    时间: 2022-10-11 01:27
yargee 发表于 2022-10-10 17:23
关注数据中心SSD可靠性的工作肯定非常多,上面说的那个工作的组在21年也和阿里一起发过SSD可靠性的工作, ...

谢谢回复!
作者: HFY    时间: 2022-10-11 10:21
有大佬推荐下DDR5 纯ECC型号吗,国内TB 黄鱼都搜不到




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5