ECC和非ECC内存,稳定性到底相差多少?
请问有没有可靠的量化数据,比如对比一下相同的系统,仅打开/关闭ECC,看看内存出错的概率对比? 本帖最后由 堕落的翼 于 2022-10-7 15:57 编辑https://www.bilibili.com/video/BV1AW4y1y796
https://www.bilibili.com/video/BV1GF411V7sC
当然也有反例
http://www.cs.toronto.edu/~bianca/papers/sigmetrics09.pdf ddr2时代的可以找到一份详细的
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/35162.pdf
直接说结论的话, 如果你有很多机器, 场景需求几个月以上稳定运行, 从总的发生的错误量上来说, ecc的效果是非常明显的
新的就似乎没有这样详细的公开的research了 google的统计数据是每条DIMM每年出现1个字节错误的概率是8.6%。服务器内存不追求频率,散热也是暴力风冷,出问题的概率应该天然就比普通内存低一些,不过基本上也不是普通人值得顾虑的事情。 我的需求是多个扩展pcie通道,奈何只有服务器板子才有了,所以只能上regecc内存 我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据中心的内存错误,An In-Depth Correlative Study Between DRAM Errors and Server Failures in Production Data Centers。
25万台机器,300万条内存,8个月的数据。有超过3万台机器出现过内存错误。只挑ECC能修复的错误(CE)来看,这3万台机器就报了75.1M次。
ECC对于生产环境稳定性的重要性无可置疑。
另外,是不需要“仅打开/关闭ECC”来看有无ECC的区别的,MCA会告诉你detect了多少,recover了多少。 yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...
这个数据可以啊,看来弄个ECC对于家用服务器还是很有必要,特别是现在内存容量都上来了。 yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...
请问有没有文献原文链接?我想看一下 DDR5不是芯片内就内建ECC,大多数场景应该没什么影响 nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响
这个ECC和我们服务器上用的那个ECC不是一个ECC,它无法保证从内存到CPU的端到端ECC,只是用来提升颗粒良率的一个手段,虽然但是用了这样的手段D5价格依然比较高 不出事则已一出事暴毙
太太,你也不想你存的照片电影有绿块不显示吧 本帖最后由 blacksnoopy 于 2022-10-7 19:48 编辑
其实就差一点,如果7*24不关机ecc就有效果,另外工作站等生产力工具最好也有ecc,臭打游戏的就无所谓 RedMomoe 发表于 2022-10-7 17:39
家用无所谓的。
nas还是最好有ecc RedMomoe 发表于 2022-10-7 19:49
最好的话,当然是上ecc内存,再搞个恒温机房了。家用,真的无所谓那些出错的问题。企业用,那就不一样了 ...
恒温机房到无所谓,家用平台一般温度不是问题。 gnattu 发表于 2022-10-7 18:22
请问有没有文献原文链接?我想看一下
https://www.cse.cuhk.edu.hk/~pclee/www/pubs/srds22.pdf 不懂为啥会说不7x24小时,就没必要上ECC
从我亲身经历来看,某台服务器的内存坏了,因为有ECC机制存在,很容易就能感知到
换普通内存,怕不是坏了都发现不了,干啥数据都是错的 ltpterry 发表于 2022-10-7 20:25
https://www.cse.cuhk.edu.hk/~pclee/www/pubs/srds22.pdf
谢谢![喜欢] nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响
有专门的ECC DDR5内存的,而且效果比之前的ECC内存更好。只是现在很难找到,如网上这里列的各公司的具体型号就支持ECC。 不好量化,而且普通用户的使用强度也不见得能明显感知得到。
但可以肯定的是,ECC插满可以使心里更舒服,免得整天念念想。比如我的NAS就是C226芯片组+E3 v3+四根纯ECC插满 gnattu 发表于 2022-10-7 18:57
这个ECC和我们服务器上用的那个ECC不是一个ECC,它无法保证从内存到CPU的端到端ECC,只是用来提升颗粒良 ...
是的,不过也可以说on-die ECC是在更底层做的一部分可靠性保障。当然商用的话,肯定还是会出现两层ECC,毕竟似乎好像也没有人讨论过DRAM上错误更多出现在哪些个环节。 堕落的翼 发表于 2022-10-7 21:19
谢谢!
这个数据集也是公开的。https://tianchi.aliyun.com/dataset/dataDetail?dataId=132973 yargee 发表于 2022-10-7 21:53
是的,不过也可以说on-die ECC是在更底层做的一部分可靠性保障。当然商用的话,肯定还是会出现两层ECC, ...
更多的应该是局部单元失效之后疯狂报错吧,我看之前google的论文大概是这种感觉,毕竟不会人人家里都有福岛核辐射网卡( blacksnoopy 发表于 2022-10-7 19:42
nas还是最好有ecc
我 NAS 内存还在 玩 超频[偷笑] 本帖最后由 wuya2357 于 2024-1-18 00:27 编辑
-none-delete 稳定的时候ECC和非ECC都一样稳定,不稳定的时候一个悄悄让你的数据废掉,一个能给你留下一点日志或者报个WHEA蓝屏。 a6057c 发表于 2022-10-8 09:06
稳定的时候ECC和非ECC都一样稳定,不稳定的时候一个悄悄让你的数据废掉,一个能给你留下一点日志或者报个WH ...
+1,我自己测试过,原生3200内存
非ecc的小超3333直接蓝
带ecc的小超3333会报whea-19,顺带已修正错误 yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...
对大部分Atom性能都绰绰有余的NAS,和B550游戏主板强行配ECC的嘴硬玩家来说
实际跑起来完全没法和机房的骇人数据相提并论
我之前在群里调查过,下载机、软路由之类上X9SCM或类似ECC平台的,毛报错都没有 awpak78 发表于 2022-10-8 10:06
对大部分Atom性能都绰绰有余的NAS,和B550游戏主板强行配ECC的嘴硬玩家来说
实际跑起来完全没法和机房的 ...
我自己唯一一台觉得ECC有用的机器是E5+X99+RECC,当年图便宜买的一根一千块的16G RECC内存(那时候非ECC内存价格更离谱)后来跑有限元的时候确实比较不容易出问题,可以两个星期重载不挂逼[偷笑]
页:
[1]
2