找回密码
 加入我们
搜索
      
查看: 16118|回复: 47

[内存] ECC和非ECC内存,稳定性到底相差多少?

[复制链接]
发表于 2022-10-7 15:20 来自手机 | 显示全部楼层 |阅读模式
请问有没有可靠的量化数据,比如对比一下相同的系统,仅打开/关闭ECC,看看内存出错的概率对比?
发表于 2022-10-7 15:26 | 显示全部楼层
本帖最后由 堕落的翼 于 2022-10-7 15:57 编辑



当然也有反例
http://www.cs.toronto.edu/~bianca/papers/sigmetrics09.pdf
发表于 2022-10-7 15:38 | 显示全部楼层
ddr2时代的可以找到一份详细的
https://static.googleusercontent ... s/archive/35162.pdf
直接说结论的话, 如果你有很多机器, 场景需求几个月以上稳定运行, 从总的发生的错误量上来说, ecc的效果是非常明显的

新的就似乎没有这样详细的公开的research了
发表于 2022-10-7 15:42 | 显示全部楼层
google的统计数据是每条DIMM每年出现1个字节错误的概率是8.6%。服务器内存不追求频率,散热也是暴力风冷,出问题的概率应该天然就比普通内存低一些,不过基本上也不是普通人值得顾虑的事情。
发表于 2022-10-7 16:38 | 显示全部楼层
我的需求是多个扩展pcie通道,奈何只有服务器板子才有了,所以只能上regecc内存
发表于 2022-10-7 16:55 | 显示全部楼层
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据中心的内存错误,An In-Depth Correlative Study Between DRAM Errors and Server Failures in Production Data Centers。
25万台机器,300万条内存,8个月的数据。有超过3万台机器出现过内存错误。只挑ECC能修复的错误(CE)来看,这3万台机器就报了75.1M次。

ECC对于生产环境稳定性的重要性无可置疑。

另外,是不需要“仅打开/关闭ECC”来看有无ECC的区别的,MCA会告诉你detect了多少,recover了多少。
发表于 2022-10-7 17:39 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2022-10-7 18:19 | 显示全部楼层
yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

这个数据可以啊,看来弄个ECC对于家用服务器还是很有必要,特别是现在内存容量都上来了。
发表于 2022-10-7 18:22 | 显示全部楼层
yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

请问有没有文献原文链接?我想看一下
发表于 2022-10-7 18:35 | 显示全部楼层
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响
发表于 2022-10-7 18:57 | 显示全部楼层
nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响

这个ECC和我们服务器上用的那个ECC不是一个ECC,它无法保证从内存到CPU的端到端ECC,只是用来提升颗粒良率的一个手段,虽然但是用了这样的手段D5价格依然比较高
发表于 2022-10-7 19:28 | 显示全部楼层
不出事则已一出事暴毙
太太,你也不想你存的照片电影有绿块不显示吧
发表于 2022-10-7 19:35 | 显示全部楼层
本帖最后由 blacksnoopy 于 2022-10-7 19:48 编辑

其实就差一点,如果7*24不关机ecc就有效果,另外工作站等生产力工具最好也有ecc,臭打游戏的就无所谓
发表于 2022-10-7 19:42 | 显示全部楼层

nas还是最好有ecc
发表于 2022-10-7 19:49 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2022-10-7 19:51 | 显示全部楼层
RedMomoe 发表于 2022-10-7 19:49
最好的话,当然是上ecc内存,再搞个恒温机房了。家用,真的无所谓那些出错的问题。企业用,那就不一样了 ...

恒温机房到无所谓,家用平台一般温度不是问题。
发表于 2022-10-7 20:25 | 显示全部楼层
发表于 2022-10-7 21:18 | 显示全部楼层
不懂为啥会说不7x24小时,就没必要上ECC
从我亲身经历来看,某台服务器的内存坏了,因为有ECC机制存在,很容易就能感知到
换普通内存,怕不是坏了都发现不了,干啥数据都是错的
发表于 2022-10-7 21:19 | 显示全部楼层
ltpterry 发表于 2022-10-7 20:25
https://www.cse.cuhk.edu.hk/~pclee/www/pubs/srds22.pdf

谢谢!
发表于 2022-10-7 21:34 | 显示全部楼层
nihilum 发表于 2022-10-7 18:35
DDR5不是芯片内就内建ECC,大多数场景应该没什么影响

有专门的ECC DDR5内存的,而且效果比之前的ECC内存更好。只是现在很难找到,如网上这里列的各公司的具体型号就支持ECC。
ddr5_ecc.jpg
发表于 2022-10-7 21:40 | 显示全部楼层
不好量化,而且普通用户的使用强度也不见得能明显感知得到。
但可以肯定的是,ECC插满可以使心里更舒服,免得整天念念想。比如我的NAS就是C226芯片组+E3 v3+四根纯ECC插满
发表于 2022-10-7 21:53 | 显示全部楼层
gnattu 发表于 2022-10-7 18:57
这个ECC和我们服务器上用的那个ECC不是一个ECC,它无法保证从内存到CPU的端到端ECC,只是用来提升颗粒良 ...

是的,不过也可以说on-die ECC是在更底层做的一部分可靠性保障。当然商用的话,肯定还是会出现两层ECC,毕竟似乎好像也没有人讨论过DRAM上错误更多出现在哪些个环节。
发表于 2022-10-7 21:57 | 显示全部楼层
发表于 2022-10-7 22:37 | 显示全部楼层
yargee 发表于 2022-10-7 21:53
是的,不过也可以说on-die ECC是在更底层做的一部分可靠性保障。当然商用的话,肯定还是会出现两层ECC, ...

更多的应该是局部单元失效之后疯狂报错吧,我看之前google的论文大概是这种感觉,毕竟不会人人家里都有福岛核辐射网卡(
发表于 2022-10-7 23:52 | 显示全部楼层

我 NAS 内存  还  在 玩 超频
发表于 2022-10-8 08:59 | 显示全部楼层
本帖最后由 wuya2357 于 2024-1-18 00:27 编辑

-none-delete
发表于 2022-10-8 09:06 | 显示全部楼层
稳定的时候ECC和非ECC都一样稳定,不稳定的时候一个悄悄让你的数据废掉,一个能给你留下一点日志或者报个WHEA蓝屏。
发表于 2022-10-8 09:22 来自手机 | 显示全部楼层
a6057c 发表于 2022-10-8 09:06
稳定的时候ECC和非ECC都一样稳定,不稳定的时候一个悄悄让你的数据废掉,一个能给你留下一点日志或者报个WH ...

+1,我自己测试过,原生3200内存
非ecc的小超3333直接蓝
带ecc的小超3333会报whea-19,顺带已修正错误
发表于 2022-10-8 10:06 | 显示全部楼层
yargee 发表于 2022-10-7 16:55
我科研课题和可靠性有关,前面说的SIGMETRICS '09的工作太久远了,今年的SRDS有一篇工作分析的是阿里的数据 ...

对大部分Atom性能都绰绰有余的NAS,和B550游戏主板强行配ECC的嘴硬玩家来说
实际跑起来完全没法和机房的骇人数据相提并论

我之前在群里调查过,下载机、软路由之类上X9SCM或类似ECC平台的,毛报错都没有
发表于 2022-10-8 10:15 | 显示全部楼层
awpak78 发表于 2022-10-8 10:06
对大部分Atom性能都绰绰有余的NAS,和B550游戏主板强行配ECC的嘴硬玩家来说
实际跑起来完全没法和机房的 ...

我自己唯一一台觉得ECC有用的机器是E5+X99+RECC,当年图便宜买的一根一千块的16G RECC内存(那时候非ECC内存价格更离谱)后来跑有限元的时候确实比较不容易出问题,可以两个星期重载不挂逼
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-5-24 01:37 , Processed in 0.016063 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表