T.JOHN 发表于 2022-10-14 21:18

linus内存默频使用2.5年挂掉,生产环境仍需ECC

两年前我们 报道 过,Linus Torvalds 攒了一台新电脑,一晃两年半过去了,如今,这台电脑的内存条坏了,频繁出现机器不稳定甚至编译器损坏的情况。当时,Torvalds 本来想买 ECC 内存,但是又嫌太贵,于是买了 4 条便宜的 16GB DDR4-2666 的内存。目前,Torvalds 使用他外出携带的 MacBook Pro 工作,但是拖慢了他的工作进度。他说,“我正在我的笔记本电脑上进行合并(非常缓慢),同时在等待新的 ECC 内存条的到来。”。
他排查的时候开始还以为新内核有bug,编译不稳定才会这问题,后来回滚旧内核还出错才怀疑硬件问题,用memtest 86+跑了一整晚。

参考: v2ex讨论: https://v2ex.com/t/886003
         英文报道:https://www.theregister.com/2022/10/10/linus_torvalds_ecc_memory_fail/
           linus亲笔邮件:https://lkml.iu.edu/hypermail/linux/kernel/2210.1/00691.html
         两年前装的硬件:https://tech.sina.com.cn/digi/2020-05-31/doc-iircuyvi5959172.shtml

引申1. 两年前各部件都有品牌,什么猫头鹰,Be quiet,大雕都蹭到流量,最受伤的自然是蓝厂,被直接除名了。但内存品牌未知,如果知道是哪家,另外两家水军可以起个标题“震惊!xx内存仅用两年就损坏,linux kernel 6.1发布或推迟,间接造成经济损失xx亿美元,影响人类文明进步”

引申2. Torvalds也不是没钱,Redhat(IBM)给的股票都有150亿,但还是没交ecc内存的智商税,说明越是懂行的大佬越是精打细算,基本不会乱花钱,在全球最重要生产力项目上用非ecc内存干了2.5年,要是不出问题,他估计还能用下去。

引申3. 镁光/三星/海力士市场部门就不会免费赞助一下吗?4条Jedec 3200mhz条子的成本不比电视广告给力多了,想当年这线撕一换,AMD那是倍有面子。

引申4. 生产力平台仍需ECC,防止出错了都不知道如何排查。就连最懂内核之一的大佬都无法第一时间怀疑内存,还得逐个排查之前万一在硬盘上产生的错误文件,那必然费时间,普通人就没辙了。

叶子烟 发表于 2022-10-14 21:19

我在蛆家看的标题是他的AMD主机坏了

T.JOHN 发表于 2022-10-14 21:22

本帖最后由 T.JOHN 于 2022-10-14 21:26 编辑

叶子烟 发表于 2022-10-14 21:19
我在蛆家看的标题是他的AMD主机坏了

疽家编辑你懂的,他这封邮件可不算短了。里面那么多字连covid都出现了,愣是没有amd三个字,你说怎么能联系上amd的?倒是最后一句话又diss了一遍某厂把ecc功能特殊化
https://img.kolbb.com/images/2022/10/14/linus_mem.jpg

我輩樹である 发表于 2022-10-14 21:35

他的工作涉及到频繁的serde,应该要用ecc。

xsdianeht 发表于 2022-10-14 21:43

虽然和帖子没什么关系,不过我确实用坏过两条内存[流汗]
cpu也有两个坏的,一个8700qs一个g6900赛扬

天空中的污渍 发表于 2022-10-14 22:01

内存jd换新了

huaxiac4 发表于 2022-10-14 22:02

我也坏过内存

xy. 发表于 2022-10-14 22:06

镁光/三星/海力士市场部门就不会免费赞助一下吗
人家要是接受赞助, 之前配电脑的时候早就接受了, 还用等用坏了

翰墨留香 发表于 2022-10-14 22:09

我前段时间也用坏过内存,不过是D3的,随整机一起算保修的,已经过保了。。

TakanashiRikka 发表于 2022-10-14 22:34

坏过一条,几个月就暴毙了,直接开不了机

采花郎 发表于 2022-10-14 22:43

D3内存我也遇到坏了
不过发现是内存基板存在污物
猜测是上家不留神溅了茶渍还是咖啡渍在上面
结果到我手里就出问题了

a6057c 发表于 2022-10-14 22:44

[偷笑] 多亏linus懂电脑知道测内存,这种问题要是出在泥潭那又是一口一个amd不稳定

多崎作 发表于 2022-10-14 23:44

前几天自己给朋友帮组的PC突发开不了机,前一晚喝大了踹了一脚,我还以为把显卡PCIE槽踹烂了导致显示器无输出。后来看自检灯发现是内存自检报错,橡皮擦大法和交换通道以及单根开机都试过均不行,jd换了一套后顺利开机。我现在都难以理解简单一脚是怎么把内存踹烂了。

ccchoco 发表于 2022-10-15 00:00

坛子里人均持有的设备完爆全球最重要生产力项目的使用设备

LambdaDelta 发表于 2022-10-15 00:19

去年我15年买的两根渣渣金士顿2133也挂了,两根一起,跑去jd换货换了两根3200回来[偷笑]

texnis 发表于 2022-10-15 00:54

AMD市场部机灵点,赞助一套5995WX+WRX80+1TB内存不就得了

bear7510 发表于 2022-10-20 11:45

我见的ecc坏的也不少,就是坏了好定位吧。

阿诺德施瓦辛格 发表于 2022-10-20 11:47

这种带佬随便说一句,各个主机厂还不拉满送上去啊[偷笑]

ghj 发表于 2022-10-20 11:56

前段时间刚用坏一条内存

fluttershy 发表于 2022-10-20 12:04

你们才一条 我返修的内存有20多条

momo77989724 发表于 2022-10-20 12:18

ecc也会挂得 但是ECC不稳定   在控制台会有报错
页: [1]
查看完整版本: linus内存默频使用2.5年挂掉,生产环境仍需ECC