Chiphell - 分享与交流用户体验

标题: AMD确认EPYC Rome CPU存在BUG,需要每隔34个月重启 [打印本页]

作者: 525165    时间: 2023-6-6 00:18
标题: AMD确认EPYC Rome CPU存在BUG,需要每隔34个月重启
无修复计划~


原文:“https://www.techpowerup.com/3095 ... 34-months-of-uptime

“AMD 最近发布了基于 Zen 2 的第二代 EPYC 处理器的勘误表,其中指出,“在上次系统重置后大约 1044 天后,内核将无法退出 CC6。” 1044 天大约是 34 个月,或者说只有不到 3 年的总正常运行时间,根据 Reddit 和 Twitter 上的一些系统管理员侦探进行数学计算并发现实际时间是 1042 天 12 小时,这实际上是一个高估。出现问题是因为 CPU REFCLK 在 54 位带符号整数中计算 10ns 滴答,如果您计算这些滴答中的 9 千万亿次以上,您会在 1042.4999 天得到溢出。一旦发生这种溢出,内核将永远处于僵尸状态,并且不会接受任何外部中断请求。好吧,直到你关闭电源开关然后再打开,这将重置计数器。

发现这个问题确实令人印象深刻,因为它表明不止一个系统已经连续运行了将近三年而没有重新启动。尽管这确实使 EPYC“罗马”无法获得运行时间最长的系统的任何可能奖项,但它可以提醒人们启动系统更新或修补自那一代处理器问世以来四年内发现的其他漏洞。首次推出。AMD 不打算发布任何针对 CC6 错误的修复程序,而是建议管理员禁用 CC6 以避免内核进入僵尸化状态,或者干脆在时限到期前每隔一段时间启动一次重启。”

(, 下载次数: 31)
作者: HZJ    时间: 2023-6-6 01:57
意料之中,AMD就像一个资本捧起来的小鲜肉流量明星,就看看它的股票泡沫还能持续多久。
作者: ioko    时间: 2023-6-6 02:02
HZJ 发表于 2023-6-6 01:57
意料之中,AMD就像一个资本捧起来的小鲜肉流量明星,就看看它的股票泡沫还能持续多久。 ...

amd虽然只是千年老二,但从你的回复中看到了另外的解读: 酸
作者: panzerlied    时间: 2023-6-6 02:04
网友们的解读越来越牛逼了
作者: 苏川剑    时间: 2023-6-6 02:15
HZJ 发表于 2023-6-6 01:57
意料之中,AMD就像一个资本捧起来的小鲜肉流量明星,就看看它的股票泡沫还能持续多久。 ...

呵呵
作者: Juzi丶    时间: 2023-6-6 02:40
网友们的解读越来越牛逼了
作者: uufaelaef01    时间: 2023-6-6 08:38
CHH贴吧化
作者: ljy1414    时间: 2023-6-6 08:41
本帖最后由 ljy1414 于 2023-6-6 08:42 编辑
HZJ 发表于 2023-6-6 01:57
意料之中,AMD就像一个资本捧起来的小鲜肉流量明星,就看看它的股票泡沫还能持续多久。 ...


对,你清高,你家intel直接提前CPU暴毙,连重启的机会都没有
也不撒泡尿照照镜子,穿着一身白娘子装,露处一脸恶心人的笑容
恶心人就算了,也不动动脑子翻翻帖子,眼瞎吗?

https://www.hkepc.com/18366/

(, 下载次数: 32)
作者: ljy1414    时间: 2023-6-6 08:44
我就是敢祖安你2F,你TM 2F玻璃心碎麻烦你去举报,出门右拐不送客,滚!!
作者: amike    时间: 2023-6-6 09:06
所以amd把二楼怎么了?还是说他股票抛早了?
意料之中也没见发个预言贴啊,马后炮谁不会
作者: gbawrc    时间: 2023-6-6 09:07
提示: 作者被禁止或删除 内容自动屏蔽
作者: kiteee    时间: 2023-6-6 09:08
楼里好多纠察队呀,果然是流量明细
作者: dmaonb    时间: 2023-6-6 09:16
2F发言过于逆天
作者: tancen1983    时间: 2023-6-6 09:17
有点BUG啥的不是很正常么。。。哪家能说自己100%完美
作者: PPXG    时间: 2023-6-6 09:27
2L欢乐
作者: 专升本高手    时间: 2023-6-6 09:30
夏天快到了 活是越来越密了 给我整笑了
作者: 叶子烟    时间: 2023-6-6 09:34
举手问一下,一般服务器需要重启吗?
我就知道打的网游服务器一般需要重启
作者: 63047838    时间: 2023-6-6 10:09
台湾基佬越来越暴躁了,但是骂的真爽
作者: bxhaai    时间: 2023-6-6 10:14
好歹也稳定运行34个月,不然这BUG都发现不了
作者: qiu95    时间: 2023-6-6 10:14
真有机房服务器能连续跑三年不升级不重启么
作者: 禁止梭哈    时间: 2023-6-6 10:18
qiu95 发表于 2023-6-6 10:14
真有机房服务器能连续跑三年不升级不重启么

HPE有出rome架构的存储
作者: londbell    时间: 2023-6-6 10:25
ljy1414 发表于 2023-6-6 08:41
对,你清高,你家intel直接提前CPU暴毙,连重启的机会都没有
也不撒泡尿照照镜子,穿着一身白娘子装,露 ...

DSM和QNAP对这个问题作出回应,说不会影响他们产品,但是一查也有不少暴毙
作者: londbell    时间: 2023-6-6 10:27
ljy1414 发表于 2023-6-6 08:44
我就是敢祖安你2F,你TM 2F玻璃心碎麻烦你去举报,出门右拐不送客,滚!!

(, 下载次数: 30)
作者: 伊万科涅夫    时间: 2023-6-6 10:29
禁止梭哈 发表于 2023-6-6 10:18
HPE有出rome架构的存储

HPE存储炸盘都已经两次了,这个比系统死机严重多了。

企业级SSD硬盘可靠性要求很高,只不过万一遇到事也没法了。HPE(惠普企业,也叫惠与)公司的多款SAS硬盘就遭遇了这样的麻烦,运行40000小时之后硬盘会挂掉,数据也会丢失。

更麻烦的是,这已经是HPE的企业级硬盘第二次出现类似的bug了。去年11月份,HPE的SAS硬盘出现为了奇怪的bug,通电时间累计达到32768小时(3年零270天8小时)后直接挂掉,导致数据丢失。

当时HPE方面没有明确原因,但外界猜测与16位计算系统的整数溢出有关,32768是这套系统能处理的最大负整数,32767是最大正整数。

之后HPE发布了新的HPD8固件,解决了掉盘问题。没想到的是,在运行40000小时时这个问题又回来了,也是掉盘+数据丢失。

该问题影响HPE 800GB/1.6TB 12G SAS SSD、HPE ProLiant、Synergy、Apollo 4200及Synergy Storage Modules、D3000 Storage Enclosure和StoreEasy 1000 Storage服务器、存储阵列上的SAS WI-1/MU-1 SFF SC SSD硬盘。

作者: ljy1414    时间: 2023-6-6 10:31
londbell 发表于 2023-6-6 10:25
DSM和QNAP对这个问题作出回应,说不会影响他们产品,但是一查也有不少暴毙 ...

我记得有不少人买华擎的主板上了黑裙吧?
不知道那些华擎主板是否还安好...
作者: slymitec    时间: 2023-6-6 10:34
提示: 作者被禁止或删除 内容自动屏蔽
作者: tengyun    时间: 2023-6-6 10:42
slymitec 发表于 2023-6-6 10:34
我比较关心Zen3、Zen4是否也有这样的问题,毕竟1000多天,哪怕Zen3目前也还体现不出来。 ...



家用机  很少有人2 3年不重启吧
以前玩网游 维护不也是1周1次嘛= =
作者: fluttershy    时间: 2023-6-6 10:43
话说服务器维保是几年?
作者: chnjyxz    时间: 2023-6-6 10:48
一坤年重启一次。
作者: 禁止梭哈    时间: 2023-6-6 10:49
伊万科涅夫 发表于 2023-6-6 10:29
HPE存储炸盘都已经两次了,这个比系统死机严重多了。

企业级SSD硬盘可靠性要求很高,只不过万一遇到事也 ...

HPE我只接触过小型机,3par,nimble和带库,只修过这些玩意,存储整机宕了和坏盘还是有区别的。如果是到了那个时间统一会宕没时间差的话
作者: ekiuc    时间: 2023-6-6 10:58
34个月挺不错的了,而且重启就能解决问题

某些用HBM的ai卡能把训练完整跑完就算胜利
作者: DiamondBall    时间: 2023-6-6 10:59
俗话说重启解决90%的问题……
作者: paliangxi    时间: 2023-6-6 13:48
slymitec 发表于 2023-6-6 10:34
我比较关心Zen3、Zen4是否也有这样的问题,毕竟1000多天,哪怕Zen3目前也还体现不出来。 ...

人家是机器开着34个月不重启
你觉得民用能开这么久? 夏天来个跳闸啊 冬天来个挖电缆
作者: 周喆    时间: 2023-6-6 13:55
不如当年65nm的TLB BUG
作者: starlight    时间: 2023-6-6 14:23
AMD 都把Intel逼上绝路了    没两把刷子   可是不行滴   流量明星可不兴乱戴啊
作者: 我輩樹である    时间: 2023-6-6 14:27
叶子烟 发表于 2023-6-6 09:34
举手问一下,一般服务器需要重启吗?
我就知道打的网游服务器一般需要重启 ...

程序写的烂就要频繁重启。快改用rust。
作者: ljy1414    时间: 2023-6-6 18:25
londbell 发表于 2023-6-6 10:27

笑死,这种人还不BAN ID吗?


作者: zhuifeng88    时间: 2023-6-6 18:27
我輩樹である 发表于 2023-6-6 14:27
程序写的烂就要频繁重启。快改用rust。

可是bug一般都是逻辑错误, 上rust把精力分散到生命周期管理去了逻辑bug反而变多了
作者: ancientplant    时间: 2023-6-7 08:30
那么其他zen2受不受影响?
p/s:btw, 大不了关CC6。
作者: 雨季不再来    时间: 2023-6-7 09:30
居然不打算修复?难道默认服务器是需要经常重启的?
作者: 雨季不再来    时间: 2023-6-7 09:32
叶子烟 发表于 2023-6-6 09:34
举手问一下,一般服务器需要重启吗?
我就知道打的网游服务器一般需要重启 ...

我只知道单位里的服务器,不遇到问题是不会重启的。
作者: 0x2020201    时间: 2023-6-7 09:43
ljy1414 发表于 2023-6-6 10:31
我记得有不少人买华擎的主板上了黑裙吧?
不知道那些华擎主板是否还安好... ...

我的华擎J3455 Debian 7x24运行了6年,暂时没有发现问题,不知什么时候会暴毙,在犹豫要不要继续留着
作者: colo    时间: 2023-6-7 09:45
有些处于衰退期的系统,扔在机房如果不是无法访问,是没有人会去重启的
作者: wei73    时间: 2023-6-7 11:19
HZJ 发表于 2023-6-6 01:57
意料之中,AMD就像一个资本捧起来的小鲜肉流量明星,就看看它的股票泡沫还能持续多久。 ...

AMD的股票抛早了多久呀,这都能整一出。
作者: 舒方    时间: 2023-6-7 11:43
雨季不再来 发表于 2023-6-7 09:30
居然不打算修复?难道默认服务器是需要经常重启的?

可能是硬件问题,都快要停产了还修复啥。
作者: ljy1414    时间: 2023-6-7 14:10
0x2020201 发表于 2023-6-7 09:43
我的华擎J3455 Debian 7x24运行了6年,暂时没有发现问题,不知什么时候会暴毙,在犹豫要不要继续留着[失 ...

下载CPU-Z,如果显示B1步进建议可以准备淘汰了,F1步进请放心继续用
作者: ljy1414    时间: 2023-6-7 14:14
wei73 发表于 2023-6-7 11:19
AMD的股票抛早了多久呀,这都能整一出。

TW的PCDVD论坛有个奇葩,只要是AMD的有利的新闻都是一顿喷
当时AMD才2美金1股,论坛上有不少人大量买入
那时候他还嘲讽AMD最后会跌破2美元,结果Zen1一发布之后股价一路狂升
达到巅峰时期时买了赛灵思之后,当初倾家荡产2美元购入的人士,直接全部卖出
现在全部脱贫直接人生胜利组,我也很后悔当初不会买股票
而那位奇葩再也没出现过,后来改开小号当A黑被抓到,笑死

没赚到钱整个人心态都扭曲了

作者: ljy1414    时间: 2023-6-7 14:16
63047838 发表于 2023-6-6 10:09
台湾基佬越来越暴躁了,但是骂的真爽

黛玉体质,易燃体脂
天气热了就常常收不住脾气祖安问候对方全家


作者: ljy1414    时间: 2023-6-7 14:17
slymitec 发表于 2023-6-6 10:34
我比较关心Zen3、Zen4是否也有这样的问题,毕竟1000多天,哪怕Zen3目前也还体现不出来。 ...

光-CUV超频跑稳定性测试就够让你一天重启好几次了
更别提AMD还有嵌入式产品,这点你就不用担心啦


作者: wun_008    时间: 2023-6-7 14:27
商业策略吧 不能用于宇航,不能用于超算,不能买旧款
作者: Illidan2004    时间: 2023-6-7 14:37
叶子烟 发表于 2023-6-6 09:34
举手问一下,一般服务器需要重启吗?
我就知道打的网游服务器一般需要重启 ...

3年不重启的服务器  可能这世界上没有几台吧
作者: Illidan2004    时间: 2023-6-7 14:38
ekiuc 发表于 2023-6-6 10:58
34个月挺不错的了,而且重启就能解决问题

某些用HBM的ai卡能把训练完整跑完就算胜利 ...

以前我记得有人就是买intel带K的拿去液氮超频 单核跑项目的某些计算
能跑完算赢  
卖家跟我说 他们只买这个  而且一下就几十颗  能跑完一次没挂就达成目的  能出一个实验结果了
作者: 高子    时间: 2023-6-7 14:54
好奇这种bug都是怎么发现的?
作者: 0x2020201    时间: 2023-6-7 15:20
ljy1414 发表于 2023-6-7 14:10
下载CPU-Z,如果显示B1步进建议可以准备淘汰了,F1步进请放心继续用

17年初的,B1步进无疑了
作者: 朝夕问道    时间: 2023-6-7 15:24
服务器一般都不添加更换设备么?性能落后了直接换最新的么
作者: wei73    时间: 2023-6-8 09:11
朝夕问道 发表于 2023-6-7 15:24
服务器一般都不添加更换设备么?性能落后了直接换最新的么

那你想多了,服务器的迭代周期实际上非常长。

看看现在二手服务器大量出售的还都是N代前的产品
作者: kingpino    时间: 2023-6-8 09:29
gbawrc 发表于 2023-6-6 09:07
也就是说,EPYC不适合当软路由

确实,这4年一断网影响我刷抖音可不行
作者: cqn3887    时间: 2023-6-8 09:35
ljy1414 发表于 2023-6-6 08:44
我就是敢祖安你2F,你TM 2F玻璃心碎麻烦你去举报,出门右拐不送客,滚!!

喷的有理有据,服
作者: duke580    时间: 2023-6-13 03:46
3年不重启,没接触过,看看大佬们怎么说
作者: enben    时间: 2023-6-13 09:13
就是一个bug ,测试对于这样的长时间的bug ,基本测试不出来。




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5