ym168 发表于 2023-6-6 00:05

AMD承认EPYC Rome处理器在运行1044天后会卡死, 暂无修复计划

AMD EPYC 7002是他们在2019年推出的服务器处理器,采用Zen 2架构,代号为Rome,而近日AMD发布了EPYC 7002处理器的勘误表,上面指出“在上次系统重置后大约1044天后,内核将无法退出CC6。”要解决这一问题你需要重启服务器,而且AMD已经表示不会修复这一问题。



1044天大约是34个月的时间,也就是说不到3年,而准确的时间应该是1042天12小时,出问题的可能是CPU REFCLK在54位带符号整数中计算10ns滴答,如果你计算这些滴答中的9千万亿次以上,你会在1042天12小时的时候溢出,一旦发生溢出内核就将处于卡死状态,并且不会接受任何外部中断请求,直到你把电源关闭并重启,这就能重置计算器了。



这个问题能够被发现就表明不止一个系统练习运行了将近三年而且还没有重启,发现这个漏洞应该花了很多时间,AMD的指南中表示,导致这个问题的远呀是内核无法脱离CC6省电模式,进入该模式后会降低CPU电压和时钟频率,而不同系统出bug的时间误差可能取决于扩频调制和REFCLK频率惨况。

AMD不打算发布任何针对CC6错误的修复程序,而是建议管理员禁用CC6以避免内核卡死,或者干脆在时间期限来临前定期重启一次系统。

https://www.expreview.com/88653.html

沙悟净@蓝领 发表于 2023-6-6 01:00

禁用CC6省电模式可解决

赫敏 发表于 2023-6-6 01:42

这C6的bug是真的多,从zen1开始就有

bigmanlei 发表于 2023-6-6 09:07

为何是1044?

lgapple 发表于 2023-6-6 10:00

bigmanlei 发表于 2023-6-6 09:07
为何是1044?

1024+20?

aibo 发表于 2023-6-6 10:44

这种类似计数器的问题,感觉听玄学的。
当初怎么会有这种漏洞的呢。。。

PS001 发表于 2023-6-6 10:52

为啥不是1024 天? 还要+20

cmj1b 发表于 2023-6-6 11:04

所以OEM商会直接刷个BIOS禁用CC6吗?

jiongtl 发表于 2023-6-6 11:10

本帖最后由 jiongtl 于 2023-6-7 11:22 编辑

54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就是 9007199254740991 ,每 10ns 递增那换算成年天就是 9007199254740991 / 100000000 / 3600 / 24 = 1042.499913743 年天。

一剑再倾心 发表于 2023-6-6 12:12

intel即将大卖

xucx7 发表于 2023-6-6 12:40

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

哈哈哈哈哈哈 真相

zpf 发表于 2023-6-6 13:55

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

兄弟 牛逼了

bigmanlei 发表于 2023-6-6 15:05

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

哈,这是1042,而且是年吧

xavi 发表于 2023-6-6 15:36

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

技术流 赞

glamor 发表于 2023-6-6 15:55

7002是大船价。
不知道7003还有问题吗

小八 发表于 2023-6-6 16:39

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

牛啤(破音).....

MikuLuka 发表于 2023-6-6 18:16

glamor 发表于 2023-6-6 15:55
7002是大船价。
不知道7003还有问题吗

不知道还要测试下可能要等9004/9005横行的时候才知道。。。

mj_majun 发表于 2023-6-6 18:30

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

专业。。。。。。。。。。。

yystt 发表于 2023-6-6 19:59

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

虽然我看的晕晕乎乎的,但是,谢谢解惑。

hhkwq 发表于 2023-6-6 20:29

牛啤(破音).....

shangwei123 发表于 2023-6-6 22:28

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

老哥专业

348495990 发表于 2023-6-6 23:29

amd这么狂???

frankxp 发表于 2023-6-7 02:04

[偷笑][偷笑]
小问题吧?每3年重启一下服务器就解决了。

huihuige 发表于 2023-6-7 08:39

开这么久都不关机维护下?

邪恶的光B 发表于 2023-6-7 13:52

这种算是低级bug了吧?

小超人哥 发表于 2023-6-7 16:13

有没有一种可能是intel也有这个问题 但是没有那台坚持过3年没重启 所以就没发现这个问题啊。我N5105的软路由就没见过连续启动时间超过2-3个月的,不知道什么时候就自己重启了。。

subzero_wkc 发表于 2023-6-7 17:13

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

应该用补码吧

micahs 发表于 2023-6-7 21:07

jiongtl 发表于 2023-6-6 11:10
54位带符号整数最大值二进制是 11111111111111111111111111111111111111111111111111111 ,换算成十进制就 ...

牛啊就这是大牛哈
页: [1]
查看完整版本: AMD承认EPYC Rome处理器在运行1044天后会卡死, 暂无修复计划