找回密码
 加入我们
搜索
      
查看: 2635|回复: 41

[显卡] 居然是内存稳定性在影响nvidia-smi里的报错?

[复制链接]
发表于 2025-3-22 16:17 | 显示全部楼层 |阅读模式
本帖最后由 lh4357 于 2025-3-22 16:19 编辑

不同内存参数会导致报错数量变化很大(而且TM5还跑不出来)
这些不受PCIE版本影响,哪怕PCIE3.0也一样。

参数均为6000 30-38-38-76 TRFC495。

测试方法是玩2077或者天国拯救2。
大约半小时。

vdd1.43 vddq1.4 vddio1.25
smi3.png

vdd1.43 vddq1.35 vddio1.25
smi22.jpg

vdd1.43 vddq1.4 vddio1.3
smi4.png
发表于 2025-3-22 16:21 | 显示全部楼层
内存稳定性软件跑出来的是不可纠正错误,可纠正错误得像nvidia这样提供硬件层面的接口才能看到
发表于 2025-3-22 16:22 | 显示全部楼层
TM5要和Furmark一起跑,才能模拟玩游戏时内存的温度
 楼主| 发表于 2025-3-22 16:23 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-22 16:27 编辑
uuyyhhjj 发表于 2025-3-22 16:21
内存稳定性软件跑出来的是不可纠正错误,可纠正错误得像nvidia这样提供硬件层面的接口才能看到 ...


关键是这半小时几万个错误,tm5居然还是不报错。
然后游戏也没闪退。
 楼主| 发表于 2025-3-22 16:24 | 显示全部楼层
U艇 发表于 2025-3-22 16:22
TM5要和Furmark一起跑,才能模拟玩游戏时内存的温度

机箱没盖好多年,玩游戏比TM5温度低。
发表于 2025-3-22 16:27 | 显示全部楼层
lh4357 发表于 2025-3-22 16:23
关键是这半小时几万个错误,tm5居然还是不报错。

bad只有281,这部分数据又不一定存在内存,而且内存自身还有纠错能力,可能是写到内存前出错,又不一定是写到内存后出错,硬件之间数据通信其实很复杂的
发表于 2025-3-22 16:32 | 显示全部楼层
在压视频,也没见报错,估计不怎么吃内存吧。用的是光威的条子,长鑫颗粒,直接开EXPO1没精调
]WC96PW$BNHQE8JD)J5J_`C.png
P46V})D]C7B%9]_4I09%MI7.png
 楼主| 发表于 2025-3-22 16:55 | 显示全部楼层
liu6888 发表于 2025-3-22 16:32
在压视频,也没见报错,估计不怎么吃内存吧。用的是光威的条子,长鑫颗粒,直接开EXPO1没精调 ...


你直接EXPO的话,VDDIO是同步VDD和VDDQ的。
但好多教程里都教你单独缩水VDDIO,这就尴尬了。

不过这个电压确实是直接进IOD的,可能是怕坏吧。
发表于 2025-3-22 17:14 来自手机 | 显示全部楼层
所以我都不想超频了tm5和corecycler嘎嘎能跑然后时不时冷启动打不着
发表于 2025-3-22 17:22 | 显示全部楼层
Mashiro_plan_C 发表于 2025-3-22 17:14
所以我都不想超频了tm5和corecycler嘎嘎能跑然后时不时冷启动打不着

现在外面内存测试是用karhu 跑24小时才是稳定,tm5这种只能算是简单测试一下。
发表于 2025-3-22 17:23 | 显示全部楼层
lh4357 发表于 2025-3-22 16:23
关键是这半小时几万个错误,tm5居然还是不报错。
然后游戏也没闪退。

tm5和游戏已经不能证明d5超频稳定了
 楼主| 发表于 2025-3-22 17:24 | 显示全部楼层
kaiwenwu 发表于 2025-3-22 17:23
tm5和游戏已经不能证明d5超频稳定了

那这下算是找到新思路了,nvidia-smi。。

发表于 2025-3-22 19:46 来自手机 | 显示全部楼层
我是发现M2转U2走直通会有这问题,换到B650芯片组下面的M2通道就好了,这也太玄学了
发表于 2025-3-22 19:54 | 显示全部楼层
AMD 你AUTO就对了。
发表于 2025-3-22 20:13 | 显示全部楼层
我去 终于破案了~~~
我这就去看看!!!
还是LZ给力啊 我都准备放弃了!
发表于 2025-3-22 20:33 | 显示全部楼层
样本还是太少 我之前的主板下试过naks啥的不是每次必出 有时连着几天都没出现过
而且我上个CPU不碰任何超频选项只开EXPO后跑y-cruncher啥的都正常,但就是会冻屏。
 楼主| 发表于 2025-3-22 20:40 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-22 20:44 编辑
menuu 发表于 2025-3-22 20:33
样本还是太少 我之前的主板下试过naks啥的不是每次必出 有时连着几天都没出现过
而且我上个CPU不碰任何超频 ...


但改个内存相关电压能整出几万的错误,基本也能说明问题了吧。
几万错误是半小时左右就出的,不是长时间攒的。

总不能是我改个电压把显卡改松了。。
发表于 2025-3-22 22:16 | 显示全部楼层
本帖最后由 guanqq_64 于 2025-3-22 22:23 编辑

QQ截图20250322221310.jpg
按照你的思路我内存全auto 跑5600
结果还是有NAKS_SENT

我顺着你的思路想,显卡和内存有啥关系呢?
那么试着关闭下BAR看看?
结果成功了。是BAR的问题!
回想最近NV的驱动好像50系又说关于BAR修复BUG来着,看了还没修好啊


这个带宽测试 之前每次跑必报错,现在不报错了。而且带宽从开BAR的120G 下降到了真实PCI-E 5.0的60G 左右


QQ截图20250322222239.jpg

找到了 估计就是这个BUG搞的鬼....
 楼主| 发表于 2025-3-22 22:33 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-22 22:54 编辑
guanqq_64 发表于 2025-3-22 22:16
按照你的思路我内存全auto 跑5600
结果还是有NAKS_SENT


把这个resizable bar关了,少了很多,但还是有。。

但基本可以肯定那个巨量报错是因为内存。
发表于 2025-3-22 22:36 | 显示全部楼层
本帖最后由 盐湖 于 2025-3-22 22:40 编辑

给你提供个我自己亲历的更有意思的案例,浏览器随便开个斗鱼直播,不最小化、不切其他标签页就放在那,然后同屏玩P社游戏,如果内存不够稳,几分钟或者十几秒内就会出现连续非卡死冻屏,就是也没直接冻死,但是已经是十几分之一fps那种操作响应极慢的状态了。即使所用参数烧鸡和游戏都过测了,在这个情景下只要不稳定就会触发故障,只要按这个流程来,不稳定的参数能100%复现这个故障。游戏也不一定必须是P社,重点是只吃单线程/通常为2D画风,即GPU压力几乎为0,事实上经我测试连一些伪2.5D上古网游都同样有效。
PS:楼上坛友提供了非常有可能强相关的猜测:re-bar以及572+版本的驱动或是故障根源,因为我符合这个情况,不过我也补充一点情况,我的案例中浏览器用chrome/edge/开或不开图形加速/解码用AV1/HEVC/AVC都能触发。
发表于 2025-3-22 22:48 | 显示全部楼层
kaiwenwu 发表于 2025-3-22 17:23
tm5和游戏已经不能证明d5超频稳定了

看到这层有点百感交集,换上zen5头一次用ddr5这半个月以来,在排查出内存稳定性是一切不稳定的罪魁祸首之前,我没少遭罪。D4时没感觉这么难用啊,开个XMP、最多稍微缩个时序、加个压,O了。D5坏就坏在它的毛病有时候在故障特征上会显现成其他部件的故障特征,就怎么也没想到会是内存的锅,因为测也过测了,玩3A也稳定啊,直到走投无路无意间调到内存参数然后忽然好了,才恍然大悟他妈的是内存在作妖。。
 楼主| 发表于 2025-3-22 22:57 | 显示全部楼层
盐湖 发表于 2025-3-22 22:36
给你提供个我自己亲历的更有意思的案例,浏览器随便开个斗鱼直播,不最小化、不切其他标签页就放在那,然后 ...

把bar关了,还是有NAKS_SENT,但少了。
发表于 2025-3-22 23:06 | 显示全部楼层
我是跑测试玩3a基本不出数据,一般有也是五个以内,只有玩2042时候会比较多一般玩俩小时就得100了,但游戏里倒是没啥问题
 楼主| 发表于 2025-3-23 04:08 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-23 04:20 编辑
guanqq_64 发表于 2025-3-22 22:16
按照你的思路我内存全auto 跑5600
结果还是有NAKS_SENT


话说,各种要素集满了。
1.Resizable bar关闭
2.显卡跑3.0
3.除此以外全默认
4.显卡平放

结果还是NAKS_SENT非0。
特么主板或cpu坏了?

你要是说这其实是正常现象吧。。。楼上就有一直是0的。
发表于 2025-3-23 08:33 | 显示全部楼层
lh4357 发表于 2025-3-23 04:08
话说,各种要素集满了。
1.Resizable bar关闭
2.显卡跑3.0

不知道了 玄学了 反正没影响 正常用吧
发表于 2025-3-23 14:09 | 显示全部楼层
lh4357 发表于 2025-3-23 04:08
话说,各种要素集满了。
1.Resizable bar关闭
2.显卡跑3.0


会不会是主板信号干扰?不是pcie,我是指内存走线,我是6层板我才想到这个的
发表于 2025-3-23 14:56 | 显示全部楼层
盐湖 发表于 2025-3-23 14:09
会不会是主板信号干扰?不是pcie,我是指内存走线,我是6层板我才想到这个的 ...

我最早是6层板 X670E gaming plus
为了这个报错换成了X870E 战斧。
结果白换了 报错没变化
发表于 2025-3-23 15:15 | 显示全部楼层
guanqq_64 发表于 2025-3-23 14:56
我最早是6层板 X670E gaming plus
为了这个报错换成了X870E 战斧。
结果白换了 报错没变化 ...

牛的老哥,感谢分享经验!
发表于 2025-3-23 15:20 | 显示全部楼层
tm5本来也只是个下限级别的测试,过了tm5只是起点,想用稳还是得yc vt3,p95 large FFT之类的

我超完以后测英伟达这个几个小时都是全0,就没管过了
 楼主| 发表于 2025-3-23 15:25 | 显示全部楼层
KinzerX 发表于 2025-3-23 15:20
tm5本来也只是个下限级别的测试,过了tm5只是起点,想用稳还是得yc vt3,p95 large FFT之类的

我超完以后 ...

内存全默认并且显卡降到3.0都不能让他一直是0。
某种意义上来说也管不了了。。

不过这个测试也不是没用,毕竟可以肯定大量报错基本是内存引起的。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 00:12 , Processed in 0.014379 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表