找回密码
 加入我们
搜索
      
查看: 2933|回复: 41

[显卡] 居然是内存稳定性在影响nvidia-smi里的报错?

[复制链接]
发表于 2025-3-22 16:17 | 显示全部楼层 |阅读模式
本帖最后由 lh4357 于 2025-3-22 16:19 编辑

不同内存参数会导致报错数量变化很大(而且TM5还跑不出来)
这些不受PCIE版本影响,哪怕PCIE3.0也一样。

参数均为6000 30-38-38-76 TRFC495。

测试方法是玩2077或者天国拯救2。
大约半小时。

vdd1.43 vddq1.4 vddio1.25
smi3.png

vdd1.43 vddq1.35 vddio1.25
smi22.jpg

vdd1.43 vddq1.4 vddio1.3
smi4.png
发表于 2025-3-24 21:01 | 显示全部楼层
lh4357 发表于 2025-3-23 04:08
话说,各种要素集满了。
1.Resizable bar关闭
2.显卡跑3.0


解决了 解决了 关闭FTPM!

QQ截图20250324205633.jpg
发表于 2025-3-23 16:56 来自手机 | 显示全部楼层
gmcmail 发表于 2025-3-23 16:55
具体什么命令看这个?

楼主另一个帖子里有写,我直接复制粘贴过来吧:nvidia-smi pci -gErrCnt,然后-g换成-c是清零
发表于 2025-3-23 16:55 来自手机 | 显示全部楼层
gladiator 发表于 2025-3-23 16:23
可能这玩意对PCIE信号有干扰,刚把另一台技嘉的B850换了5070ti,能跑5.0但是跑3DMark也会有NAKS_SENT增加 ...

我是直接主槽坏了,0-7 lane好几个error 255的,然后上面各种65535的,我一开始以为是内存不稳定导致的,后来想了想不对lane是对应物理通道这是真pcie故障,一开始以为是副槽上的其他设备导致的干扰,拔了还是一样给我吓到了,这总不会是卡坏了吧,换到副槽后一切正常,特么的这正常用几辈子能遇到特么的pcie插槽出毛病啊
发表于 2025-3-23 16:55 | 显示全部楼层
具体什么命令看这个?
发表于 2025-3-23 16:52 来自手机 | 显示全部楼层
lh4357 发表于 2025-3-23 16:20
倒是有,E1.L转U2转M2,反复转接。
但不是它引起的,因为拔了这个盘还是NAKS_SENT。 ...

嗯,我刚试了也是,不插cpu直连也没变化,不过我真得谢谢你兄弟,不是看到你这个帖子,我不会有机会发现我有多个lane error 255,换到x8的副槽上一切正常了,naks_sent还有但已经只是十几了,我真是草了,等于之前是内存可能也不稳定,然后pcie插槽是真有毛病,特么的各种邪门毛病在同一张主板上让我遇到了我也是好运气
发表于 2025-3-23 16:45 | 显示全部楼层
好久没有搞内存时序了
发表于 2025-3-23 16:23 来自手机 | 显示全部楼层
盐湖 发表于 2025-3-23 15:44
完全一致的情况,我就是直通M2用安费诺转U2接的傲腾,刚刚看了下卧槽了一堆报错,刚清空再看就在实时增加 ...

可能这玩意对PCIE信号有干扰,刚把另一台技嘉的B850换了5070ti,能跑5.0但是跑3DMark也会有NAKS_SENT增加
 楼主| 发表于 2025-3-23 16:20 | 显示全部楼层
盐湖 发表于 2025-3-23 15:55
你有没有用M2转U2,我看上面有个老哥提到这个,我刚好符合,我甚至全是M2转U2,然后错误计数也是很猛 ...

倒是有,E1.L转U2转M2,反复转接。
但不是它引起的,因为拔了这个盘还是NAKS_SENT。
发表于 2025-3-23 15:55 | 显示全部楼层
lh4357 发表于 2025-3-23 15:49
不是玄学啊,排除一下“显卡太重,PCIE插槽受力太大,导致信号不良”这个要素。

刚才又蹦出来一个RECEIV ...

你有没有用M2转U2,我看上面有个老哥提到这个,我刚好符合,我甚至全是M2转U2,然后错误计数也是很猛
 楼主| 发表于 2025-3-23 15:49 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-23 15:51 编辑
盐湖 发表于 2025-3-23 15:45
显卡平放够玄学的


不是玄学啊,排除一下“显卡太重,PCIE插槽受力太大,导致信号不良”这个要素。

刚才又蹦出来一个RECEIVER_ERROR。。
太神奇。。
发表于 2025-3-23 15:45 | 显示全部楼层
lh4357 发表于 2025-3-23 04:08
话说,各种要素集满了。
1.Resizable bar关闭
2.显卡跑3.0

显卡平放够玄学的
发表于 2025-3-23 15:44 | 显示全部楼层
gladiator 发表于 2025-3-22 19:46
我是发现M2转U2走直通会有这问题,换到B650芯片组下面的M2通道就好了,这也太玄学了 ...

完全一致的情况,我就是直通M2用安费诺转U2接的傲腾,刚刚看了下卧槽了一堆报错,刚清空再看就在实时增加,这算是通道占用的锅?
 楼主| 发表于 2025-3-23 15:25 | 显示全部楼层
KinzerX 发表于 2025-3-23 15:20
tm5本来也只是个下限级别的测试,过了tm5只是起点,想用稳还是得yc vt3,p95 large FFT之类的

我超完以后 ...

内存全默认并且显卡降到3.0都不能让他一直是0。
某种意义上来说也管不了了。。

不过这个测试也不是没用,毕竟可以肯定大量报错基本是内存引起的。
发表于 2025-3-23 15:20 | 显示全部楼层
tm5本来也只是个下限级别的测试,过了tm5只是起点,想用稳还是得yc vt3,p95 large FFT之类的

我超完以后测英伟达这个几个小时都是全0,就没管过了
发表于 2025-3-23 15:15 | 显示全部楼层
guanqq_64 发表于 2025-3-23 14:56
我最早是6层板 X670E gaming plus
为了这个报错换成了X870E 战斧。
结果白换了 报错没变化 ...

牛的老哥,感谢分享经验!
发表于 2025-3-23 14:56 | 显示全部楼层
盐湖 发表于 2025-3-23 14:09
会不会是主板信号干扰?不是pcie,我是指内存走线,我是6层板我才想到这个的 ...

我最早是6层板 X670E gaming plus
为了这个报错换成了X870E 战斧。
结果白换了 报错没变化
发表于 2025-3-23 14:09 | 显示全部楼层
lh4357 发表于 2025-3-23 04:08
话说,各种要素集满了。
1.Resizable bar关闭
2.显卡跑3.0


会不会是主板信号干扰?不是pcie,我是指内存走线,我是6层板我才想到这个的
发表于 2025-3-23 08:33 | 显示全部楼层
lh4357 发表于 2025-3-23 04:08
话说,各种要素集满了。
1.Resizable bar关闭
2.显卡跑3.0

不知道了 玄学了 反正没影响 正常用吧
 楼主| 发表于 2025-3-23 04:08 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-23 04:20 编辑
guanqq_64 发表于 2025-3-22 22:16
按照你的思路我内存全auto 跑5600
结果还是有NAKS_SENT


话说,各种要素集满了。
1.Resizable bar关闭
2.显卡跑3.0
3.除此以外全默认
4.显卡平放

结果还是NAKS_SENT非0。
特么主板或cpu坏了?

你要是说这其实是正常现象吧。。。楼上就有一直是0的。
发表于 2025-3-22 23:06 | 显示全部楼层
我是跑测试玩3a基本不出数据,一般有也是五个以内,只有玩2042时候会比较多一般玩俩小时就得100了,但游戏里倒是没啥问题
 楼主| 发表于 2025-3-22 22:57 | 显示全部楼层
盐湖 发表于 2025-3-22 22:36
给你提供个我自己亲历的更有意思的案例,浏览器随便开个斗鱼直播,不最小化、不切其他标签页就放在那,然后 ...

把bar关了,还是有NAKS_SENT,但少了。
发表于 2025-3-22 22:48 | 显示全部楼层
kaiwenwu 发表于 2025-3-22 17:23
tm5和游戏已经不能证明d5超频稳定了

看到这层有点百感交集,换上zen5头一次用ddr5这半个月以来,在排查出内存稳定性是一切不稳定的罪魁祸首之前,我没少遭罪。D4时没感觉这么难用啊,开个XMP、最多稍微缩个时序、加个压,O了。D5坏就坏在它的毛病有时候在故障特征上会显现成其他部件的故障特征,就怎么也没想到会是内存的锅,因为测也过测了,玩3A也稳定啊,直到走投无路无意间调到内存参数然后忽然好了,才恍然大悟他妈的是内存在作妖。。
发表于 2025-3-22 22:36 | 显示全部楼层
本帖最后由 盐湖 于 2025-3-22 22:40 编辑

给你提供个我自己亲历的更有意思的案例,浏览器随便开个斗鱼直播,不最小化、不切其他标签页就放在那,然后同屏玩P社游戏,如果内存不够稳,几分钟或者十几秒内就会出现连续非卡死冻屏,就是也没直接冻死,但是已经是十几分之一fps那种操作响应极慢的状态了。即使所用参数烧鸡和游戏都过测了,在这个情景下只要不稳定就会触发故障,只要按这个流程来,不稳定的参数能100%复现这个故障。游戏也不一定必须是P社,重点是只吃单线程/通常为2D画风,即GPU压力几乎为0,事实上经我测试连一些伪2.5D上古网游都同样有效。
PS:楼上坛友提供了非常有可能强相关的猜测:re-bar以及572+版本的驱动或是故障根源,因为我符合这个情况,不过我也补充一点情况,我的案例中浏览器用chrome/edge/开或不开图形加速/解码用AV1/HEVC/AVC都能触发。
 楼主| 发表于 2025-3-22 22:33 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-22 22:54 编辑
guanqq_64 发表于 2025-3-22 22:16
按照你的思路我内存全auto 跑5600
结果还是有NAKS_SENT


把这个resizable bar关了,少了很多,但还是有。。

但基本可以肯定那个巨量报错是因为内存。
发表于 2025-3-22 22:16 | 显示全部楼层
本帖最后由 guanqq_64 于 2025-3-22 22:23 编辑

QQ截图20250322221310.jpg
按照你的思路我内存全auto 跑5600
结果还是有NAKS_SENT

我顺着你的思路想,显卡和内存有啥关系呢?
那么试着关闭下BAR看看?
结果成功了。是BAR的问题!
回想最近NV的驱动好像50系又说关于BAR修复BUG来着,看了还没修好啊


这个带宽测试 之前每次跑必报错,现在不报错了。而且带宽从开BAR的120G 下降到了真实PCI-E 5.0的60G 左右


QQ截图20250322222239.jpg

找到了 估计就是这个BUG搞的鬼....
 楼主| 发表于 2025-3-22 20:40 | 显示全部楼层
本帖最后由 lh4357 于 2025-3-22 20:44 编辑
menuu 发表于 2025-3-22 20:33
样本还是太少 我之前的主板下试过naks啥的不是每次必出 有时连着几天都没出现过
而且我上个CPU不碰任何超频 ...


但改个内存相关电压能整出几万的错误,基本也能说明问题了吧。
几万错误是半小时左右就出的,不是长时间攒的。

总不能是我改个电压把显卡改松了。。
发表于 2025-3-22 20:33 | 显示全部楼层
样本还是太少 我之前的主板下试过naks啥的不是每次必出 有时连着几天都没出现过
而且我上个CPU不碰任何超频选项只开EXPO后跑y-cruncher啥的都正常,但就是会冻屏。
发表于 2025-3-22 20:13 | 显示全部楼层
我去 终于破案了~~~
我这就去看看!!!
还是LZ给力啊 我都准备放弃了!
发表于 2025-3-22 19:54 | 显示全部楼层
AMD 你AUTO就对了。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-11 13:33 , Processed in 0.015266 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表