Chiphell - 分享与交流用户体验

标题: "nvidia-smi pci -gErrCnt"里的NAKS_SENT是啥? [打印本页]

作者: lh4357    时间: 2025-3-20 14:55
标题: "nvidia-smi pci -gErrCnt"里的NAKS_SENT是啥?
本帖最后由 lh4357 于 2025-3-20 14:56 编辑

除了“L0_TO_RECOVERY_COUNTER”以外,只有NAKS_SENT不是0。

以为PCIE5不稳,改成4.0,NAKS_SENT依然不是0。

但无论5.0还是4.0,玩游戏没有任何不稳定的情况发生。
作者: xsdianeht    时间: 2025-3-20 15:14
本帖最后由 xsdianeht 于 2025-3-20 15:16 编辑

nak数量,要求重传的时候+1
NVML_FI_DEV_PCIE_COUNT_NAKS_SENT for NAK Send counter.
作者: gladiator    时间: 2025-3-20 15:38
NAKS_SENT和BAD_TLP出来就证明PCIE传输有问题,我之前排了半天问题发现是M2转U2的SN640只要挂CPU直出通道就会有,挂B650芯片组下面就好了
作者: lh4357    时间: 2025-3-20 15:40
gladiator 发表于 2025-3-20 15:38
NAKS_SENT和BAD_TLP出来就证明PCIE传输有问题,我之前排了半天问题发现是M2转U2的SN640只要挂CPU直出通道就 ...

BAD_TLP是0,只有NAKS_SENT有数值,而且跑4.0也还是有。
作者: 关山明月    时间: 2025-3-20 15:41
lh4357 发表于 2025-3-20 15:40
BAD_TLP是0,只有NAKS_SENT有数值,而且跑4.0也还是有。

实测1个月用下来没有影响,玄学问题
作者: fgfdhfghf    时间: 2025-3-20 15:41
提示: 作者被禁止或删除 内容自动屏蔽
作者: fgfdhfghf    时间: 2025-3-20 15:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: uuyyhhjj    时间: 2025-3-20 16:40
NAKS有对应项出现,字面意思就能理解,一个是收到一个是发送
NAKS_RECEIVED
NAKS_SENT

用搜索引擎查询PCIE协议里的NAK图解比如这篇文章https://blog.csdn.net/weixin_41238626/article/details/138238419
可知就是一个硬件层面的重传请求计数,像7楼那样就是请求重新传送TLP,BAD还是失败了
SENT指的是显卡端发出,那么说明错误是CPU或主板过来的信号,显卡要求重传
RECEIVED就是反过来

通俗的讲就是看网页直播丢包了,通常哪怕丢个几帧也不影响,但丢了肯定是有问题的
作者: guanqq_64    时间: 2025-3-20 16:57
本帖最后由 guanqq_64 于 2025-3-20 16:59 编辑

别在意了,不是主板的问题。
因为我买了 超龙90D之后 也有

而且我这次 傻 逼 了。
我以为是我X670E Gaming Plus(6层)主板的锅,毕竟之前4070TS时候出过类似的问题。
我几天前 用卷JD买了一块X870E 战斧(8层)。结果还是依旧。
这次栽了,多花出去好多钱,还得花时间出手X670E


(, 下载次数: 43)
作者: lh4357    时间: 2025-3-20 17:02
guanqq_64 发表于 2025-3-20 16:57
别在意了,不是主板的问题。
因为我买了 超龙90D之后 也有

我用的B650丐板,没E。
没5.0选项,但AUTO是5.0。
作者: guanqq_64    时间: 2025-3-20 17:03
lh4357 发表于 2025-3-20 17:02
我用的B650丐板,没E。
没5.0选项,但AUTO是5.0。

一样 我X670E 也是一个设计 AUTO 就是5.0
但是X870E 改成了可以选择5.0
作者: guanqq_64    时间: 2025-3-20 17:04
本帖最后由 guanqq_64 于 2025-3-20 17:17 编辑
lh4357 发表于 2025-3-20 17:02
我用的B650丐板,没E。
没5.0选项,但AUTO是5.0。


没变化 用了X870E 也是一样的。
这个和之前那个4070TS 不一样,那个是连个数字一起涨。那个拆了CPU通道的设备就好了。
应该是真的信号问题。
90D 这个没有BAD_TLP

6层的X670E和8层的X870E 都一样 都有这个 无论PCI-E 4.0还是 5.0
而且是换了5090D才有,之前的4070TS没有
不是主板的锅,这个肯定是90D的问题.而且目前看没有影响.就这样吧,反正我玩游戏没发现啥问题.也没有BAD_TLP 报错.


我相当于多花了1600 买了一个 和之前功能基本一样,只是多了40G USB口和8000内存支持的主板.
谁TMD散播这个命令的,误导性太强了.

作者: gladiator    时间: 2025-3-20 18:47
40系的4.0我折腾了一圈是U2盘的问题,B650EE和技嘉B850M,马上换50系看看5.0啥情况
作者: DemoJameson    时间: 2025-3-20 20:08
不慌,我也有数值
  1. GPU 0: NVIDIA GeForce RTX 5090 D (UUID: GPU-e0f3fde2-7359-feb9-00e1-316c612fb2f9)
  2.     REPLAY_COUNTER:          0
  3.     REPLAY_ROLLOVER_COUNTER: 0
  4.     L0_TO_RECOVERY_COUNTER:  95
  5.     CORRECTABLE_ERRORS:      0
  6.     NAKS_RECEIVED:           0
  7.     RECEIVER_ERROR:          0
  8.     BAD_TLP:                 0
  9.     NAKS_SENT:               32
  10.     BAD_DLLP:                0
  11.     NON_FATAL_ERROR:         0
  12.     FATAL_ERROR:             0
  13.     UNSUPPORTED_REQ:         0
  14.     LCRC_ERROR:              0
  15.     LANE_ERROR:
  16.          lane  0: 0
  17.          lane  1: 0
  18.          lane  2: 0
  19.          lane  3: 0
  20.          lane  4: 0
  21.          lane  5: 0
  22.          lane  6: 0
  23.          lane  7: 0
  24.          lane  8: 0
  25.          lane  9: 0
  26.          lane 10: 0
  27.          lane 11: 0
  28.          lane 12: 0
复制代码

作者: v4400e    时间: 2025-3-20 20:23
lh4357 发表于 2025-3-20 17:02
我用的B650丐板,没E。
没5.0选项,但AUTO是5.0。

按理说650不会有5.0的速度,否则650e怎么卖?是不是最近的bios偷偷开放了?
作者: lh4357    时间: 2025-3-20 20:27
v4400e 发表于 2025-3-20 20:23
按理说650不会有5.0的速度,否则650e怎么卖?是不是最近的bios偷偷开放了?

B650的5.0是可选项,不是不能支持。

估计是一直有,只是之前没5.0的卡。
作者: v4400e    时间: 2025-3-20 20:29
lh4357 发表于 2025-3-20 20:27
B650的5.0是可选项,不是不能支持。

估计是一直有,只是之前没5.0的卡。

是的,但是很多基本上所有的b650主板的宣传资料,包括说明书,只说了直连处理器的m2是5.0,这也是amd要求。那个显卡槽都只能上到4.0,因为4.0和5.0插槽布线不一样
作者: lh4357    时间: 2025-3-20 20:35
v4400e 发表于 2025-3-20 20:29
是的,但是很多基本上所有的b650主板的宣传资料,包括说明书,只说了直连处理器的m2是5.0,这也是amd要求 ...


我这板子说明书上M.2都没有5.0。

但实际上连显卡都能5.0跑。。
M.2能不能5.0我没法测试,毕竟我还在用3.0盘。

作者: Cipactli    时间: 2025-3-20 20:36
(, 下载次数: 33)

之前5080是5.0x8跑过一次,有错误,现在5090d反而5.0x16没问题
作者: menuu    时间: 2025-3-21 00:10
本帖最后由 menuu 于 2025-3-21 00:17 编辑

你们开机以后试试直接运行
nvidia-smi dmon -s et -d 10 -o DT
挂着一直挂着,最后再看看 BAD_TLP 与 NAKS_SENT 还涨不涨

我试过开机就挂着 nvidia-smi dmon -s et -d 10 -o DT 好像就不涨了 也许是节能一类的导致的
当然我这个完全没依据 我也就是这么挂了2天没发现涨就没再管这事了

还有就是这个我之前试感觉是完全没规律出现的,可能连着几天开机后都不涨,或者说唯独涨的几次被你发现了……
所以很可能怀疑是其他设备有问题然后去调整,然后又赶上不涨了……
作者: guanqq_64    时间: 2025-3-21 00:24
本帖最后由 guanqq_64 于 2025-3-21 00:27 编辑
menuu 发表于 2025-3-21 00:10
你们开机以后试试直接运行
nvidia-smi dmon -s et -d 10 -o DT
挂着一直挂着,最后再看看 BAD_TLP 与 NAKS_ ...


我反正没用 挂了之后跑了一次3DMark的带宽测试,还是涨NAKS_SENT。
5090D的这个只涨NAKS_SENT 而不是BAD_TLP一起涨。
不过算了,6层板和8层板都一个样。应该不是信号的问题。
而且如果是信号的问题,就无法解释为什么4.0也涨的。

华硕/微星 2000以上价位的主板 要是还跑不了直插的4.0 就过于扯淡了。
作者: guanqq_64    时间: 2025-3-21 00:28
Cipactli 发表于 2025-3-20 20:36
之前5080是5.0x8跑过一次,有错误,现在5090d反而5.0x16没问题

哥们,你什么主板?
换显卡还改过别的设置吗
作者: Cipactli    时间: 2025-3-21 01:07
guanqq_64 发表于 2025-3-21 00:28
哥们,你什么主板?
换显卡还改过别的设置吗


670e-a,bios完全没变,不过CPU变成9953了,不对,BIOS升级过,但是关于显卡和PCIE的设置都没有变过
作者: guanqq_64    时间: 2025-3-21 07:22
那看来就得等MSI更新BIOS了
楼上暗黑 也有类似的问题。肯定不是做工的事情。
要不就是 出问题的都是983...
作者: 衰败灼烧    时间: 2025-3-21 23:40
Z790跑5090D 除了L0无其他值
作者: menuu    时间: 2025-3-22 00:11
guanqq_64 发表于 2025-3-21 07:22
那看来就得等MSI更新BIOS了
楼上暗黑 也有类似的问题。肯定不是做工的事情。
要不就是 出问题的都是983... ...

9950x与x3d 我测试也有 暗黑 战斧 x870e
作者: lh4357    时间: 2025-3-22 02:38
本帖最后由 lh4357 于 2025-3-22 02:41 编辑
guanqq_64 发表于 2025-3-21 07:22
那看来就得等MSI更新BIOS了
楼上暗黑 也有类似的问题。肯定不是做工的事情。
要不就是 出问题的都是983... ...


试了下,3.0都会出,玩2077增加的特别快。

我不是983。

(, 下载次数: 34)
作者: __|__    时间: 2025-3-22 03:02
借楼问下为啥运行不了这个命令,提示nvidia-smi没有pci这个参数选项。显卡是3060Ti,驱动版本537.42+Win11,pci这个参数只有新版驱动或者40以上的显卡才支持吗?
作者: liu6888    时间: 2025-3-22 08:04
我的没有,是玄学问题?后台在跑nox和gmod,同时还在看直播
作者: 盐湖    时间: 2025-3-23 22:02
我刚刚换了副槽解决静置也爆增报错后又测试了一会,发现现在打游戏很稳定不加或者半个小时+1,但是桌面放个浏览器然后沿屏幕左右移动鼠标光标就会肉眼可见增加NAKS_SENT,具体表现类似于鼠标每次进入新的窗口范围(无论是否焦点窗口)时,都会触发+1,也是有意思
作者: 啊对对对    时间: 2025-3-23 23:47
__|__ 发表于 2025-3-22 03:02
借楼问下为啥运行不了这个命令,提示nvidia-smi没有pci这个参数选项。显卡是3060Ti,驱动版本537.42+Win11 ...

应该是你上古驱动的问题,2060我试过都支持这命令
作者: ad102    时间: 2025-3-24 20:25
实测把resizeable bar关了就消失了,感觉跟这个关系很大
作者: lh4357    时间: 2025-3-24 20:30
ad102 发表于 2025-3-24 20:25
实测把resizeable bar关了就消失了,感觉跟这个关系很大

我已经摆烂了,能默认的全默认,resizable bar关闭,显卡跑3.0,还是有。

估计主板有问题。
作者: guanqq_64    时间: 2025-3-24 21:20
lh4357 发表于 2025-3-24 20:30
我已经摆烂了,能默认的全默认,resizable bar关闭,显卡跑3.0,还是有。

估计主板有问题。 ...

关 FTPM!
(, 下载次数: 25)
作者: lh4357    时间: 2025-3-24 21:24
guanqq_64 发表于 2025-3-24 21:20
关 FTPM!

关了,还是有。。

这就厉害了。
作者: ssyypdc    时间: 2025-7-1 22:49
lh4357 发表于 2025-3-24 21:24
关了,还是有。。

这就厉害了。

楼主解决了嘛?我是不进游戏没这玩意,一进游戏就开始了,但是不影响,就是数字膈应
作者: lh4357    时间: 2025-7-1 22:52
ssyypdc 发表于 2025-7-1 22:49
楼主解决了嘛?我是不进游戏没这玩意,一进游戏就开始了,但是不影响,就是数字膈应 ...

关掉resizable bar和above 4g decoding就能让这个数字完全不增长。
作者: ssyypdc    时间: 2025-7-1 23:01
lh4357 发表于 2025-7-1 22:52
关掉resizable bar和above 4g decoding就能让这个数字完全不增长。

看都让打开这玩意,算了,受着吧,哈哈哈
作者: ghgfhghj    时间: 2025-7-2 00:02
我这边开高性能模式就解决了
作者: ssyypdc    时间: 2025-7-6 11:39
lh4357 发表于 2025-7-1 22:52
关掉resizable bar和above 4g decoding就能让这个数字完全不增长。


不是主板的问题,我是公版更新了最新的bios,直接数值降下来了,还有但基本个位数,说明是n的锅。

我不知道这个能不能通用,5060、5070、5080都可更新
https://nvidia.custhelp.com/app/ ... for-rtx-5060-series
作者: ssyypdc    时间: 2025-7-6 11:41
lh4357 发表于 2025-7-1 22:52
关掉resizable bar和above 4g decoding就能让这个数字完全不增长。

看帖子说非公也可以用,应该是更新了n的通用部分
作者: lh4357    时间: 2025-7-6 12:17
本帖最后由 lh4357 于 2025-7-6 12:20 编辑
ssyypdc 发表于 2025-7-6 11:39
不是主板的问题,我是公版更新了最新的bios,直接数值降下来了,还有但基本个位数,说明是n的锅。

我不 ...


你只要关了rbar,就可以保证一个都不出。

反正我关了以后未见任何游戏帧数下降。




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5