Chiphell - 分享与交流用户体验

标题: [清算统计]哪家的主板纸面支持PCIe5.0而面对blackwell需要降级 [打印本页]

作者: T.JOHN    时间: 2025-2-3 19:26
标题: [清算统计]哪家的主板纸面支持PCIe5.0而面对blackwell需要降级
本帖最后由 T.JOHN 于 2025-2-4 18:53 编辑

2/4/2025 更新:分割两块,避免传达令人误会的信息 & 更新本坛的用户案例
正经部分:

问题背景
想当年(21Q4,3年前)我牢英ADL超前支持PCIe5.0,市面根本没设备,除了少量SSD,而SSD接口还近点,对信号要求肯定没GPU这种x16用户那么高,就算掉盘,也很难判断是主板问题。现在老黄继曝出intel缩肛蓝屏之后,又贡献了板厂信号不合格的检测工具,真是质检之王,硬件灯塔。

检测方法
管理员权限打开cmd/powershell 运行“nvidia-smi pci -gErrCnt”,如果有信号错误,数量会增长。不行换 "nvidia-smi dmon -s et -d 10 -o DT" 跑个3dmark或者游戏,最好是下个forge,跑几张AIGC(显存填满),然后后台开着看有没有报错

报告解读
如果像 @sinopart 一样,仅跑出BAD_TLP,则问题不大。这种错误数据包会被丢弃或者重发。如果出现大量lane error/pci error,那是数据错误,可能会导致黑屏死机。

用户实例:(仅统计本坛)
@jzz , 七彩虹Z690+5080,症状:闪屏黑屏花屏etc。恢复手段:切PCIe4.0正常
@6cgl1s,铭瑄z790i+5080,症状:不报错,但跑分过低。恢复手段:切PCIe4.0正常
@cloud,msi x870+5090d,症状:开始正常,后来不稳定。恢复手段:切PCIe4.0或者换asus主板

信号检测
46楼@aixunxian使用Mellanox网卡测试命令-mlxlink,检测信号的眼图等级,提供余量等级及Gen3/4过测标准,查看每个PCI lane信号是否达标。
至于啥是眼图,参考5年前帖子 PCIe 4.0时代慎用用延长线这种东西(被折叠看不到了)里引用过PCI-SIG的眼图,那个帖子主要讨论retimer和redriver的:


引发原因
主板板材,布线;cpu的pcie控制器的驱动能力;电源的纹波干扰*以及pcie设备自己 etc.
*@啊对对对 2楼所提供案例

衍生话题:
       注:@Juzi丶补充NVIDIA 21年5月上市了PCIe16x设备


娱乐部分
目前ASUS故障遥遥领先,因为首发用户用ASUS多,不是X870  hero就是X670 hero,配合9800x3D。Tony是不是让R&D出个BIOS来优化下?还是先天不足没得救了?只能降级PCIe4.0?当然也有可能是苏妈的io die pcie控制器弱鸡 看了下本坛,贴吧,B站,NGA,[del]貌似还没说牢英要降级的,真是赢麻了[/del]据说大英2026年nova lake又要支持PCIe6.0了,板厂是不是考虑加强点信号,Z990多给两层板?

That's all, ENjoy! 懒得再更新了
作者: 啊对对对    时间: 2025-2-3 19:39
检测方法应该补充下,降级到PCIe4.0后错误计数一直保持为0

我这40老卡在低频下错误会一直增长,手动锁了个2000MHz高频后错误不再增长,降级PCIe一点用都没,但是换了个台达电源一切又正常了,这信号错误有可能是电源导致的
作者: T.JOHN    时间: 2025-2-3 19:42
啊对对对 发表于 2025-2-3 19:39
检测方法应该补充下,降级到PCIe4.0后错误计数一直保持为0

我这40老卡在低频下错误会一直增长,手动锁了个 ...

没想到我黄的卡不但能检测主板,还能检测电源,灯塔之名果真空穴来风
作者: czzk183    时间: 2025-2-3 19:43
啊对对对 发表于 2025-2-3 19:39
检测方法应该补充下,降级到PCIe4.0后错误计数一直保持为0

我这40老卡在低频下错误会一直增长,手动锁了个 ...

16pin供电不足,显卡从PCIE额外取电导致PCIE 5.0电气信号不够了?  我瞎猜的
作者: 啊对对对    时间: 2025-2-3 19:44
czzk183 发表于 2025-2-3 19:43
16pin供电不足,显卡从PCIE额外取电导致PCIE 5.0电气信号不够了?  我瞎猜的

低频出问题,锁高频反而没问题,可能铜牌老电源在节能启用后波纹什么的输出不合格了吧
作者: tide~    时间: 2025-2-3 19:56
本帖最后由 tide~ 于 2025-2-3 19:57 编辑

电源纹波好测吧,借个示波器测下;对高频的干扰相对小?
作者: momo77989724    时间: 2025-2-3 20:02
790也跑不掉 多半。。。之前不就说BUG王中王也会降吗
作者: lh4357    时间: 2025-2-3 20:06
啊对对对 发表于 2025-2-3 19:44
低频出问题,锁高频反而没问题,可能铜牌老电源在节能启用后波纹什么的输出不合格了吧 ...

怎么有种AMD的U电压减太多内味。
作者: wooser0079    时间: 2025-2-3 20:18
T.JOHN 发表于 2025-2-3 19:42
没想到我黄的卡不但能检测主板,还能检测电源,灯塔之名果真空穴来风

还能检测13 14代缩缸呢
作者: 海山兔    时间: 2025-2-3 20:48
有没有可能跟ASPM有关连性?
有大佬试试吗?
作者: zhao1999250    时间: 2025-2-3 20:51
板厂能处理更高频的DDR信号,理论上R&D处理PCIe信号也不是问题
这俩能调的不是一个东西。。。一个是并行,一个是串行信号,而且能调的也只有收发器两端的设备,你也说了中间的就是电线,所以还是要依靠cpu原厂去修改里面的设置(如驱动能力等等)

牢英推出PCIe5.0板子的时候,就给了个标准,然后找供应商生产5.0 x16槽,那玩意也不便宜
那个是按照pci-sig规范来的,不是啥都是intel给的

信号总有发送端和接收端,板子就是个电线,板厂R&D也没设备做真件验证,信了按牢英设计做就一定行,所以不能全怪板厂(不按牢英说的做的两说)
这也是需要按照pci-sig规范来做。。。是需要自己验证的,但是很贵,板子这么多也没时间挨个测,板材也不愿意上低损耗板材。。。
作者: 病嬌鬼畜蘿莉控    时间: 2025-2-3 20:54
本帖最后由 病嬌鬼畜蘿莉控 于 2025-2-3 20:55 编辑

管理员权限打开cmd/powershell 运行“nvidia-smi pci -gErrCnt”不行啊
作者: T.JOHN    时间: 2025-2-3 21:13
病嬌鬼畜蘿莉控 发表于 2025-2-3 20:54
管理员权限打开cmd/powershell 运行“nvidia-smi pci -gErrCnt”不行啊

nvidia-smi dmon -s et -d 10 -o DT
作者: T.JOHN    时间: 2025-2-3 21:17
zhao1999250 发表于 2025-2-3 20:51
板厂能处理更高频的DDR信号,理论上R&D处理PCIe信号也不是问题
这俩能调的不是一个东西。。。一个是并行, ...

不矛盾。第一条我指的是技术能力,包括人员和(测量)设备,就铭瑄那种我估计不太行。第二条和第三条我如果没记错绝大部分内容都是intel写的,pci-sig的文档也是来自于各大公司。
作者: 巴特沃斯    时间: 2025-2-3 21:18
我在X670E上跑5.0最神奇的问题是,远端的m2运行在gen5时,会导致某个南桥通道不认nvme设备(但还是可以认pcie设备)

非常amazing,完全不知怎么解释。
作者: 巴特沃斯    时间: 2025-2-3 21:24
如果能稳定跑gen5,跑gen6应该问题也不大,这两工作频率是一样的,更换了编码
作者: lordts    时间: 2025-2-3 21:25
本帖最后由 lordts 于 2025-2-3 21:26 编辑

tuf 850m wifi 技嘉5080魔鹰。pcie5.0 x16使用中两天了没有任何问题,显卡直插主板。
这板子还是老的显卡快拆完美避开rog的坑。rog真的就只坑富哥。
作者: 病嬌鬼畜蘿莉控    时间: 2025-2-3 21:26
T.JOHN 发表于 2025-2-3 21:13
nvidia-smi dmon -s et -d 10 -o DT


应该没问题吧,吾辈是Z690设置的一槽是PCIE5.0X16,显卡是4080
作者: T.JOHN    时间: 2025-2-3 21:33
病嬌鬼畜蘿莉控 发表于 2025-2-3 21:26
应该没问题吧,吾辈是Z690设置的一槽是PCIE5.0X16,显卡是4080

你可以跑个游戏或者3dmark,这个窗口后台一直开着,它始终在监控。那列pci errors如果增加了就是出错了,现在是0,正常的。
作者: T.JOHN    时间: 2025-2-3 21:42
巴特沃斯 发表于 2025-2-3 21:18
我在X670E上跑5.0最神奇的问题是,远端的m2运行在gen5时,会导致某个南桥通道不认nvme设备(但还是可以认pc ...

不晓得,这主板我不了解topology,不管是不是二仙桥,开个ticket给asus吧。看起来像是信号处理问题,或者模式切换问题。
作者: 取个名字真是难    时间: 2025-2-3 21:58
提前收了战未来的钱,终于等到这一天来到的时候其中一部分却发现战不了,太搞笑了
作者: 6cgl1s    时间: 2025-2-3 22:00
铭瑄z790i没稳定性问题,但跑分异常低一档,不清楚问题出在哪儿
作者: 装陈醋的酱油瓶    时间: 2025-2-3 22:25
不说PCI-e 5.0了,就哪怕是PCI-e 4.0 / DDR4, 530精密电子清洁剂都得常备。

坐标上海,不插防尘塞/设备的PCI-E 4.0过一个梅雨季肯定通道认不全, 3.0也都有可能
作者: terryhux    时间: 2025-2-3 22:28
我这4080,用的转接线,用了一年多,平时用和玩游戏没任何问题,但用这个命令看,error一直在增加,咋回事
作者: 相思风雨中    时间: 2025-2-3 22:29
病嬌鬼畜蘿莉控 发表于 2025-2-3 21:26
应该没问题吧,吾辈是Z690设置的一槽是PCIE5.0X16,显卡是4080

4080只支援PCIE 4.0啊。。。
作者: sekiroooo    时间: 2025-2-3 22:51
坛子里一位坛友成功畅玩 5080打游戏的。平台就是七彩虹z690 也是需要降成4.0速率才可以。
作者: KimmyGLM    时间: 2025-2-3 23:03
目前群里水友的5080fe,主板b650ei,无法开启5.0速率,降级到gen4×16,非常稳定,且error数都为0(有正常计数那项不算)……
论坛那个七彩虹z690,搭配的5080 风魔,也一样要降级4.0……
综合来看,感觉这次主板厂商要挨个测自己5.0板子的兼容性了,出来了太早,这次才算有配套的显卡大规模测试。
作者: sekiroooo    时间: 2025-2-3 23:14
KimmyGLM 发表于 2025-2-3 23:03
目前群里水友的5080fe,主板b650ei,无法开启5.0速率,降级到gen4×16,非常稳定,且error数都为0(有正常 ...

就不能承认 是首发零售90 80显卡是缺陷残次品 就上市吗? 一大堆up首发评测配着X870e也没见着谁刻意pcie 降速 跑分,跑游戏的。5.0的固态盘都出来几年了也没出 这种幺蛾子。
黄卡就屁事多。
首发很多up是特定送测驱动能跑稳,一般用户正式驱动就跑不稳。不觉得怪吗
作者: KimmyGLM    时间: 2025-2-3 23:18
sekiroooo 发表于 2025-2-3 23:14
就不能承认 是首发零售90 80显卡是缺陷残次品 就上市吗? 一大堆up首发评测配着X870e也没见着谁刻意pcie  ...

上面就有水友正常开启5.0×16的案例,目前全球首批卖出这么多卡,反馈出来的占比还是不算多。首发肯定有各种幺蛾子的,每代不重样
作者: menuu    时间: 2025-2-4 00:04
现在都是直连CPU 感觉也不排除某些CPU自身的问题吧?
作者: manwomans    时间: 2025-2-4 00:54
GPU 0: NVIDIA GeForce RTX 4090 (UUID: GPU-5c19c2cf-24d6-bfc8-ed59-3093b65c4570)
    REPLAY_COUNTER:          0
    REPLAY_ROLLOVER_COUNTER: 0
    L0_TO_RECOVERY_COUNTER:  30250
    CORRECTABLE_ERRORS:      0
    NAKS_RECEIVED:           0
    RECEIVER_ERROR:          0
    BAD_TLP:                 0
    NAKS_SENT:               0
    BAD_DLLP:                0
    NON_FATAL_ERROR:         0
    FATAL_ERROR:             0
    UNSUPPORTED_REQ:         0
    LCRC_ERROR:              0
    LANE_ERROR:
         lane  0: 0
         lane  1: 0
         lane  2: 0
         lane  3: 0
         lane  4: 0
         lane  5: 0
         lane  6: 0
         lane  7: 0
         lane  8: 0
         lane  9: 0
         lane 10: 0
         lane 11: 0
         lane 12: 0
作者: sinopart    时间: 2025-2-4 08:17
terryhux 发表于 2025-2-3 22:28
我这4080,用的转接线,用了一年多,平时用和玩游戏没任何问题,但用这个命令看,error一直在增加,咋回事 ...

已经出现了传输错误,但是依靠PCIE协议自身的纠错机制刚好维持在稳定范围。除了性能下降以外不会感知到。又由于你是4080,即使PCIE实际有效带宽因为自动纠错而下降后也没有触及4080的最低带宽需求,所以你感知不到任何异常。
作者: sinopart    时间: 2025-2-4 08:28
哦吼,我的这块4090会有BAD_TLP报文,不过还没有出现err
作者: Gaiden    时间: 2025-2-4 08:41
群友Z890ux+5080没翻车
作者: atiufo    时间: 2025-2-4 08:58
nova lake上6.0根本没卵用
作者: Juzi丶    时间: 2025-2-4 09:27
比blackwell更早的PCIe5.0x16设备只有H100和摩尔线程,这两个一个死贵,R&D想只定1片都得靠和NV的关系,另一个太小众也不见得有参考价值
这个不对

最便宜那个是cx7网卡,洋垃圾成色甚至不到2000,这才是最便宜的pcie5.0 x16设备
作者: dioluve    时间: 2025-2-4 09:31
ROG Z890I 还为了5.0强行拆了X16呢,想必5.0的质量一定很高
作者: zhao1999250    时间: 2025-2-4 09:35
T.JOHN 发表于 2025-2-3 21:17
不矛盾。第一条我指的是技术能力,包括人员和(测量)设备,就铭瑄那种我估计不太行。第二条和第三条我如 ...

第一条你哪怕有技术有能力,cpu厂家不给你开放调试接口你想调也调不了啊。。。还是一个很依赖cpu厂家的事情
作者: v4400e    时间: 2025-2-4 10:19
本帖最后由 v4400e 于 2025-2-4 15:41 编辑

讲起这个历史,NV其实有过前科的:
第一款支持PCIe2.0的芯片组X38,在NV费米核心的显卡上就不能支持2.0,但是在AMD的HD3XXX系列显卡上能工作在2.0模式。后来NV论坛上有一位朋友给出了一个解决方案:在安装的inf文件中加入几个语句强制让显卡工作在2.0模式下,就没问题了。后面的开普勒核心倒是可以正常工作在2.0模式下
第一款支持PCIe3.0的平台其实是X79的SB平台,没错就是Sandybridge平台的服务器版本,桌面版本还是pcie2.0。但是Intel只说明了这个平台可以上到8GT的速率,没有明确说支持pcie3.0;NV认为这个平台无法稳定的支持pcie3.0所以做了说明,一旦检测到显卡在这个平台工作,模式会切换到2.0。后来发现是在这个平台工作的3.0模式下,pcie信号不稳定干扰很大,nv只能降低速率保证稳定性。不过当时amd的卡在这个平台上可以上到3.0速度
在4.0平台上好像没有过类似问题,估计amd的IO核心处理的比较好
作者: terryhux    时间: 2025-2-4 10:21
sinopart 发表于 2025-2-4 08:17
已经出现了传输错误,但是依靠PCIE协议自身的纠错机制刚好维持在稳定范围。除了性能下降以外不会感知到。 ...

性能应该也正常,我跑3dmark分数,跑黑神话和2077游戏帧数测试,也和其他的4080没区别,不过也确实说明延长线还是有影响的,毕竟有明确的错误信息了
作者: 渣渣纸    时间: 2025-2-4 10:30
我的那个b660itx也是支持5.0的,可惜我手上没有5.0设备去测试
作者: T.JOHN    时间: 2025-2-4 10:36
本帖最后由 T.JOHN 于 2025-2-4 10:39 编辑
Juzi丶 发表于 2025-2-4 09:27
比blackwell更早的PCIe5.0x16设备只有H100和摩尔线程,这两个一个死贵,R&D想只定1片都得靠和NV的关系,另 ...


你说的对,我查了下spec 21年5月,是有点早啊。作为英粉,不识黄卡,失敬失敬



作者: Juzi丶    时间: 2025-2-4 10:37
T.JOHN 发表于 2025-2-4 10:36
你说的对,我查了下spec 21年5月,是有点早啊。作为英粉,不识黄卡,失敬失敬

...

n卡网速快!
作者: 6cgl1s    时间: 2025-2-4 10:43
今天将pcie切换成4.0,重新测试跑分有所回升,接近评测数据了。看来虽然5.0不报错不崩溃,实际还是有问题。
作者: fengpc    时间: 2025-2-4 11:13
v4400e 发表于 2025-2-4 10:19
讲起这个历史,NV其实有过前科的:
第一款支持PCIe2.0的芯片组X38,在NV费米核心的显卡上就不能支持2.0,但 ...

Kepler测试的时候发现SNB-E平台PCIE有比较多Correctable error,而且高温时候CE很多导致带宽甚至会不如2.0模式,所以quadro和tesla卡bios都限制了PCIE在2.0模式,geforce是不限制的,ivybridge平台就完全没有问题,室温条件下甚至一个CE都不会出,你说这是NV的问题?
作者: aixunxian    时间: 2025-2-4 12:11
Juzi丶 发表于 2025-2-4 10:37
n卡网速快!

黄卡也有pcie连接测试工具而且比显卡那个显示的东西更多,可以显示眼图还有专门的眼图测试工具。
(, 下载次数: 16)
(, 下载次数: 20)
按照皮衣黄的文档,gen3模式需要评分>2300 通过 gen4模式需要评分>400通过。这个可以很直观的判断pcie连接质量
(, 下载次数: 10)
作者: momo77989724    时间: 2025-2-4 12:45
隔壁有人用B650M冰雕测试5090D 无异常。。。更新BIOS把4.0升级成5.0的板子也能跑稳。。。
作者: 木子滴血    时间: 2025-2-4 14:43

插个眼
作者: 可以抱的萝卜    时间: 2025-2-4 14:53
摩尔线程的显卡能稳定跑5.0,无数人测过了,怎么老黄就不行了,竟然还有人怀疑主板
作者: 病嬌鬼畜蘿莉控    时间: 2025-2-4 15:14
相思风雨中 发表于 2025-2-3 22:29
4080只支援PCIE 4.0啊。。。

主板中设置的是PCIE5.0,不知道会不会有影响
作者: 天道太酬勤    时间: 2025-2-4 15:29
sekiroooo 发表于 2025-2-3 23:14
就不能承认 是首发零售90 80显卡是缺陷残次品 就上市吗? 一大堆up首发评测配着X870e也没见着谁刻意pcie  ...

找正经服务器大厂的平台复测一下就知道谁的锅了
作者: v4400e    时间: 2025-2-4 15:37
fengpc 发表于 2025-2-4 11:13
Kepler测试的时候发现SNB-E平台PCIE有比较多Correctable error,而且高温时候CE很多导致带宽甚至会不如2. ...

好像同期的AMD显卡在SNB-E平台上就没有这个问题,这个就不好解释了。NV那边的说法确实如你所说,NV了解到部分主板达不到8GT速率所以就一并降下来了。但是X38时期NV的费米不支持2.0有点让人摸不着头脑
作者: jzz    时间: 2025-2-4 15:42
https://www.chiphell.com/thread-2669575-1-1.html  我写了七彩虹主板的
作者: Juzi丶    时间: 2025-2-4 16:30
aixunxian 发表于 2025-2-4 12:11
黄卡也有pcie连接测试工具而且比显卡那个显示的东西更多,可以显示眼图还有专门的眼图测试工具。

犹太人的网卡本身能做pcie switch的,信号强度理论上比黄狗显卡里的缩水phy强
作者: 8xwob3ko    时间: 2025-2-4 16:48
menuu 发表于 2025-2-4 00:04
现在都是直连CPU 感觉也不排除某些CPU自身的问题吧?

看B站那个科普视频里面有一堆intel跑5.0不稳的案例,这不能两家CPU一起有问题吧
作者: zuochen    时间: 2025-2-4 17:09
8xwob3ko 发表于 2025-2-4 16:48
看B站那个科普视频里面有一堆intel跑5.0不稳的案例,这不能两家CPU一起有问题吧 ...

我看牙膏出问题的都是二三线,一线有问题的反而都是AM5,我感觉AM5的iod没水是不太可能的
作者: zuochen    时间: 2025-2-4 17:14
现在看臭打游戏的消费级在pcie3.0x16速率基本没啥问题,大把4090 4080在被拆分通道的板子上两三年4.0x8跑着呢也不见得性能缩水。再往上都是营销噱头,对实际体验微乎其微,当然这次的风波让厂商规范好的自己的噱头也是一种好事
作者: menuu    时间: 2025-2-4 17:33
8xwob3ko 发表于 2025-2-4 16:48
看B站那个科普视频里面有一堆intel跑5.0不稳的案例,这不能两家CPU一起有问题吧 ...


我说的某些是指体制那类 不是说某些型号……
作者: menuu    时间: 2025-2-4 17:42
sinopart 发表于 2025-2-4 08:28
哦吼,我的这块4090会有BAD_TLP报文,不过还没有出现err

这个好像是节能省电一类的造成了
开着 nvidia-smi dmon -s et -d 10 -o DT 挂在后台貌似就不会出现了
作者: liukang1985    时间: 2025-2-4 18:00
病嬌鬼畜蘿莉控 发表于 2025-2-4 15:14
主板中设置的是PCIE5.0,不知道会不会有影响

就低原则,所以只能跑在4.0X16
作者: fengpc    时间: 2025-2-5 20:28
v4400e 发表于 2025-2-4 15:37
好像同期的AMD显卡在SNB-E平台上就没有这个问题,这个就不好解释了。NV那边的说法确实如你所说,NV了解到 ...

跟你说同时期AMD的第一代GCN GPU上市时候就是个半成品,bios、驱动各方面都没做好就上市了,上市前期GPU连VF曲线都没做好待机都跑在最高频率上,amd的能跑不代表就没问题,一般人不会去看有多少ce错误。当时测试SNB-E平台都有问题,quadro/tesla这些专业卡也是标配这些工作站平台所以一刀把pex gen3全砍了。fermi那一代是2.0的




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5