Chiphell - 分享与交流用户体验

标题: NVIDIA 官方实锤:5090 的光栅性能瓶颈完全在 ROPs 上 [打印本页]

作者: chungexcy    时间: 2025-2-22 12:01
标题: NVIDIA 官方实锤:5090 的光栅性能瓶颈完全在 ROPs 上
本帖最后由 chungexcy 于 2025-2-22 12:01 编辑

联动之前的贴子:我来告诉你们为啥50系毫无提升,本质 Ada Refresh。。。

NVIDIA 官方表示,受影响的 5090 性能损失 4%。
https://www.theverge.com/news/617901/nvidia-confirms-rare-rtx-5090-and-5070-ti-manufacturing-issue



5090 ROPs 是 176,受影响的ROPs 是 168。少的 8 个 ROPs,刚好少了 4%

TechPowerUp 表示部分游戏甚至损失 6%(老头环)




作者: Scarlet〃    时间: 2025-2-22 12:05
5070ti也少rops,而5080这个完整核心的没事,挺幽默的。
作者: punk100    时间: 2025-2-22 12:10
这是切除的不干净,切偏了一点?
作者: airforce18    时间: 2025-2-22 12:10
官方有说怎么处理吗?
作者: Scarlet〃    时间: 2025-2-22 12:13
airforce18 发表于 2025-2-22 12:10
官方有说怎么处理吗?

有问题的卡联系厂家换新
作者: william753    时间: 2025-2-22 12:16
airforce18 发表于 2025-2-22 12:10
官方有说怎么处理吗?

溢价跟牛买的就找牛呗,哈哈哈哈
作者: lacsiess    时间: 2025-2-22 12:17
airforce18 发表于 2025-2-22 12:10
官方有说怎么处理吗?

海量个例,厂家换新
作者: 鬼武人    时间: 2025-2-22 12:19
punk100 发表于 2025-2-22 12:10
这是切除的不干净,切偏了一点?

是切完了发现还有坏块
作者: LOLI反应堆    时间: 2025-2-22 12:33
50系只是没有达到我们心目中的预期而已,不代表它效率下滑。
5090,5080,5070Ti,都是性能提升≥粗大提升,频率,晶体管,面积等还有所下降。
至于5090只比5080强55%,那是因为到这个性能区间有太多游戏众生平等拉低了平均成绩,就像10系跑2K一样。
作者: VariedValiance    时间: 2025-2-22 12:35
这下真的是海量个例了
作者: atiufo    时间: 2025-2-22 12:35
Scarlet〃 发表于 2025-2-22 12:05
5070ti也少rops,而5080这个完整核心的没事,挺幽默的。

这说明老黄的纳米刀法抖了,也许是得了帕金森
作者: allensakura    时间: 2025-2-22 12:48
我最近一直在看UE5相关的的玩意
基本可以得出一个结论,那就是不论是EPIC还是NV都认为4K渲染未来一点都不重要
他们有意劣化4K原生画质下的性能逼迫玩家和厂商选择DLSS的性能模式
既然设计的目标渲染分辨率就是只有1080P,那ROP为什麽要增加呢?




作者: dikuf001    时间: 2025-2-22 13:00
allensakura 发表于 2025-2-22 12:48
我最近一直在看UE5相关的的玩意
基本可以得出一个结论,那就是不论是EPIC还是NV都认为4K渲染未来一点都不重 ...

是这样,如果dlss技术既能解决画质问题,又能解决帧率速度问题也行啊。因为我们游戏玩家只需要显示器上最终的输出结果体验嘛,你中间刀耕火种,土法炮制无所谓,只要端上桌子我吃的满意就行。
作者: 理智的边缘    时间: 2025-2-22 13:07
allensakura 发表于 2025-2-22 12:48
我最近一直在看UE5相关的的玩意
基本可以得出一个结论,那就是不论是EPIC还是NV都认为4K渲染未来一点都不重 ...

这也能带上 UE5我是没想到的。建议去看看虚幻5文档,1080P 60FPS的渲染目标指的是在主机上,人家当然是根据主机性能定的渲染目标了。就PS5的光追性能,4K原生 那是做不到啊……
作者: ONEChoy    时间: 2025-2-22 13:10
黄伟达:净事房捅的篓子 关我什么事 我户部只管韭菜收成。。。
作者: PPXG    时间: 2025-2-22 13:19
甚至GB202依然保持12组GPC不变的情况下塞下了24576CUDA,为此需要每组GPC的TPC数量从6增加到8,但是ROP单元数量并没有增加,也就是说GB202在CUDA规模对比AD102大了33%的情况下,依然拥有相同数量的光栅单元顺带一提因为5090和4090恰好都是启用11组GPC,所以反映到实际产品上他俩也恰好都是176个ROPs

作为对比,前两代和GB202以外的绝大多数核心都是每组GPC含6组TPC,光栅单元配比是更充足的

或许这就是AI显卡吧
作者: chungexcy    时间: 2025-2-22 13:31
本帖最后由 chungexcy 于 2025-2-22 13:38 编辑
PPXG 发表于 2025-2-22 13:19
甚至GB202依然保持12组GPC不变的情况下塞下了24576CUDA,为此需要每组GPC的TPC数量从6增加到8,但是ROP单元 ...


建议加大ai显卡力度,争取早日进化成gh200那种3rops/gpc的
作者: allensakura    时间: 2025-2-22 13:43
本帖最后由 allensakura 于 2025-2-22 14:11 编辑
理智的边缘 发表于 2025-2-22 13:07
这也能带上 UE5我是没想到的。建议去看看虚幻5文档,1080P 60FPS的渲染目标指的是在主机上,人家当然是根 ...


原本4K渲染相对於1080P的压力是2.25倍
但在UE5使用Nanite之後,4K相对於1080P是3倍以上
Nanite提高渲染解析度对光栅化性能会有严重影响,程度取决於屏幕多边形的数量
如果NV想解决这个问题,必须加大ROP的相对於其他单元的比例,但相反的是5系大幅减少
既然如此结论只有一个



作者: dinla    时间: 2025-2-22 13:45
6%都够老黄切出一张卡了 可怕可怕 恭喜奸商中招
作者: 练习    时间: 2025-2-22 13:53
ONEChoy 发表于 2025-2-22 13:10
黄伟达:净事房捅的篓子 关我什么事 我户部只管韭菜收成。。。

hahaha~

作者: faimie6183    时间: 2025-2-22 13:54
PPXG 发表于 2025-2-22 13:19
甚至GB202依然保持12组GPC不变的情况下塞下了24576CUDA,为此需要每组GPC的TPC数量从6增加到8,但是ROP单元 ...

从15年春泰坦x到16年夏泰坦p到17年春泰坦xp再到18年底泰坦rtx,
长期保持96rop雷打不动
作者: cannotdo    时间: 2025-2-22 13:59
punk100 发表于 2025-2-22 12:10
这是切除的不干净,切偏了一点?

应该是把好腿给截了
作者: PPXG    时间: 2025-2-22 14:07
faimie6183 发表于 2025-2-22 13:54
从15年春泰坦x到16年夏泰坦p到17年春泰坦xp再到18年底泰坦rtx,
长期保持96rop雷打不动 ...

那会儿是因为ROPs和L2、显存控制器绑定,几代泰坦都是384bit所以ROPs没提升,一直到20系都是这么设计的,TITAN RTX也是96ROPs

从30系开始ROPs不再和L2绑定,而是塞入GPC中,随GPC开启情况调整
作者: heroyours    时间: 2025-2-22 14:12
LOLI反应堆 发表于 2025-2-22 12:33
50系只是没有达到我们心目中的预期而已,不代表它效率下滑。
5090,5080,5070Ti,都是性能提升≥粗大提升, ...

50系效率没有下滑,但也基本没有什么提升。5080比4080s 4k平均12%的性能增幅,cuda多了5%,rop单元多了14%,纹理单元多了5%,rt core多了5%,显存频率多了33%,boost频率多了2.6%,功耗提升12.5%。能耗比和4080s几乎没差。
作者: LOLI反应堆    时间: 2025-2-22 14:36
本帖最后由 LOLI反应堆 于 2025-2-22 14:38 编辑
heroyours 发表于 2025-2-22 14:12
50系效率没有下滑,但也基本没有什么提升。5080比4080s 4k平均12%的性能增幅,cuda多了5%,rop单元多了14 ...


GB203和AD103 rops一样的啊,它们都是7GPC。
考虑到5080频率还低一点,像素填充率应该也低一点。
作者: heroyours    时间: 2025-2-22 14:55
LOLI反应堆 发表于 2025-2-22 14:36
GB203和AD103 rops一样的啊,它们都是7GPC。
考虑到5080频率还低一点,像素填充率应该也低一点。 ...

rop我看错了,不好意思。5080频率不低啊,同为fe,5080fe的boost频率还更高。
作者: LOLI反应堆    时间: 2025-2-22 14:58
heroyours 发表于 2025-2-22 14:55
rop我看错了,不好意思。5080频率不低啊,同为fe,5080fe的boost频率还更高。


在游戏里普片要低一点。40系都是2800mhz+,5080和5070Ti大部分时间都是2750mhz甚至不到。
作者: 取个名字真是难    时间: 2025-2-22 15:02
LOLI反应堆 发表于 2025-2-22 14:58
在游戏里普片要低一点。40系都是2800mhz+,5080和5070Ti大部分时间都是2750mhz甚至不到。 ...

2800mhz以上的都是oc版了,FE频率在2745-2775之间浮动
作者: chungexcy    时间: 2025-2-22 15:05
heroyours 发表于 2025-2-22 14:12
50系效率没有下滑,但也基本没有什么提升。5080比4080s 4k平均12%的性能增幅,cuda多了5%,rop单元多了14 ...

你咋不对比4080的规模呢
作者: fzyw    时间: 2025-2-22 15:09
heroyours 发表于 2025-2-22 14:12
50系效率没有下滑,但也基本没有什么提升。5080比4080s 4k平均12%的性能增幅,cuda多了5%,rop单元多了14 ...


不是12%是16%,而且算上dlss4的提升,5080的优势会更大。

(, 下载次数: 6)
作者: LOLI反应堆    时间: 2025-2-22 15:16
chungexcy 发表于 2025-2-22 15:05
你咋不对比4080的规模呢

要麽同规模比性能,要麽同性能比规模。
ab两个架构如果规模性能都有明显差异不太好比,假设b架构规模大50%,性能也维持在提升50%,说明b架构效率高,因为a架构扩大50%是绝对不可能性能涨50%的。
同性能比规模的话,4080效率显然比不过5070Ti。
作者: ghgfhghj    时间: 2025-2-22 15:27
本帖最后由 ghgfhghj 于 2025-2-22 15:58 编辑
PPXG 发表于 2025-2-22 13:19
甚至GB202依然保持12组GPC不变的情况下塞下了24576CUDA,为此需要每组GPC的TPC数量从6增加到8,但是ROP单元 ...


没法再加gpc了,12gpc已经相当低效了,从结果看4090到5090性能是跟着核心规模走的,可以说是比较理想了已经

每组sm 192个计算单元在开普勒试过,每组tpc 3个sm在特斯拉2.0试过,效果都不理想,想要继续增大确实只能是每组gpc的规格增大


作者: 夢裏不覺秋已深    时间: 2025-2-22 16:13
老黄延续了每次旗舰首发都要出事的惯例
作者: 林间有新绿    时间: 2025-2-22 16:26
厨子手抖了 21760克的肉 少了6g的油水
作者: ksealwzm    时间: 2025-2-22 16:51
punk100 发表于 2025-2-22 12:10
这是切除的不干净,切偏了一点?

包皮割多了,影响了性!能!
作者: aasa0001    时间: 2025-2-22 20:08
ghgfhghj 发表于 2025-2-22 15:27
没法再加gpc了,12gpc已经相当低效了,从结果看4090到5090性能是跟着核心规模走的,可以说是比较理想了已 ...

扯淡。
光栅化在gpc上,gpc数量就是最核心的瓶颈,再加上是通用瓶颈的互联和L2。
作者: ghgfhghj    时间: 2025-2-22 20:42
本帖最后由 ghgfhghj 于 2025-2-22 20:51 编辑
aasa0001 发表于 2025-2-22 20:08
扯淡。
光栅化在gpc上,gpc数量就是最核心的瓶颈,再加上是通用瓶颈的互联和L2。 ...


堆gpc有边际效应,n卡5gpc-7gpc效率最高,11gpc的4090边际效应比起7gpc的4080就相当明显

5090继续维持11gpc是正确的,依旧维持了相比4090规模相对线性的提升

4080到4090的提升不是线性的,衰减明显。但4090到5090性能提升却是和核心数量线性提升的。
作者: heroyours    时间: 2025-2-22 22:50
fzyw 发表于 2025-2-22 15:09
不是12%是16%,而且算上dlss4的提升,5080的优势会更大。

4k平均12%的性能增幅是参考chh5080fe的评测。算肯定是传统性能,加了dlss就没意思了。用个软件就把对手压死真的显得不那么光彩。
作者: fzyw    时间: 2025-2-23 07:42
本帖最后由 fzyw 于 2025-2-23 08:01 编辑
heroyours 发表于 2025-2-22 22:50
4k平均12%的性能增幅是参考chh5080fe的评测。算肯定是传统性能,加了dlss就没意思了。用个软件就把对手压 ...


继续加强dlss技术就是今后nvidia的发展方向,5090和5080开启dlss4后获得的帧数,如果光靠堆硬件你觉得什么时候能达到?不开启dlss,黑猴最高特效和画质下5080和4090,一个37帧一个43帧,两者都是没法玩的水平。
今后支持dlss4的游戏会越来越多,买5080的人有几个会绝对不用dlss4?怎么能因为你觉得没意思,就无视dlss4的差距?
而且dlss4的支持不仅是软件,更依赖于新的硬件架构,具体你看这里:https://www.163.com/dy/article/JMJ6VRDM0552OI16.html
作者: LOLI反应堆    时间: 2025-2-23 12:20
heroyours 发表于 2025-2-22 22:50
4k平均12%的性能增幅是参考chh5080fe的评测。算肯定是传统性能,加了dlss就没意思了。用个软件就把对手压 ...


chh的评测是光栅光追项目混合。
50系光栅游戏提升大于光追游戏(跑分反过来)。
光栅游戏大约10-18%不等,光追游戏8%-13%不等.
作者: jaycty    时间: 2025-2-23 14:02
fzyw 发表于 2025-2-23 07:42
继续加强dlss技术就是今后nvidia的发展方向,5090和5080开启dlss4后获得的帧数,如果光靠堆硬件你觉得什 ...

引用网易网友的评论:
旧显卡 Tensor Core规模不够。当然像4090 4080super这类上一代高端卡的不支持就说不过去了,老黄吃相难看
作者: aibo    时间: 2025-2-23 14:58
黄卡rops的配置从maxwell开始就没变
前端是gpc输出瓶颈,后端rop(早期和显存控制器绑定,著名的970 3.5G)

一个gpc输出16bit
早年GM200是一个gpc含8个tpc 共6个gpc
到GP102改为一个gpc含10个tpc 也是6个gpc
到GA102改为一个gpc含12个tpc 加到7个gpc
AD102维持一个gpc含12个tpc 加到12个gpc。但是这时候的光栅瓶颈已经很显著了。
GB202改为一个gpc含16个tpc 维持12个gpc。进一步加剧rop瓶颈,而且也无法充分利用显存带宽。

整个blackwell架构用了GD7,却没有匹配整个后端图形输出,也许老黄觉得加晶体管堆rop已经没有合适的收益了,摆烂就行。
特别是GB202就是为了非图形目的而去的
作者: LOLI反应堆    时间: 2025-2-23 15:25
本帖最后由 LOLI反应堆 于 2025-2-23 15:30 编辑
aibo 发表于 2025-2-23 14:58
黄卡rops的配置从maxwell开始就没变
前端是gpc输出瓶颈,后端rop(早期和显存控制器绑定,著名的970 3.5G) ...


我觉得还好啊,5090比5080强52%,这和1080Ti在2K下比1070的幅度是差不多的。

现在的显卡跑4K应该就跟10系跑2K压力差不多吧。

如果放到8K下,百分之七八十的差距应该就来了。

只是现在粪便率没有提升欲望,未来10年如果还是停留在4K,那往后5代的显卡差距必然会像如今的1080P这样逐渐众生平等化。

光栅确实是没几年玩头了。
作者: aasa0001    时间: 2025-2-23 19:04
ghgfhghj 发表于 2025-2-22 20:42
堆gpc有边际效应,n卡5gpc-7gpc效率最高,11gpc的4090边际效应比起7gpc的4080就相当明显

5090继续维持11 ...

废话,增大规模,效率永远是降低的。
扩大面积、增加互联节点->互联延迟上升
cache/compute相对下降->cache命中下降
cache增大->cache延迟上升
作者: aasa0001    时间: 2025-2-23 19:08
aibo 发表于 2025-2-23 14:58
黄卡rops的配置从maxwell开始就没变
前端是gpc输出瓶颈,后端rop(早期和显存控制器绑定,著名的970 3.5G) ...

光栅的coherency/ordering要求太严格了,不重新定义,没法扩展的。
但老黄已经弄了光追和ai赛道,自然不会去管光栅了。
作者: ghgfhghj    时间: 2025-2-23 19:41
本帖最后由 ghgfhghj 于 2025-2-23 19:46 编辑
aasa0001 发表于 2025-2-23 19:04
废话,增大规模,效率永远是降低的。
扩大面积、增加互联节点->互联延迟上升
cache/compute相对下降->cac ...


5090改成16gpc*6tpc很大概率没有现在强,扯那么多其他的毫无意义

4080到4090,7gpc到11gpc,性能非线性增长,衰减严重

4090到5090,gpc数量没增加,只增加每个gpc的tpc数量,性能基本线性增长,这不明确了12gpc*8tpc的设计是更优的吗

要继续提升性能只能是每个gpc的ROPs数量翻倍,不能再继续提升gpc




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5