50系显卡中TMU/ROP数量比例为啥5090特别大

zhgbbs · 发表于 2025-9-15 11:27

因为之前缺ROP的事情，所以去看了眼不同型号的ROP、TMU数量，有一些规律：
不同单元数量比例

型号	5050	5060	5060 Ti	5070	5070 Ti	5080	5090
TMU/ROP	80/32=2.5	120/48=2.5	144/48=3	192/80=2.4	280/96≈2.92	336/112=3	680/176≈3.86
CUDA/TMU	2560/80=32	3840/120=32	4608/144=32	6144/192=32	8960/280=32	10752/336=32	21760/680=32

5090的TMU/ROP比例特别大，然后CUDA/TMU比例所有型号都是一样的32，所以横向对比来看，5090的TMU数量是正常的，既然不是TMU数量特别的多，那就是ROP数量特别的少，ROP/TMU比例特别低，老黄为啥要把5090切成这样有没有大佬了解？

再未见Z · 发表于 2025-9-15 11:29

我猜是边界效应，要猛堆规模

PPXG · 发表于 2025-9-15 11:30

因为TMU和SM绑定，ROP和GPC绑定

hustlhx · 发表于 2025-9-15 16:23

本帖最后由 hustlhx 于 2025-9-15 16:26 编辑

楼上正解
nv从10系（pascal架构）开始到现在核心组成都是GPC->TPC->SM，一组GPC绑定16个ROP（楼上的ROP和GPC绑定），10系到50系都是如此，这个没调整过。一般一组TPC有2组SM（极个别只有1组SM）。
SM在20系和30系组成有调整，30系、40系、50系组成一致。每一代所有的GPU核心的每个sku，只是GPC数量不同，每组GPC包含的TP数量不同，SM里面的东西都是一样的。
比如30系、40系、50系单个SM簇，都是有128个SP（CUDA），4个TMU，4个tensor core，1个rt core，16个SPU（楼上的TMU和SM绑定）
老黄刀法的基本单位应该是TPC（2组SM），而不会刀SM里面的单元，所以CUDA/TMU/tensor core/rt core比例都是固定的。
ROP数量就看开了几组GPC，乘以16就是。满血GB202是12组GPC，5090开了11组，所以是11*16=176个ROPs。
GB202和AD102，都是12组GPC，所以GB202对比AD102，ROP数量是没有增加的。GB202每组GPC包含的TPC数量从AD102的6组增加为8组，增加了33%。
每组GPC包含的TPC数量，GB202目前是最多的，换句话说ROP的比例是最小的，明显ROP最有可能会有瓶颈。
个人愚见：高压下4090对比4080的差距无限接近显存带宽差距，4090显存带宽瓶颈了；高压下5090对比5080的差距无限接近ROP差距，5090 ROP瓶颈了；
GB202对比上代，规模加了33%，显存带宽加了80%+，ROP却没加，木桶原理，傻子都知道ROP少了，感觉老黄就是故意的（ROP对AI估计没什么影响，浪费晶体管，对游戏影响比较大）。如果GB202使用16*6，对比现在12*8，游戏性能起码再加10%，20%说不定都可能。

林雷 · 发表于 2025-9-15 16:38

换了4k，觉得5080超频也不是太给力，5090功耗又太大，纠结

LambdaDelta · 发表于 2025-9-15 16:52

hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系（pascal架构）开始到现在核心组成都是GPC->TPC->SM，一组GPC绑定16个ROP（楼上的ROP和GP ...

ROP是安培开始才移到GPC内的

LambdaDelta · 发表于 2025-9-15 16:57

本质上还是分辨率发展已经停滞了，外加一堆超分辨率，ROP的影响已经微乎其微了

hustlhx · 发表于 2025-9-15 17:12

LambdaDelta 发表于 2025-9-15 16:52
ROP是安培开始才移到GPC内的

感谢科普，就是30系之后ROP和GPC绑定，不过和之前的比例是一样的。

hustlhx · 发表于 2025-9-15 17:14

本帖最后由 hustlhx 于 2025-9-15 17:16 编辑

LambdaDelta 发表于 2025-9-15 16:57
本质上还是分辨率发展已经停滞了，外加一堆超分辨率，ROP的影响已经微乎其微了 ...

ROP的影响已经微乎其微了？
ROP对光栅性能还是影响很大的吧，GB202要是采用16*6，rops就有256个，纯光栅性能在现在的基础上再提升20%不是没可能吧。
之前的rops缺失事件貌似性能影响就是5%，和缺失rops比例几乎一致。

LambdaDelta · 发表于 2025-9-15 17:21

hustlhx 发表于 2025-9-15 17:14
ROP的影响已经微乎其微了？
ROP对光栅性能还是影响很大的吧，GB202要是采用16*6，rops就有256个，纯光栅 ...

nsight跑一下现在的游戏就看得出来的事，没有必要猜测。

ghgfhghj · 发表于 2025-9-15 17:33

hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系（pascal架构）开始到现在核心组成都是GPC->TPC->SM，一组GPC绑定16个ROP（楼上的ROP和GP ...

4090其实是l2瓶颈。。。有人拿到了完整ad102核心，显存带宽一样，rops多9%，sm多12.5%

但性能强了15%，因为l2多了25%

ghgfhghj · 发表于 2025-9-15 17:35

LambdaDelta 发表于 2025-9-15 16:57
本质上还是分辨率发展已经停滞了，外加一堆超分辨率，ROP的影响已经微乎其微了 ...

确实，如果跑原生8k，5090能比4090强60%以上，这个提升就符合预期了

但现在都是4k+dlss质量档，差距就只有30%甚至更低

RK27 · 发表于 2025-9-15 17:37

林雷发表于 2025-9-15 16:38
换了4k，觉得5080超频也不是太给力，5090功耗又太大，纠结

5090降压用啊

yuechsh · 发表于 2025-9-15 17:58

林雷发表于 2025-9-15 16:38
换了4k，觉得5080超频也不是太给力，5090功耗又太大，纠结

开dlss平衡，你会发现5080就够了。

beckcppes · 发表于 2025-9-15 19:48

ghgfhghj 发表于 2025-9-15 17:35
确实，如果跑原生8k，5090能比4090强60%以上，这个提升就符合预期了

但现在都是4k+dlss质量档，差距就只 ...

5090主要的场景是dlaa+2x ，感觉比4090还是强不少。

hustlhx · 发表于 2025-9-16 09:15

ghgfhghj 发表于 2025-9-15 17:33
4090其实是l2瓶颈。。。有人拿到了完整ad102核心，显存带宽一样，rops多9%，sm多12.5%

但性能强了15%， ...

l2和带宽某种意义上是一个意思

zhgbbs · 发表于 2025-9-16 11:11

hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系（pascal架构）开始到现在核心组成都是GPC->TPC->SM，一组GPC绑定16个ROP（楼上的ROP和GP ...

明白了，
不过确实不解，为啥不用16*6的结构呢，晶体管只差在ROP上了，这种成熟模块成本肯定也不高的，难道是怕这代提升太大下一代没有提升空间？

ssyypdc · 发表于 2025-9-16 13:35

zhgbbs 发表于 2025-9-16 11:11
明白了，
不过确实不解，为啥不用16*6的结构呢，晶体管只差在ROP上了，这种成熟模块成本肯定也不高的，难 ...

估计切起来不精准，毕竟老黄觉得赚钱不寒碜。

hustlhx · 发表于 2025-9-16 15:23

本帖最后由 hustlhx 于 2025-9-16 15:26 编辑

zhgbbs 发表于 2025-9-16 11:11
明白了，
不过确实不解，为啥不用16*6的结构呢，晶体管只差在ROP上了，这种成熟模块成本肯定也不高的，难 ...

这不就来了吗，刚出的消息60系有可能就是16*6

渲染图是英伟达官方10号公开的Rubin CPX渲染图
https://m.ithome.com/html/883345.htm

zhgbbs · 发表于 2025-9-16 16:34

hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系（pascal架构）开始到现在核心组成都是GPC->TPC->SM，一组GPC绑定16个ROP（楼上的ROP和GP ...

高压下5090对比5080的差距无限接近ROP差距

之前只是觉得5090对比5080的性能差距，比CUDA数量的差距要小很多，没注意到这个ROP，现在去看了下3dmark分数还真是唉，5090比5080的ROP数量多了57%，3dmark各项分数领先50%-60%，合着不是CUDA边际效应了，是ROP没给够

按照这个理论，是不是把5090的每组GPC包含的TPC数量从8组缩减回6组，可能游戏性能降低是很小的，类似显存缩到24G 384bit的5090D v2，可惜没办法屏蔽TPC进行验证，TPC数量减少1/4说不定功耗还能降低不少

hustlhx · 发表于 2025-9-16 16:58

本帖最后由 hustlhx 于 2025-9-16 17:00 编辑

zhgbbs 发表于 2025-9-16 16:34
之前只是觉得5090对比5080的性能差距，比CUDA数量的差距要小很多，没注意到这个ROP，现在去看了下3dmark ...

是的，包括之前5090爆缩rops，缩到168个，性能损失刚好就是5%左右，比例基本一致。
每组GPC包含的TPC数量从8组缩减回6组，对光栅性能可能影响不大，但对ai影响蛮大的，除非不开dlss。现在路线就是靠AI了，光栅提升太费劲，我AI直接翻倍。

Flanker · 发表于 2025-9-16 19:01

zhgbbs 发表于 2025-9-16 16:34
之前只是觉得5090对比5080的性能差距，比CUDA数量的差距要小很多，没注意到这个ROP，现在去看了下3dmark ...

完整的gb202芯片完全可以每个gpc切1组tpc做5090，这样有完整的l2和rop还缩小了每组规模，但nv选择切掉1整个gpc，之前的4090也是一样
这显然已经是nv限制90卡性能"过强"的固定套路

zexis744 · 发表于 2025-9-16 19:14

越高端的卡，就是越来越偏重AI轻光栅。90的定位其实是便宜的AI卡而非游戏卡

账号		自动登录	找回密码
密码			加入我们

[显卡] 50系显卡中TMU/ROP数量比例为啥5090特别大

评分

浏览过的版块