找回密码
 加入我们
搜索
      
查看: 807|回复: 13

[显卡] 50系显卡中TMU/ROP数量比例为啥5090特别大

[复制链接]
发表于 2025-9-15 11:27 | 显示全部楼层 |阅读模式
因为之前缺ROP的事情,所以去看了眼不同型号的ROP、TMU数量,有一些规律:
不同单元数量比例
型号 5050 5060 5060 Ti 5070 5070 Ti 50805090
TMU/ROP80/32=2.5 120/48=2.5 144/48=3 192/80=2.4 280/96≈2.92 336/112=3 680/176≈3.86
CUDA/TMU2560/80=323840/120=324608/144=326144/192=328960/280=3210752/336=3221760/680=32

5090的TMU/ROP比例特别大,然后CUDA/TMU比例所有型号都是一样的32,所以横向对比来看,5090的TMU数量是正常的,既然不是TMU数量特别的多,那就是ROP数量特别的少,ROP/TMU比例特别低,老黄为啥要把5090切成这样有没有大佬了解?
发表于 2025-9-15 11:29 | 显示全部楼层
我猜是边界效应,要猛堆规模
发表于 2025-9-15 11:30 来自手机 | 显示全部楼层
因为TMU和SM绑定,ROP和GPC绑定
发表于 2025-9-15 16:23 | 显示全部楼层
本帖最后由 hustlhx 于 2025-9-15 16:26 编辑

楼上正解
nv从10系(pascal架构)开始到现在核心组成都是GPC->TPC->SM,一组GPC绑定16个ROP(楼上的ROP和GPC绑定),10系到50系都是如此,这个没调整过。一般一组TPC有2组SM(极个别只有1组SM)。
SM在20系和30系组成有调整,30系、40系、50系组成一致。每一代所有的GPU核心的每个sku,只是GPC数量不同,每组GPC包含的TP数量不同,SM里面的东西都是一样的。
比如30系、40系、50系单个SM簇,都是有128个SP(CUDA),4个TMU,4个tensor core,1个rt core,16个SPU(楼上的TMU和SM绑定)
老黄刀法的基本单位应该是TPC(2组SM),而不会刀SM里面的单元,所以CUDA/TMU/tensor core/rt core比例都是固定的。
ROP数量就看开了几组GPC,乘以16就是。满血GB202是12组GPC,5090开了11组,所以是11*16=176个ROPs。
GB202和AD102,都是12组GPC,所以GB202对比AD102,ROP数量是没有增加的。GB202每组GPC包含的TPC数量从AD102的6组增加为8组,增加了33%。
每组GPC包含的TPC数量,GB202目前是最多的,换句话说ROP的比例是最小的,明显ROP最有可能会有瓶颈。
个人愚见:高压下4090对比4080的差距无限接近显存带宽差距,4090显存带宽瓶颈了;高压下5090对比5080的差距无限接近ROP差距,5090 ROP瓶颈了;
GB202对比上代,规模加了33%,显存带宽加了80%+,ROP却没加,木桶原理,傻子都知道ROP少了,感觉老黄就是故意的(ROP对AI估计没什么影响,浪费晶体管,对游戏影响比较大)。如果GB202使用16*6,对比现在12*8,游戏性能起码再加10%,20%说不定都可能。
发表于 2025-9-15 16:38 来自手机 | 显示全部楼层
换了4k,觉得5080超频也不是太给力,5090功耗又太大,纠结
发表于 2025-9-15 16:52 | 显示全部楼层
hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系(pascal架构)开始到现在核心组成都是GPC->TPC->SM,一组GPC绑定16个ROP(楼上的ROP和GP ...

ROP是安培开始才移到GPC内的
发表于 2025-9-15 16:57 | 显示全部楼层
本质上还是分辨率发展已经停滞了,外加一堆超分辨率,ROP的影响已经微乎其微了
发表于 2025-9-15 17:12 | 显示全部楼层
LambdaDelta 发表于 2025-9-15 16:52
ROP是安培开始才移到GPC内的

感谢科普,就是30系之后ROP和GPC绑定,不过和之前的比例是一样的。
发表于 2025-9-15 17:14 | 显示全部楼层
本帖最后由 hustlhx 于 2025-9-15 17:16 编辑
LambdaDelta 发表于 2025-9-15 16:57
本质上还是分辨率发展已经停滞了,外加一堆超分辨率,ROP的影响已经微乎其微了 ...


ROP的影响已经微乎其微了?
ROP对光栅性能还是影响很大的吧,GB202要是采用16*6,rops就有256个,纯光栅性能在现在的基础上再提升20%不是没可能吧。
之前的rops缺失事件貌似性能影响就是5%,和缺失rops比例几乎一致。
发表于 2025-9-15 17:21 | 显示全部楼层
hustlhx 发表于 2025-9-15 17:14
ROP的影响已经微乎其微了?
ROP对光栅性能还是影响很大的吧,GB202要是采用16*6,rops就有256个,纯光栅 ...

nsight跑一下现在的游戏就看得出来的事,没有必要猜测。
发表于 2025-9-15 17:33 | 显示全部楼层
hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系(pascal架构)开始到现在核心组成都是GPC->TPC->SM,一组GPC绑定16个ROP(楼上的ROP和GP ...

4090其实是l2瓶颈。。。有人拿到了完整ad102核心,显存带宽一样,rops多9%,sm多12.5%

但性能强了15%,因为l2多了25%
发表于 2025-9-15 17:35 | 显示全部楼层
LambdaDelta 发表于 2025-9-15 16:57
本质上还是分辨率发展已经停滞了,外加一堆超分辨率,ROP的影响已经微乎其微了 ...

确实,如果跑原生8k,5090能比4090强60%以上,这个提升就符合预期了

但现在都是4k+dlss质量档,差距就只有30%甚至更低
发表于 2025-9-15 17:37 | 显示全部楼层
林雷 发表于 2025-9-15 16:38
换了4k,觉得5080超频也不是太给力,5090功耗又太大,纠结

5090降压用啊
发表于 2025-9-15 17:58 | 显示全部楼层
林雷 发表于 2025-9-15 16:38
换了4k,觉得5080超频也不是太给力,5090功耗又太大,纠结

开dlss平衡,你会发现5080就够了。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-15 18:53 , Processed in 0.015757 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表