找回密码
 加入我们
搜索
      
查看: 2191|回复: 22

[显卡] 50系显卡中TMU/ROP数量比例为啥5090特别大

[复制链接]
发表于 2025-9-15 11:27 | 显示全部楼层 |阅读模式
因为之前缺ROP的事情,所以去看了眼不同型号的ROP、TMU数量,有一些规律:
不同单元数量比例
型号 5050 5060 5060 Ti 5070 5070 Ti 50805090
TMU/ROP80/32=2.5 120/48=2.5 144/48=3 192/80=2.4 280/96≈2.92 336/112=3 680/176≈3.86
CUDA/TMU2560/80=323840/120=324608/144=326144/192=328960/280=3210752/336=3221760/680=32

5090的TMU/ROP比例特别大,然后CUDA/TMU比例所有型号都是一样的32,所以横向对比来看,5090的TMU数量是正常的,既然不是TMU数量特别的多,那就是ROP数量特别的少,ROP/TMU比例特别低,老黄为啥要把5090切成这样有没有大佬了解?
发表于 2025-9-15 11:29 | 显示全部楼层
我猜是边界效应,要猛堆规模
发表于 2025-9-15 11:30 来自手机 | 显示全部楼层
因为TMU和SM绑定,ROP和GPC绑定
发表于 2025-9-15 16:23 | 显示全部楼层
本帖最后由 hustlhx 于 2025-9-15 16:26 编辑

楼上正解
nv从10系(pascal架构)开始到现在核心组成都是GPC->TPC->SM,一组GPC绑定16个ROP(楼上的ROP和GPC绑定),10系到50系都是如此,这个没调整过。一般一组TPC有2组SM(极个别只有1组SM)。
SM在20系和30系组成有调整,30系、40系、50系组成一致。每一代所有的GPU核心的每个sku,只是GPC数量不同,每组GPC包含的TP数量不同,SM里面的东西都是一样的。
比如30系、40系、50系单个SM簇,都是有128个SP(CUDA),4个TMU,4个tensor core,1个rt core,16个SPU(楼上的TMU和SM绑定)
老黄刀法的基本单位应该是TPC(2组SM),而不会刀SM里面的单元,所以CUDA/TMU/tensor core/rt core比例都是固定的。
ROP数量就看开了几组GPC,乘以16就是。满血GB202是12组GPC,5090开了11组,所以是11*16=176个ROPs。
GB202和AD102,都是12组GPC,所以GB202对比AD102,ROP数量是没有增加的。GB202每组GPC包含的TPC数量从AD102的6组增加为8组,增加了33%。
每组GPC包含的TPC数量,GB202目前是最多的,换句话说ROP的比例是最小的,明显ROP最有可能会有瓶颈。
个人愚见:高压下4090对比4080的差距无限接近显存带宽差距,4090显存带宽瓶颈了;高压下5090对比5080的差距无限接近ROP差距,5090 ROP瓶颈了;
GB202对比上代,规模加了33%,显存带宽加了80%+,ROP却没加,木桶原理,傻子都知道ROP少了,感觉老黄就是故意的(ROP对AI估计没什么影响,浪费晶体管,对游戏影响比较大)。如果GB202使用16*6,对比现在12*8,游戏性能起码再加10%,20%说不定都可能。

评分

参与人数 1邪恶指数 +5 收起 理由
Barcelona + 5

查看全部评分

发表于 2025-9-15 16:38 来自手机 | 显示全部楼层
换了4k,觉得5080超频也不是太给力,5090功耗又太大,纠结
发表于 2025-9-15 16:52 | 显示全部楼层
hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系(pascal架构)开始到现在核心组成都是GPC->TPC->SM,一组GPC绑定16个ROP(楼上的ROP和GP ...

ROP是安培开始才移到GPC内的
发表于 2025-9-15 16:57 | 显示全部楼层
本质上还是分辨率发展已经停滞了,外加一堆超分辨率,ROP的影响已经微乎其微了
发表于 2025-9-15 17:12 | 显示全部楼层
LambdaDelta 发表于 2025-9-15 16:52
ROP是安培开始才移到GPC内的

感谢科普,就是30系之后ROP和GPC绑定,不过和之前的比例是一样的。
发表于 2025-9-15 17:14 | 显示全部楼层
本帖最后由 hustlhx 于 2025-9-15 17:16 编辑
LambdaDelta 发表于 2025-9-15 16:57
本质上还是分辨率发展已经停滞了,外加一堆超分辨率,ROP的影响已经微乎其微了 ...


ROP的影响已经微乎其微了?
ROP对光栅性能还是影响很大的吧,GB202要是采用16*6,rops就有256个,纯光栅性能在现在的基础上再提升20%不是没可能吧。
之前的rops缺失事件貌似性能影响就是5%,和缺失rops比例几乎一致。
发表于 2025-9-15 17:21 | 显示全部楼层
hustlhx 发表于 2025-9-15 17:14
ROP的影响已经微乎其微了?
ROP对光栅性能还是影响很大的吧,GB202要是采用16*6,rops就有256个,纯光栅 ...

nsight跑一下现在的游戏就看得出来的事,没有必要猜测。
发表于 2025-9-15 17:33 | 显示全部楼层
hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系(pascal架构)开始到现在核心组成都是GPC->TPC->SM,一组GPC绑定16个ROP(楼上的ROP和GP ...

4090其实是l2瓶颈。。。有人拿到了完整ad102核心,显存带宽一样,rops多9%,sm多12.5%

但性能强了15%,因为l2多了25%
发表于 2025-9-15 17:35 | 显示全部楼层
LambdaDelta 发表于 2025-9-15 16:57
本质上还是分辨率发展已经停滞了,外加一堆超分辨率,ROP的影响已经微乎其微了 ...

确实,如果跑原生8k,5090能比4090强60%以上,这个提升就符合预期了

但现在都是4k+dlss质量档,差距就只有30%甚至更低
发表于 2025-9-15 17:37 | 显示全部楼层
林雷 发表于 2025-9-15 16:38
换了4k,觉得5080超频也不是太给力,5090功耗又太大,纠结

5090降压用啊
发表于 2025-9-15 17:58 | 显示全部楼层
林雷 发表于 2025-9-15 16:38
换了4k,觉得5080超频也不是太给力,5090功耗又太大,纠结

开dlss平衡,你会发现5080就够了。
发表于 2025-9-15 19:48 来自手机 | 显示全部楼层
ghgfhghj 发表于 2025-9-15 17:35
确实,如果跑原生8k,5090能比4090强60%以上,这个提升就符合预期了

但现在都是4k+dlss质量档,差距就只 ...

5090主要的场景是dlaa+2x ,感觉比4090还是强不少。
发表于 2025-9-16 09:15 | 显示全部楼层
ghgfhghj 发表于 2025-9-15 17:33
4090其实是l2瓶颈。。。有人拿到了完整ad102核心,显存带宽一样,rops多9%,sm多12.5%

但性能强了15%, ...

l2和带宽某种意义上是一个意思
 楼主| 发表于 2025-9-16 11:11 | 显示全部楼层
hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系(pascal架构)开始到现在核心组成都是GPC->TPC->SM,一组GPC绑定16个ROP(楼上的ROP和GP ...

明白了,
不过确实不解,为啥不用16*6的结构呢,晶体管只差在ROP上了,这种成熟模块成本肯定也不高的,难道是怕这代提升太大下一代没有提升空间?
发表于 2025-9-16 13:35 | 显示全部楼层
zhgbbs 发表于 2025-9-16 11:11
明白了,
不过确实不解,为啥不用16*6的结构呢,晶体管只差在ROP上了,这种成熟模块成本肯定也不高的,难 ...

估计切起来不精准,毕竟老黄觉得赚钱不寒碜。
发表于 2025-9-16 15:23 | 显示全部楼层
本帖最后由 hustlhx 于 2025-9-16 15:26 编辑
zhgbbs 发表于 2025-9-16 11:11
明白了,
不过确实不解,为啥不用16*6的结构呢,晶体管只差在ROP上了,这种成熟模块成本肯定也不高的,难 ...


这不就来了吗,刚出的消息60系有可能就是16*6
渲染图是英伟达官方10号公开的Rubin CPX渲染图
https://m.ithome.com/html/883345.htm
 楼主| 发表于 2025-9-16 16:34 | 显示全部楼层
hustlhx 发表于 2025-9-15 16:23
楼上正解
nv从10系(pascal架构)开始到现在核心组成都是GPC->TPC->SM,一组GPC绑定16个ROP(楼上的ROP和GP ...
高压下5090对比5080的差距无限接近ROP差距

之前只是觉得5090对比5080的性能差距,比CUDA数量的差距要小很多,没注意到这个ROP,现在去看了下3dmark分数还真是唉,5090比5080的ROP数量多了57%,3dmark各项分数领先50%-60%,合着不是CUDA边际效应了,是ROP没给够

按照这个理论,是不是把5090的每组GPC包含的TPC数量从8组缩减回6组,可能游戏性能降低是很小的,类似显存缩到24G 384bit的5090D v2,可惜没办法屏蔽TPC进行验证,TPC数量减少1/4说不定功耗还能降低不少
发表于 2025-9-16 16:58 | 显示全部楼层
本帖最后由 hustlhx 于 2025-9-16 17:00 编辑
zhgbbs 发表于 2025-9-16 16:34
之前只是觉得5090对比5080的性能差距,比CUDA数量的差距要小很多,没注意到这个ROP,现在去看了下3dmark ...

是的,包括之前5090爆缩rops,缩到168个,性能损失刚好就是5%左右,比例基本一致。
每组GPC包含的TPC数量从8组缩减回6组,对光栅性能可能影响不大,但对ai影响蛮大的,除非不开dlss。现在路线就是靠AI了,光栅提升太费劲,我AI直接翻倍。
发表于 2025-9-16 19:01 | 显示全部楼层
zhgbbs 发表于 2025-9-16 16:34
之前只是觉得5090对比5080的性能差距,比CUDA数量的差距要小很多,没注意到这个ROP,现在去看了下3dmark ...

完整的gb202芯片完全可以每个gpc切1组tpc做5090,这样有完整的l2和rop还缩小了每组规模,但nv选择切掉1整个gpc,之前的4090也是一样
这显然已经是nv限制90卡性能"过强"的固定套路
发表于 2025-9-16 19:14 | 显示全部楼层
越高端的卡,就是越来越偏重AI轻光栅。90的定位其实是便宜的AI卡而非游戏卡

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-19 03:02 , Processed in 0.012939 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表