panzerlied
发表于 2025-2-24 17:10
destroypeter 发表于 2025-2-24 17:08
多谢大佬捧场,期待大佬开个专门的科普贴造福坛友
20系的时候就发过了。
PolyMorph
发表于 2025-2-24 17:12
本帖最后由 PolyMorph 于 2025-2-24 17:27 编辑
喜欢整天研究GPU哪里瓶颈的去下个nsight看看负载占用
比吹水更能了解GPU,实际跟你想的都不一样
https://developer.nvidia.com/nsight-graphics
瓶颈不过是供应链成本跟时间进度权衡的结果,遗留问题肯定也有
研究再深还是帧数说话,帧数不行再牛逼也没用
destroypeter
发表于 2025-2-24 17:13
panzerlied 发表于 2025-2-24 17:10
20系的时候就发过了。
大佬您发布的主题可真不少,可以给个关键字提醒下么,我好翻看您之前的帖子复习一下[吐槽]
wjm47196
发表于 2025-2-24 17:14
destroypeter 发表于 2025-2-24 16:29
为什么我的rtx3060比起普通版48个ROP单元的rtx3060在性能上毫无进步
木桶理论不知道?
destroypeter
发表于 2025-2-24 17:15
PolyMorph 发表于 2025-2-24 17:12
喜欢整天研究GPU哪里瓶颈的去下个nsight看看负载占用
实际跟你想的都不一样
多谢大佬提供的思路,我抽空去下载一个研究下[可爱]
destroypeter
发表于 2025-2-24 17:16
wjm47196 发表于 2025-2-24 17:14
木桶理论不知道?
这个肯定知道啊,发这个帖子确实是好奇,顺便水点经验[吐槽]
zhensunbin0202
发表于 2025-2-24 17:24
这事也想洗地?看你这急不可耐的样,手里囤了不少货吧
destroypeter
发表于 2025-2-24 17:26
zhensunbin0202 发表于 2025-2-24 17:24
这事也想洗地?看你这急不可耐的样,手里囤了不少货吧
你从我哪个字眼里看出来我想洗地了?我只想问我的3060为什么多了那么多ROP单元却没有性能提升,标题引流水点经验咋啦[流汗]
mhmddb
发表于 2025-2-24 17:26
你的意思是,本来你花1000W买个的150平面积的房子,实际测量后,少你10平米。而你的邻居同样价格同样户型是150平的,你觉得不重要呗
destroypeter
发表于 2025-2-24 17:27
mhmddb 发表于 2025-2-24 17:26
你的意思是,本来你花1000W买个的150平面积的房子,实际测量后,少你10平米。而你的邻居同样价格同样户型是 ...
我这个帖子只是想问为什么我的卡ROP单元多出来了却没有提升,我有说5070ti少ROP单元对性能绝对没影响的结论?
Amarillys
发表于 2025-2-24 17:51
本帖最后由 Amarillys 于 2025-2-25 01:16 编辑
怎么说呢,显卡的各个单元肯定都是相辅相成的,但是一般的计算瓶颈都在于cuda。
3060给48个ROPs肯定都是妥妥够用了,一般3060不会计算那么多的数据,48个rops就能处理完,给64个rops肯定很悠闲。
如果有48个ROPs处理不完的数据(比如开4k超高),那么这些数据对3060那点cuda量肯定是更加处理不完,此时瓶颈在cuda上更为明显了,cuda输出的数据很慢很少,48个rops也不会有什么问题。
回到5070ti,5090这些卡上,他们一般都是非常高的帧率或者分辨率,数据量非常高,所以ROPs一般都会跑满了,这时候要是缺ROPs就会造成瓶颈了。
同时我还觉得5090就算不缺那8个ROPs,目前的176个也是偏少的
huhudna
发表于 2025-2-24 17:54
啊对对对,一点也不重要
IamAeon
发表于 2025-2-24 18:05
厌蠢症犯了。
zhensunbin0202
发表于 2025-2-24 18:09
destroypeter 发表于 2025-2-24 17:26
你从我哪个字眼里看出来我想洗地了?我只想问我的3060为什么多了那么多ROP单元却没有性能提升,标题引流 ...
不用装了,大家又不是瞎子,你是不是洗地还能看不出来?你自己看看自己的回帖
8xwob3ko
发表于 2025-2-24 18:16
之前不是有帖子详细分析50系吗,说的5090即使完整规格rop也不够用,瓶颈在这,木桶原理
rSkip
发表于 2025-2-24 18:24
本帖最后由 rSkip 于 2025-2-25 09:53 编辑
以下是我的解读,欢迎讨论。
GA104的3060多了一个GPC,前后端等比例增强,把SM匀一匀,计算能力没变,如果原本前端就不是瓶颈,那么可能性能差距不太明显。从8或10SM对应16ROP变成了6或8SM对应16ROP。各个GPC间的任务分配和性能都还是均匀的。
但是如果真的发生比如5080某个GPC内的16ROP缺了一半的情况,这个GPC就变成了12SM对应8ROP,相当于24SM对应16ROP。对于依赖光栅化的负载,瓶颈可能就很明显了。如果碰到GPU级的同步,这种性能不均衡就会让其他GPC陷入等待。
再整理下数据:
GA104的3060是6或8对应16
GA106的3060是8或10对应16
GB203缺了ROP的那个GPC是12对应8,相当于24对应16。比例差太多了。
——
update:
这里前端指光栅器,后端指rop。光栅器之前还有SM的三角形setup,这里就不细说了。
如果nv的光栅化任务分配不是固定的而是有主动负载均衡的话,感觉丢rop的影响不会这么大,不太应该。
xy.
发表于 2025-2-24 18:43
destroypeter 发表于 2025-2-24 17:26
你从我哪个字眼里看出来我想洗地了?我只想问我的3060为什么多了那么多ROP单元却没有性能提升,标题引流 ...
热知识:chh发言不加经验
panzerlied
发表于 2025-2-24 18:54
Amarillys 发表于 2025-2-24 17:51
怎么说呢,显卡的各个单元肯定都是相辅相成的,但是一般的计算瓶颈都在于cuda。
3060给48个ROPs肯定都是妥 ...
4080S的是5666665,4080只能在这个基础上阉割。
开心就好zzz
发表于 2025-2-24 19:06
5070TI丢失的ROP单元真的有那么重要?
这个标题确实很有误导性,你可以写关于5070ti xxxxx的讨论
你帖子内容给人的感觉,我打个比方就是:
不重要你去把人家的卡收了?
是不是看着很难受。
还有英伟达说回收是应该的,大家喷也是应该的
Amarillys
发表于 2025-2-24 20:13
panzerlied 发表于 2025-2-24 18:54
4080S的是5666665,4080只能在这个基础上阉割。
感谢指正,我确实不太清楚,都是查网上的资料的,4090D好像还查不到
panzerlied
发表于 2025-2-24 20:45
Amarillys 发表于 2025-2-24 20:13
感谢指正,我确实不太清楚,都是查网上的资料的,4090D好像还查不到
不清楚正常。
AD103两侧各有1个TPC未做连线,纯吉祥物。
zerozerone
发表于 2025-2-24 21:50
讲得好,鼓掌,你们聊,路过且不敢发言。
Amarillys
发表于 2025-2-24 22:11
panzerlied 发表于 2025-2-24 20:45
不清楚正常。
AD103两侧各有1个TPC未做连线,纯吉祥物。
23333,原来是这样
faimie6183
发表于 2025-2-24 22:50
你经常跑4k甚至5k游戏吗?
高压条件下rop多才管用
天道太酬勤
发表于 2025-2-24 22:58
destroypeter 发表于 2025-2-24 17:27
我这个帖子只是想问为什么我的卡ROP单元多出来了却没有提升,我有说5070ti少ROP单元对性能绝对没影响的结 ...
反问句表面看来是疑问的形式,但实际上表达的是肯定的意思
chungexcy
发表于 2025-2-24 23:33
本帖最后由 chungexcy 于 2025-2-24 23:34 编辑
性能和功耗强相关。你可以看看你的功耗释放。
按理说你这个是4gpc*8sm的,同频率效率肯定比3gpc*10sm的高。
Sirlion
发表于 2025-2-24 23:39
destroypeter 发表于 2025-2-24 17:27
我这个帖子只是想问为什么我的卡ROP单元多出来了却没有提升,我有说5070ti少ROP单元对性能绝对没影响的结 ...
此地无银三百两,中国人小时候都学过的成语,你不会是老黄的ai水军吧
chungexcy
发表于 2025-2-24 23:43
panzerlied 发表于 2025-2-24 18:54
4080S的是5666665,4080只能在这个基础上阉割。
我看dieshot AD103是6664666
illidanwyz
发表于 2025-2-24 23:57
想抖个机灵奈何智商不够啊+1
LOLI反应堆
发表于 2025-2-25 00:45
Amarillys 发表于 2025-2-24 17:51
怎么说呢,显卡的各个单元肯定都是相辅相成的,但是一般的计算瓶颈都在于cuda。
3060给48个ROPs肯定都是妥 ...
5070 6x4?