panzerlied 发表于 2025-2-24 17:10

destroypeter 发表于 2025-2-24 17:08
多谢大佬捧场,期待大佬开个专门的科普贴造福坛友

20系的时候就发过了。

PolyMorph 发表于 2025-2-24 17:12

本帖最后由 PolyMorph 于 2025-2-24 17:27 编辑

喜欢整天研究GPU哪里瓶颈的去下个nsight看看负载占用
比吹水更能了解GPU,实际跟你想的都不一样
https://developer.nvidia.com/nsight-graphics

瓶颈不过是供应链成本跟时间进度权衡的结果,遗留问题肯定也有
研究再深还是帧数说话,帧数不行再牛逼也没用

destroypeter 发表于 2025-2-24 17:13

panzerlied 发表于 2025-2-24 17:10
20系的时候就发过了。

大佬您发布的主题可真不少,可以给个关键字提醒下么,我好翻看您之前的帖子复习一下[吐槽]

wjm47196 发表于 2025-2-24 17:14

destroypeter 发表于 2025-2-24 16:29
为什么我的rtx3060比起普通版48个ROP单元的rtx3060在性能上毫无进步

木桶理论不知道?

destroypeter 发表于 2025-2-24 17:15

PolyMorph 发表于 2025-2-24 17:12
喜欢整天研究GPU哪里瓶颈的去下个nsight看看负载占用
实际跟你想的都不一样



多谢大佬提供的思路,我抽空去下载一个研究下[可爱]

destroypeter 发表于 2025-2-24 17:16

wjm47196 发表于 2025-2-24 17:14
木桶理论不知道?

这个肯定知道啊,发这个帖子确实是好奇,顺便水点经验[吐槽]

zhensunbin0202 发表于 2025-2-24 17:24

这事也想洗地?看你这急不可耐的样,手里囤了不少货吧

destroypeter 发表于 2025-2-24 17:26

zhensunbin0202 发表于 2025-2-24 17:24
这事也想洗地?看你这急不可耐的样,手里囤了不少货吧

你从我哪个字眼里看出来我想洗地了?我只想问我的3060为什么多了那么多ROP单元却没有性能提升,标题引流水点经验咋啦[流汗]

mhmddb 发表于 2025-2-24 17:26

你的意思是,本来你花1000W买个的150平面积的房子,实际测量后,少你10平米。而你的邻居同样价格同样户型是150平的,你觉得不重要呗

destroypeter 发表于 2025-2-24 17:27

mhmddb 发表于 2025-2-24 17:26
你的意思是,本来你花1000W买个的150平面积的房子,实际测量后,少你10平米。而你的邻居同样价格同样户型是 ...

我这个帖子只是想问为什么我的卡ROP单元多出来了却没有提升,我有说5070ti少ROP单元对性能绝对没影响的结论?

Amarillys 发表于 2025-2-24 17:51

本帖最后由 Amarillys 于 2025-2-25 01:16 编辑

怎么说呢,显卡的各个单元肯定都是相辅相成的,但是一般的计算瓶颈都在于cuda。
3060给48个ROPs肯定都是妥妥够用了,一般3060不会计算那么多的数据,48个rops就能处理完,给64个rops肯定很悠闲。
如果有48个ROPs处理不完的数据(比如开4k超高),那么这些数据对3060那点cuda量肯定是更加处理不完,此时瓶颈在cuda上更为明显了,cuda输出的数据很慢很少,48个rops也不会有什么问题。

回到5070ti,5090这些卡上,他们一般都是非常高的帧率或者分辨率,数据量非常高,所以ROPs一般都会跑满了,这时候要是缺ROPs就会造成瓶颈了。
同时我还觉得5090就算不缺那8个ROPs,目前的176个也是偏少的

huhudna 发表于 2025-2-24 17:54

啊对对对,一点也不重要

IamAeon 发表于 2025-2-24 18:05

厌蠢症犯了。

zhensunbin0202 发表于 2025-2-24 18:09

destroypeter 发表于 2025-2-24 17:26
你从我哪个字眼里看出来我想洗地了?我只想问我的3060为什么多了那么多ROP单元却没有性能提升,标题引流 ...

不用装了,大家又不是瞎子,你是不是洗地还能看不出来?你自己看看自己的回帖

8xwob3ko 发表于 2025-2-24 18:16

之前不是有帖子详细分析50系吗,说的5090即使完整规格rop也不够用,瓶颈在这,木桶原理

rSkip 发表于 2025-2-24 18:24

本帖最后由 rSkip 于 2025-2-25 09:53 编辑

以下是我的解读,欢迎讨论。

GA104的3060多了一个GPC,前后端等比例增强,把SM匀一匀,计算能力没变,如果原本前端就不是瓶颈,那么可能性能差距不太明显。从8或10SM对应16ROP变成了6或8SM对应16ROP。各个GPC间的任务分配和性能都还是均匀的。
但是如果真的发生比如5080某个GPC内的16ROP缺了一半的情况,这个GPC就变成了12SM对应8ROP,相当于24SM对应16ROP。对于依赖光栅化的负载,瓶颈可能就很明显了。如果碰到GPU级的同步,这种性能不均衡就会让其他GPC陷入等待。

再整理下数据:
GA104的3060是6或8对应16
GA106的3060是8或10对应16
GB203缺了ROP的那个GPC是12对应8,相当于24对应16。比例差太多了。

——
update:
这里前端指光栅器,后端指rop。光栅器之前还有SM的三角形setup,这里就不细说了。
如果nv的光栅化任务分配不是固定的而是有主动负载均衡的话,感觉丢rop的影响不会这么大,不太应该。

xy. 发表于 2025-2-24 18:43

destroypeter 发表于 2025-2-24 17:26
你从我哪个字眼里看出来我想洗地了?我只想问我的3060为什么多了那么多ROP单元却没有性能提升,标题引流 ...

热知识:chh发言不加经验

panzerlied 发表于 2025-2-24 18:54

Amarillys 发表于 2025-2-24 17:51
怎么说呢,显卡的各个单元肯定都是相辅相成的,但是一般的计算瓶颈都在于cuda。
3060给48个ROPs肯定都是妥 ...

4080S的是5666665,4080只能在这个基础上阉割。

开心就好zzz 发表于 2025-2-24 19:06

5070TI丢失的ROP单元真的有那么重要?

这个标题确实很有误导性,你可以写关于5070ti xxxxx的讨论

你帖子内容给人的感觉,我打个比方就是:

不重要你去把人家的卡收了?

是不是看着很难受。

还有英伟达说回收是应该的,大家喷也是应该的

Amarillys 发表于 2025-2-24 20:13

panzerlied 发表于 2025-2-24 18:54
4080S的是5666665,4080只能在这个基础上阉割。

感谢指正,我确实不太清楚,都是查网上的资料的,4090D好像还查不到

panzerlied 发表于 2025-2-24 20:45

Amarillys 发表于 2025-2-24 20:13
感谢指正,我确实不太清楚,都是查网上的资料的,4090D好像还查不到

不清楚正常。

AD103两侧各有1个TPC未做连线,纯吉祥物。

zerozerone 发表于 2025-2-24 21:50

讲得好,鼓掌,你们聊,路过且不敢发言。

Amarillys 发表于 2025-2-24 22:11

panzerlied 发表于 2025-2-24 20:45
不清楚正常。

AD103两侧各有1个TPC未做连线,纯吉祥物。

23333,原来是这样

faimie6183 发表于 2025-2-24 22:50

你经常跑4k甚至5k游戏吗?
高压条件下rop多才管用

天道太酬勤 发表于 2025-2-24 22:58

destroypeter 发表于 2025-2-24 17:27
我这个帖子只是想问为什么我的卡ROP单元多出来了却没有提升,我有说5070ti少ROP单元对性能绝对没影响的结 ...

反问句表面看来是疑问的形式,但实际上表达的是肯定的意思

chungexcy 发表于 2025-2-24 23:33

本帖最后由 chungexcy 于 2025-2-24 23:34 编辑

性能和功耗强相关。你可以看看你的功耗释放。

按理说你这个是4gpc*8sm的,同频率效率肯定比3gpc*10sm的高。

Sirlion 发表于 2025-2-24 23:39

destroypeter 发表于 2025-2-24 17:27
我这个帖子只是想问为什么我的卡ROP单元多出来了却没有提升,我有说5070ti少ROP单元对性能绝对没影响的结 ...

此地无银三百两,中国人小时候都学过的成语,你不会是老黄的ai水军吧

chungexcy 发表于 2025-2-24 23:43

panzerlied 发表于 2025-2-24 18:54
4080S的是5666665,4080只能在这个基础上阉割。

我看dieshot AD103是6664666

illidanwyz 发表于 2025-2-24 23:57

想抖个机灵奈何智商不够啊+1

LOLI反应堆 发表于 2025-2-25 00:45

Amarillys 发表于 2025-2-24 17:51
怎么说呢,显卡的各个单元肯定都是相辅相成的,但是一般的计算瓶颈都在于cuda。
3060给48个ROPs肯定都是妥 ...

5070   6x4?
页: 1 [2] 3 4 5
查看完整版本: 5070TI丢失的ROP单元真的有那么重要?我家的RTX3060有话要说!