chungexcy 发表于 2024-1-24 09:49

我可能知道为啥4070tis提升不及预期了(包括4090Doge)

本帖最后由 chungexcy 于 2024-1-24 10:11 编辑

4070ti super 有可能是 7GPC 架构,也就是 112ROPs;而非我之前按常识理解的 6GPC 架构,96ROPs。112ROPs这种反常识的数据能出现在评测里,我觉得不能说是完全的空穴来风。

整理了今天出来的一些主流知名评测,ROPs的数据分为两派:

96ROPs:GPU-Z截图,chiphell自家评测,KitGrue,computerbase
112ROPs: PC Perspective, Guru3D,Wikipedia(这个不算,我都能改),Forbes(这个也不算专业评测吧)
最搞笑的是TechPowerUP,正文里写的是96ROPs,而同一页下面的表格里写的是112ROPs[睡觉] 我没找到有什么视频评测里面有提到ROPs的,而且其他引用GPU-z截图的不额外算。



4070tis是66sm,如果是 6GPC 架构,那就是6x11TPC。如果是 7GPC,那就是7x9.4TPC了。

N卡这几代的架构,超过 5GPC,效率就开始下降了,到 7GPC 已经很差了,就GH200那种纯计算卡,也是设计的8GPC x 18TPC规模,不像坑爹的4090/4090D的12GPCx12TPC。
TPC最大到12也不太行了,10以内还行,从11->12就只剩下5%了(4070 super vs 4070ti),但也还有5%,尤其是GPC本身就高的情况。

对比 3060,3060ti 多出了30-33%的性能(3GPCx10TPC->5GPCx8TPC)
对比 3060ti,3070 多出了15%的性能(5GPCx8TPC->6GPCx8TPC)
对比 3080 12GB,3080ti 多了3%的性能(6GPCx12TPC->7GPCx11.4TPC)
对比 3070,3080 12GB 多出了40%的性能(8TPC->12TPC,里面还包括带宽的提升)

假如4070tis从11TPC,减到9.4TPC,性能损失我感觉会比直接砍一组GPC要大得多。


如果以上猜想靠谱的话,那4090D也是一样。4090D现在写的都是176 ROPs,和4090一样

4090    16384sm=11GPCx11.6TPC
4090D 14592sm=11GPCx10.3TPC

反过来如果4090D是阉割了一个GPC,那性能不至于会差7-8%那么多。



老黄的刀法出神入化,不单单指的是他能切出来 3060ti、3080 12G 这么高效的卡,他也可以故意切出低效的卡。相同的CUDA,不同的切法,损失的性能完全不同,成本也不同。

从硅芯片缺陷率来看,找 7 个 9.5/12TPC 的情况,肯定要比找 6 个 11/12TPC 多得多。同样是4090D,11GPC x 10.3/12TPC,也比 10GPC x 11.4/12TPC 容易的多。

我曾经在4070发布前还天真的以为是保留5gpc砍到10TPC[偷笑] ,直到我看到了性能差距[再见]

HaYuanJi 发表于 2024-1-24 10:00

PolyMorph 发表于 2024-1-24 10:03

5gpc有啥用,还不是2k卡

chungexcy 发表于 2024-1-24 10:06

PolyMorph 发表于 2024-1-24 10:03
5gpc有啥用,还不是2k卡

没有用,但你信不信,4070 ti补齐256bit位宽,性能和4070tis比只会差5%[偷笑]

panzerlied 发表于 2024-1-24 10:20

有这方面的思考很好啊,只不过4070Ti Super就是6GPC

chungexcy 发表于 2024-1-24 10:25

panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC

主要是我也不知道GPU-z的那些参数是作者直接写进去的,还是从硬件驱动里直接读出来的[睡觉]

atiufo 发表于 2024-1-24 10:25

panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC

还得柯基来拍板[恶魔]

PolyMorph 发表于 2024-1-24 10:25

chungexcy 发表于 2024-1-24 10:06
没有用,但你信不信,4070 ti补齐256bit位宽,性能和4070tis比只会差5%

2070s就是分5 6个gpc的版本

panzerlied 发表于 2024-1-24 10:27

chungexcy 发表于 2024-1-24 10:25
主要是我也不知道GPU-z的那些参数是作者直接写进去的,还是从硬件驱动里直接读出来的 ...

GPU-Z会读GPC和TPC数量这些东西,然后和一个比例相乘。

跨代架构更新的时候如果用老版本读,就会得出错误的总数,你可以试试看。

panzerlied 发表于 2024-1-24 10:28

atiufo 发表于 2024-1-24 10:25
还得柯基来拍板

哈哈,都是老黄拍板的。

另外楼主说得对,4090D确实是11GPC。

cloud 发表于 2024-1-24 10:37



官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?

PPXG 发表于 2024-1-24 10:39

首先AD103的每个GPC里面有6个TPC而不是12个吧,阉割半个TPC这种操作比较少见,我第一时间能想起来的只有2080。。。
都是完整TPC阉割的话4070TiS大概是3GPC*5TPC+3GPC*6TPC?

PPXG 发表于 2024-1-24 10:41

本帖最后由 PPXG 于 2024-1-24 10:42 编辑

cloud 发表于 2024-1-24 10:37
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?

啊这?

我想到了 GTX970 2MB 64ROPs[偷笑]

cloud 发表于 2024-1-24 10:42

本帖最后由 cloud 于 2024-1-24 11:26 编辑

PPXG 发表于 2024-1-24 10:41
啊这?

我在解禁前就跟NV反馈了 评测也写了

https://zhuanlan.zhihu.com/p/678307040

PolyMorph 发表于 2024-1-24 10:46

本帖最后由 PolyMorph 于 2024-1-24 10:51 编辑

panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC

感觉这次l2真成为瓶颈了,对比4080功耗不低,性能跟不上这个功耗
970虽然搞了个224bit,但性能还是OK

aibo 发表于 2024-1-24 10:49

黄卡的gpc和rop绑定,还是很好认的啊

chungexcy 发表于 2024-1-24 11:04

本帖最后由 chungexcy 于 2024-1-24 11:05 编辑

cloud 发表于 2024-1-24 10:37
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?

啊这?

如果真是112不是数据错误,那我觉得应该就是7了,不至于有一个GPC完全没有cuda只有ROPs吧

Autotypezzzz 发表于 2024-1-24 11:07

妈哒 当时就应该多忍几个月 等到现在才买4070s 原本以为4070破发掉到4000左右已经很香 现在4070s来了一手加量不加价 恨自己没忍住剁手 (虽然早买早享受)

chungexcy 发表于 2024-1-24 11:16

PPXG 发表于 2024-1-24 10:39
首先AD103的每个GPC里面有6个TPC而不是12个吧,阉割半个TPC这种操作比较少见,我第一时间能想起来的只有208 ...

具体应该是你说的那样切,我只是方便分析才这么说,但我觉得也不妨碍老黄拿4+5+6+6+6+6来卖

LambdaDelta 发表于 2024-1-24 11:17

本帖最后由 LambdaDelta 于 2024-1-24 11:35 编辑

所以说了半天,有没有谁送我一块,我帮你测一测?

算了,工具给你们自己测吧。
N卡建议测ZROP,然后除4得到CROP的数量。
直接测CROP数量会比实际的少不少,因为会被分去当PROP。

链接: https://pan.baidu.com/s/147nVCCN48CnnYTcuw4JnMw?pwd=ei4s 提取码: ei4s 复制这段内容后打开百度网盘手机App,操作更方便哦
--来自百度网盘超级会员v9的分享

arbicool 发表于 2024-1-24 11:23

紫薯布丁

chungexcy 发表于 2024-1-24 11:24

PolyMorph 发表于 2024-1-24 10:46
感觉这次l2真成为瓶颈了,对比4080功耗不低,性能跟不上这个功耗
970虽然搞了个224bit,但性能还是OK ...

也许是这样,当时4080刚出来的时候,有人拿vrchat测试,4080也就比3070ti强20%多点。

vrchat这种非主流游戏渲染分辨率高,就一个3d渲染模拟器,效率还贼低,也没有针对性优化,某种程度上讲说不定跟能反映纯粹的性能差距。

PolyMorph 发表于 2024-1-24 11:58

本帖最后由 PolyMorph 于 2024-1-24 12:05 编辑

这次ti super真的刀翻车了,比不过历史同期的2070s,很接近2080,这个差4080太多
后缀越多不是应该越背刺4080?


也许4k守门员就是4080,ti super只踏了一只脚

LOLI反应堆 发表于 2024-1-24 12:17

先不说柯基拍板。按妳这套理论,4080的效率只会比ti super更低,最高也是持平,如果4080的效率高于ti super,那就不是7GPC的锅。

LOLI反应堆 发表于 2024-1-24 12:21

HaYuanJi 发表于 2024-1-24 10:00
40系唯一高效的卡:4070 Super

4060不服[恶魔]

chungexcy 发表于 2024-1-24 13:13

本帖最后由 chungexcy 于 2024-1-24 13:24 编辑

LOLI反应堆 发表于 2024-1-24 12:17
先不说柯基拍板。按妳这套理论,4080的效率只会比ti super更低,最高也是持平,如果4080的效率高于ti super ...

现在来看,按cuda算效率确实持平4080啊,本来我的预计是只差4080的10%。

所以我怀疑4070tis故意不按更合理的方式切。
页: [1]
查看完整版本: 我可能知道为啥4070tis提升不及预期了(包括4090Doge)