找回密码
 加入我们
搜索
      
查看: 8734|回复: 25

[显卡] 我可能知道为啥4070tis提升不及预期了(包括4090Doge)

[复制链接]
发表于 2024-1-24 09:49 | 显示全部楼层 |阅读模式
本帖最后由 chungexcy 于 2024-1-24 10:11 编辑

4070ti super 有可能是 7GPC 架构,也就是 112ROPs;而非我之前按常识理解的 6GPC 架构,96ROPs。112ROPs这种反常识的数据能出现在评测里,我觉得不能说是完全的空穴来风。

整理了今天出来的一些主流知名评测,ROPs的数据分为两派:

96ROPs:GPU-Z截图,chiphell自家评测,KitGrue,computerbase
112ROPs: PC Perspective, Guru3D,Wikipedia(这个不算,我都能改),Forbes(这个也不算专业评测吧)
最搞笑的是TechPowerUP,正文里写的是96ROPs,而同一页下面的表格里写的是112ROPs 我没找到有什么视频评测里面有提到ROPs的,而且其他引用GPU-z截图的不额外算。



4070tis是66sm,如果是 6GPC 架构,那就是6x11TPC。如果是 7GPC,那就是7x9.4TPC了。

N卡这几代的架构,超过 5GPC,效率就开始下降了,到 7GPC 已经很差了,就GH200那种纯计算卡,也是设计的8GPC x 18TPC规模,不像坑爹的4090/4090D的12GPCx12TPC。
TPC最大到12也不太行了,10以内还行,从11->12就只剩下5%了(4070 super vs 4070ti),但也还有5%,尤其是GPC本身就高的情况。

对比 3060,3060ti 多出了30-33%的性能(3GPCx10TPC->5GPCx8TPC)
对比 3060ti,3070 多出了15%的性能(5GPCx8TPC->6GPCx8TPC)
对比 3080 12GB,3080ti 多了3%的性能(6GPCx12TPC->7GPCx11.4TPC)
对比 3070,3080 12GB 多出了40%的性能(8TPC->12TPC,里面还包括带宽的提升)

假如4070tis从11TPC,减到9.4TPC,性能损失我感觉会比直接砍一组GPC要大得多。


如果以上猜想靠谱的话,那4090D也是一样。4090D现在写的都是176 ROPs,和4090一样

4090    16384sm=11GPCx11.6TPC
4090D 14592sm=11GPCx10.3TPC

反过来如果4090D是阉割了一个GPC,那性能不至于会差7-8%那么多。



老黄的刀法出神入化,不单单指的是他能切出来 3060ti、3080 12G 这么高效的卡,他也可以故意切出低效的卡。相同的CUDA,不同的切法,损失的性能完全不同,成本也不同。

从硅芯片缺陷率来看,找 7 个 9.5/12TPC 的情况,肯定要比找 6 个 11/12TPC 多得多。同样是4090D,11GPC x 10.3/12TPC,也比 10GPC x 11.4/12TPC 容易的多。

我曾经在4070发布前还天真的以为是保留5gpc砍到10TPC ,直到我看到了性能差距
发表于 2024-1-24 10:00 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2024-1-24 10:03 | 显示全部楼层
5gpc有啥用,还不是2k卡
 楼主| 发表于 2024-1-24 10:06 | 显示全部楼层
PolyMorph 发表于 2024-1-24 10:03
5gpc有啥用,还不是2k卡

没有用,但你信不信,4070 ti补齐256bit位宽,性能和4070tis比只会差5%
发表于 2024-1-24 10:20 | 显示全部楼层
有这方面的思考很好啊,只不过4070Ti Super就是6GPC
 楼主| 发表于 2024-1-24 10:25 | 显示全部楼层
panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC

主要是我也不知道GPU-z的那些参数是作者直接写进去的,还是从硬件驱动里直接读出来的
发表于 2024-1-24 10:25 | 显示全部楼层
panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC

还得柯基来拍板
发表于 2024-1-24 10:25 | 显示全部楼层
chungexcy 发表于 2024-1-24 10:06
没有用,但你信不信,4070 ti补齐256bit位宽,性能和4070tis比只会差5%

2070s就是分5 6个gpc的版本
发表于 2024-1-24 10:27 | 显示全部楼层
chungexcy 发表于 2024-1-24 10:25
主要是我也不知道GPU-z的那些参数是作者直接写进去的,还是从硬件驱动里直接读出来的 ...

GPU-Z会读GPC和TPC数量这些东西,然后和一个比例相乘。

跨代架构更新的时候如果用老版本读,就会得出错误的总数,你可以试试看。
发表于 2024-1-24 10:28 | 显示全部楼层
atiufo 发表于 2024-1-24 10:25
还得柯基来拍板

哈哈,都是老黄拍板的。

另外楼主说得对,4090D确实是11GPC。
发表于 2024-1-24 10:37 | 显示全部楼层
{C08EF308-B214-4dcd-89B7-40F5BF4FEB40}.png

官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?
发表于 2024-1-24 10:39 来自手机 | 显示全部楼层
首先AD103的每个GPC里面有6个TPC而不是12个吧,阉割半个TPC这种操作比较少见,我第一时间能想起来的只有2080。。。
都是完整TPC阉割的话4070TiS大概是3GPC*5TPC+3GPC*6TPC?
发表于 2024-1-24 10:41 来自手机 | 显示全部楼层
本帖最后由 PPXG 于 2024-1-24 10:42 编辑
cloud 发表于 2024-1-24 10:37
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?


啊这?

我想到了 GTX970 2MB 64ROPs
发表于 2024-1-24 10:42 | 显示全部楼层
本帖最后由 cloud 于 2024-1-24 11:26 编辑


我在解禁前就跟NV反馈了 评测也写了

https://zhuanlan.zhihu.com/p/678307040
发表于 2024-1-24 10:46 | 显示全部楼层
本帖最后由 PolyMorph 于 2024-1-24 10:51 编辑
panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC


感觉这次l2真成为瓶颈了,对比4080功耗不低,性能跟不上这个功耗
970虽然搞了个224bit,但性能还是OK
发表于 2024-1-24 10:49 来自手机 | 显示全部楼层
黄卡的gpc和rop绑定,还是很好认的啊
 楼主| 发表于 2024-1-24 11:04 | 显示全部楼层
本帖最后由 chungexcy 于 2024-1-24 11:05 编辑
cloud 发表于 2024-1-24 10:37
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?


啊这?

如果真是112不是数据错误,那我觉得应该就是7了,不至于有一个GPC完全没有cuda只有ROPs吧
发表于 2024-1-24 11:07 | 显示全部楼层
妈哒 当时就应该多忍几个月 等到现在才买4070s 原本以为4070破发掉到4000左右已经很香 现在4070s来了一手加量不加价 恨自己没忍住剁手 (虽然早买早享受)
 楼主| 发表于 2024-1-24 11:16 | 显示全部楼层
PPXG 发表于 2024-1-24 10:39
首先AD103的每个GPC里面有6个TPC而不是12个吧,阉割半个TPC这种操作比较少见,我第一时间能想起来的只有208 ...

具体应该是你说的那样切,我只是方便分析才这么说,但我觉得也不妨碍老黄拿4+5+6+6+6+6来卖
发表于 2024-1-24 11:17 | 显示全部楼层
本帖最后由 LambdaDelta 于 2024-1-24 11:35 编辑

所以说了半天,有没有谁送我一块,我帮你测一测?

算了,工具给你们自己测吧。
N卡建议测ZROP,然后除4得到CROP的数量。
直接测CROP数量会比实际的少不少,因为会被分去当PROP。

链接: https://pan.baidu.com/s/147nVCCN48CnnYTcuw4JnMw?pwd=ei4s 提取码: ei4s 复制这段内容后打开百度网盘手机App,操作更方便哦
--来自百度网盘超级会员v9的分享
发表于 2024-1-24 11:23 | 显示全部楼层
紫薯布丁

TS.JPG
 楼主| 发表于 2024-1-24 11:24 | 显示全部楼层
PolyMorph 发表于 2024-1-24 10:46
感觉这次l2真成为瓶颈了,对比4080功耗不低,性能跟不上这个功耗
970虽然搞了个224bit,但性能还是OK ...

也许是这样,当时4080刚出来的时候,有人拿vrchat测试,4080也就比3070ti强20%多点。

vrchat这种非主流游戏渲染分辨率高,就一个3d渲染模拟器,效率还贼低,也没有针对性优化,某种程度上讲说不定跟能反映纯粹的性能差距。
发表于 2024-1-24 11:58 | 显示全部楼层
本帖最后由 PolyMorph 于 2024-1-24 12:05 编辑

这次ti super真的刀翻车了,比不过历史同期的2070s,很接近2080,这个差4080太多
后缀越多不是应该越背刺4080?


也许4k守门员就是4080,ti super只踏了一只脚
发表于 2024-1-24 12:17 | 显示全部楼层
先不说柯基拍板。按妳这套理论,4080的效率只会比ti super更低,最高也是持平,如果4080的效率高于ti super,那就不是7GPC的锅。
发表于 2024-1-24 12:21 | 显示全部楼层
HaYuanJi 发表于 2024-1-24 10:00
40系唯一高效的卡:4070 Super

4060不服
 楼主| 发表于 2024-1-24 13:13 | 显示全部楼层
本帖最后由 chungexcy 于 2024-1-24 13:24 编辑
LOLI反应堆 发表于 2024-1-24 12:17
先不说柯基拍板。按妳这套理论,4080的效率只会比ti super更低,最高也是持平,如果4080的效率高于ti super ...


现在来看,按cuda算效率确实持平4080啊,本来我的预计是只差4080的10%。

所以我怀疑4070tis故意不按更合理的方式切。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 19:20 , Processed in 0.014237 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表