我可能知道为啥4070tis提升不及预期了(包括4090Doge)
本帖最后由 chungexcy 于 2024-1-24 10:11 编辑4070ti super 有可能是 7GPC 架构,也就是 112ROPs;而非我之前按常识理解的 6GPC 架构,96ROPs。112ROPs这种反常识的数据能出现在评测里,我觉得不能说是完全的空穴来风。
整理了今天出来的一些主流知名评测,ROPs的数据分为两派:
96ROPs:GPU-Z截图,chiphell自家评测,KitGrue,computerbase
112ROPs: PC Perspective, Guru3D,Wikipedia(这个不算,我都能改),Forbes(这个也不算专业评测吧)
最搞笑的是TechPowerUP,正文里写的是96ROPs,而同一页下面的表格里写的是112ROPs[睡觉] 我没找到有什么视频评测里面有提到ROPs的,而且其他引用GPU-z截图的不额外算。
4070tis是66sm,如果是 6GPC 架构,那就是6x11TPC。如果是 7GPC,那就是7x9.4TPC了。
N卡这几代的架构,超过 5GPC,效率就开始下降了,到 7GPC 已经很差了,就GH200那种纯计算卡,也是设计的8GPC x 18TPC规模,不像坑爹的4090/4090D的12GPCx12TPC。
TPC最大到12也不太行了,10以内还行,从11->12就只剩下5%了(4070 super vs 4070ti),但也还有5%,尤其是GPC本身就高的情况。
对比 3060,3060ti 多出了30-33%的性能(3GPCx10TPC->5GPCx8TPC)
对比 3060ti,3070 多出了15%的性能(5GPCx8TPC->6GPCx8TPC)
对比 3080 12GB,3080ti 多了3%的性能(6GPCx12TPC->7GPCx11.4TPC)
对比 3070,3080 12GB 多出了40%的性能(8TPC->12TPC,里面还包括带宽的提升)
假如4070tis从11TPC,减到9.4TPC,性能损失我感觉会比直接砍一组GPC要大得多。
如果以上猜想靠谱的话,那4090D也是一样。4090D现在写的都是176 ROPs,和4090一样
4090 16384sm=11GPCx11.6TPC
4090D 14592sm=11GPCx10.3TPC
反过来如果4090D是阉割了一个GPC,那性能不至于会差7-8%那么多。
老黄的刀法出神入化,不单单指的是他能切出来 3060ti、3080 12G 这么高效的卡,他也可以故意切出低效的卡。相同的CUDA,不同的切法,损失的性能完全不同,成本也不同。
从硅芯片缺陷率来看,找 7 个 9.5/12TPC 的情况,肯定要比找 6 个 11/12TPC 多得多。同样是4090D,11GPC x 10.3/12TPC,也比 10GPC x 11.4/12TPC 容易的多。
我曾经在4070发布前还天真的以为是保留5gpc砍到10TPC[偷笑] ,直到我看到了性能差距[再见] 5gpc有啥用,还不是2k卡 PolyMorph 发表于 2024-1-24 10:03
5gpc有啥用,还不是2k卡
没有用,但你信不信,4070 ti补齐256bit位宽,性能和4070tis比只会差5%[偷笑] 有这方面的思考很好啊,只不过4070Ti Super就是6GPC panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC
主要是我也不知道GPU-z的那些参数是作者直接写进去的,还是从硬件驱动里直接读出来的[睡觉] panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC
还得柯基来拍板[恶魔] chungexcy 发表于 2024-1-24 10:06
没有用,但你信不信,4070 ti补齐256bit位宽,性能和4070tis比只会差5%
2070s就是分5 6个gpc的版本 chungexcy 发表于 2024-1-24 10:25
主要是我也不知道GPU-z的那些参数是作者直接写进去的,还是从硬件驱动里直接读出来的 ...
GPU-Z会读GPC和TPC数量这些东西,然后和一个比例相乘。
跨代架构更新的时候如果用老版本读,就会得出错误的总数,你可以试试看。 atiufo 发表于 2024-1-24 10:25
还得柯基来拍板
哈哈,都是老黄拍板的。
另外楼主说得对,4090D确实是11GPC。
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个? 首先AD103的每个GPC里面有6个TPC而不是12个吧,阉割半个TPC这种操作比较少见,我第一时间能想起来的只有2080。。。
都是完整TPC阉割的话4070TiS大概是3GPC*5TPC+3GPC*6TPC? 本帖最后由 PPXG 于 2024-1-24 10:42 编辑
cloud 发表于 2024-1-24 10:37
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?
啊这?
我想到了 GTX970 2MB 64ROPs[偷笑] 本帖最后由 cloud 于 2024-1-24 11:26 编辑
PPXG 发表于 2024-1-24 10:41
啊这?
我在解禁前就跟NV反馈了 评测也写了
https://zhuanlan.zhihu.com/p/678307040 本帖最后由 PolyMorph 于 2024-1-24 10:51 编辑
panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊,只不过4070Ti Super就是6GPC
感觉这次l2真成为瓶颈了,对比4080功耗不低,性能跟不上这个功耗
970虽然搞了个224bit,但性能还是OK 黄卡的gpc和rop绑定,还是很好认的啊 本帖最后由 chungexcy 于 2024-1-24 11:05 编辑
cloud 发表于 2024-1-24 10:37
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?
啊这?
如果真是112不是数据错误,那我觉得应该就是7了,不至于有一个GPC完全没有cuda只有ROPs吧 妈哒 当时就应该多忍几个月 等到现在才买4070s 原本以为4070破发掉到4000左右已经很香 现在4070s来了一手加量不加价 恨自己没忍住剁手 (虽然早买早享受) PPXG 发表于 2024-1-24 10:39
首先AD103的每个GPC里面有6个TPC而不是12个吧,阉割半个TPC这种操作比较少见,我第一时间能想起来的只有208 ...
具体应该是你说的那样切,我只是方便分析才这么说,但我觉得也不妨碍老黄拿4+5+6+6+6+6来卖 本帖最后由 LambdaDelta 于 2024-1-24 11:35 编辑
所以说了半天,有没有谁送我一块,我帮你测一测?
算了,工具给你们自己测吧。
N卡建议测ZROP,然后除4得到CROP的数量。
直接测CROP数量会比实际的少不少,因为会被分去当PROP。
链接: https://pan.baidu.com/s/147nVCCN48CnnYTcuw4JnMw?pwd=ei4s 提取码: ei4s 复制这段内容后打开百度网盘手机App,操作更方便哦
--来自百度网盘超级会员v9的分享 紫薯布丁
PolyMorph 发表于 2024-1-24 10:46
感觉这次l2真成为瓶颈了,对比4080功耗不低,性能跟不上这个功耗
970虽然搞了个224bit,但性能还是OK ...
也许是这样,当时4080刚出来的时候,有人拿vrchat测试,4080也就比3070ti强20%多点。
vrchat这种非主流游戏渲染分辨率高,就一个3d渲染模拟器,效率还贼低,也没有针对性优化,某种程度上讲说不定跟能反映纯粹的性能差距。 本帖最后由 PolyMorph 于 2024-1-24 12:05 编辑
这次ti super真的刀翻车了,比不过历史同期的2070s,很接近2080,这个差4080太多
后缀越多不是应该越背刺4080?
也许4k守门员就是4080,ti super只踏了一只脚 先不说柯基拍板。按妳这套理论,4080的效率只会比ti super更低,最高也是持平,如果4080的效率高于ti super,那就不是7GPC的锅。 HaYuanJi 发表于 2024-1-24 10:00
40系唯一高效的卡:4070 Super
4060不服[恶魔] 本帖最后由 chungexcy 于 2024-1-24 13:24 编辑
LOLI反应堆 发表于 2024-1-24 12:17
先不说柯基拍板。按妳这套理论,4080的效率只会比ti super更低,最高也是持平,如果4080的效率高于ti super ...
现在来看,按cuda算效率确实持平4080啊,本来我的预计是只差4080的10%。
所以我怀疑4070tis故意不按更合理的方式切。
页:
[1]