我可能知道为啥4070tis提升不及预期了（包括4090Doge）

chungexcy 发表于 2024-1-24 09:49

本帖最后由 chungexcy 于 2024-1-24 10:11 编辑

4070ti super 有可能是 7GPC 架构，也就是 112ROPs；而非我之前按常识理解的 6GPC 架构，96ROPs。112ROPs这种反常识的数据能出现在评测里，我觉得不能说是完全的空穴来风。

整理了今天出来的一些主流知名评测，ROPs的数据分为两派：

96ROPs：GPU-Z截图，chiphell自家评测，KitGrue，computerbase
112ROPs： PC Perspective， Guru3D，Wikipedia（这个不算，我都能改），Forbes（这个也不算专业评测吧）
最搞笑的是TechPowerUP，正文里写的是96ROPs，而同一页下面的表格里写的是112ROPs[睡觉] 我没找到有什么视频评测里面有提到ROPs的，而且其他引用GPU-z截图的不额外算。

4070tis是66sm，如果是 6GPC 架构，那就是6x11TPC。如果是 7GPC，那就是7x9.4TPC了。

N卡这几代的架构，超过 5GPC，效率就开始下降了，到 7GPC 已经很差了，就GH200那种纯计算卡，也是设计的8GPC x 18TPC规模，不像坑爹的4090/4090D的12GPCx12TPC。
TPC最大到12也不太行了，10以内还行，从11->12就只剩下5%了(4070 super vs 4070ti)，但也还有5%，尤其是GPC本身就高的情况。

对比 3060，3060ti 多出了30-33%的性能（3GPCx10TPC->5GPCx8TPC)
对比 3060ti，3070 多出了15%的性能（5GPCx8TPC->6GPCx8TPC)
对比 3080 12GB，3080ti 多了3%的性能（6GPCx12TPC->7GPCx11.4TPC）
对比 3070，3080 12GB 多出了40%的性能（8TPC->12TPC，里面还包括带宽的提升)

假如4070tis从11TPC，减到9.4TPC，性能损失我感觉会比直接砍一组GPC要大得多。

如果以上猜想靠谱的话，那4090D也是一样。4090D现在写的都是176 ROPs，和4090一样

4090 16384sm=11GPCx11.6TPC
4090D 14592sm=11GPCx10.3TPC

反过来如果4090D是阉割了一个GPC，那性能不至于会差7-8%那么多。

老黄的刀法出神入化，不单单指的是他能切出来 3060ti、3080 12G 这么高效的卡，他也可以故意切出低效的卡。相同的CUDA，不同的切法，损失的性能完全不同，成本也不同。

从硅芯片缺陷率来看，找 7 个 9.5/12TPC 的情况，肯定要比找 6 个 11/12TPC 多得多。同样是4090D，11GPC x 10.3/12TPC，也比 10GPC x 11.4/12TPC 容易的多。

我曾经在4070发布前还天真的以为是保留5gpc砍到10TPC[偷笑] ，直到我看到了性能差距[再见]

HaYuanJi 发表于 2024-1-24 10:00

PolyMorph 发表于 2024-1-24 10:03

5gpc有啥用，还不是2k卡

chungexcy 发表于 2024-1-24 10:06

PolyMorph 发表于 2024-1-24 10:03
5gpc有啥用，还不是2k卡

没有用，但你信不信，4070 ti补齐256bit位宽，性能和4070tis比只会差5%[偷笑]

panzerlied 发表于 2024-1-24 10:20

chungexcy 发表于 2024-1-24 10:25

panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊，只不过4070Ti Super就是6GPC

主要是我也不知道GPU-z的那些参数是作者直接写进去的，还是从硬件驱动里直接读出来的[睡觉]

atiufo 发表于 2024-1-24 10:25

panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊，只不过4070Ti Super就是6GPC

还得柯基来拍板[恶魔]

PolyMorph 发表于 2024-1-24 10:25

chungexcy 发表于 2024-1-24 10:06
没有用，但你信不信，4070 ti补齐256bit位宽，性能和4070tis比只会差5%

2070s就是分5 6个gpc的版本

panzerlied 发表于 2024-1-24 10:27

panzerlied 发表于 2024-1-24 10:28

cloud 发表于 2024-1-24 10:37

官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?

PPXG 发表于 2024-1-24 10:39

首先AD103的每个GPC里面有6个TPC而不是12个吧，阉割半个TPC这种操作比较少见，我第一时间能想起来的只有2080。。。
都是完整TPC阉割的话4070TiS大概是3GPC*5TPC+3GPC*6TPC？

PPXG 发表于 2024-1-24 10:41

本帖最后由 PPXG 于 2024-1-24 10:42 编辑

cloud 发表于 2024-1-24 10:37
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?

啊这？

我想到了 GTX970 2MB 64ROPs[偷笑]

cloud 发表于 2024-1-24 10:42

本帖最后由 cloud 于 2024-1-24 11:26 编辑

PPXG 发表于 2024-1-24 10:41
啊这？

我在解禁前就跟NV反馈了评测也写了

https://zhuanlan.zhihu.com/p/678307040

PolyMorph 发表于 2024-1-24 10:46

本帖最后由 PolyMorph 于 2024-1-24 10:51 编辑

panzerlied 发表于 2024-1-24 10:20
有这方面的思考很好啊，只不过4070Ti Super就是6GPC

感觉这次l2真成为瓶颈了，对比4080功耗不低，性能跟不上这个功耗
970虽然搞了个224bit，但性能还是OK

aibo 发表于 2024-1-24 10:49

黄卡的gpc和rop绑定，还是很好认的啊

chungexcy 发表于 2024-1-24 11:04

本帖最后由 chungexcy 于 2024-1-24 11:05 编辑

cloud 发表于 2024-1-24 10:37
官方评测指南是112 rop 但写的6 gpc 你觉得是6个还是7个?

啊这？

如果真是112不是数据错误，那我觉得应该就是7了，不至于有一个GPC完全没有cuda只有ROPs吧

Autotypezzzz 发表于 2024-1-24 11:07

妈哒当时就应该多忍几个月等到现在才买4070s 原本以为4070破发掉到4000左右已经很香现在4070s来了一手加量不加价恨自己没忍住剁手（虽然早买早享受）

chungexcy 发表于 2024-1-24 11:16

PPXG 发表于 2024-1-24 10:39
首先AD103的每个GPC里面有6个TPC而不是12个吧，阉割半个TPC这种操作比较少见，我第一时间能想起来的只有208 ...

具体应该是你说的那样切，我只是方便分析才这么说，但我觉得也不妨碍老黄拿4+5+6+6+6+6来卖

LambdaDelta 发表于 2024-1-24 11:17

本帖最后由 LambdaDelta 于 2024-1-24 11:35 编辑

所以说了半天，有没有谁送我一块，我帮你测一测？

算了，工具给你们自己测吧。
N卡建议测ZROP，然后除4得到CROP的数量。
直接测CROP数量会比实际的少不少，因为会被分去当PROP。

链接: https://pan.baidu.com/s/147nVCCN48CnnYTcuw4JnMw?pwd=ei4s 提取码: ei4s 复制这段内容后打开百度网盘手机App，操作更方便哦
--来自百度网盘超级会员v9的分享

arbicool 发表于 2024-1-24 11:23

紫薯布丁

chungexcy 发表于 2024-1-24 11:24

PolyMorph 发表于 2024-1-24 10:46
感觉这次l2真成为瓶颈了，对比4080功耗不低，性能跟不上这个功耗
970虽然搞了个224bit，但性能还是OK ...

也许是这样，当时4080刚出来的时候，有人拿vrchat测试，4080也就比3070ti强20%多点。

vrchat这种非主流游戏渲染分辨率高，就一个3d渲染模拟器，效率还贼低，也没有针对性优化，某种程度上讲说不定跟能反映纯粹的性能差距。

PolyMorph 发表于 2024-1-24 11:58

本帖最后由 PolyMorph 于 2024-1-24 12:05 编辑

这次ti super真的刀翻车了，比不过历史同期的2070s，很接近2080，这个差4080太多
后缀越多不是应该越背刺4080？

也许4k守门员就是4080，ti super只踏了一只脚

LOLI反应堆 发表于 2024-1-24 12:17

先不说柯基拍板。按妳这套理论，4080的效率只会比ti super更低，最高也是持平，如果4080的效率高于ti super，那就不是7GPC的锅。

LOLI反应堆 发表于 2024-1-24 12:21

HaYuanJi 发表于 2024-1-24 10:00
40系唯一高效的卡：4070 Super

4060不服[恶魔]

chungexcy 发表于 2024-1-24 13:13

本帖最后由 chungexcy 于 2024-1-24 13:24 编辑

LOLI反应堆发表于 2024-1-24 12:17
先不说柯基拍板。按妳这套理论，4080的效率只会比ti super更低，最高也是持平，如果4080的效率高于ti super ...

现在来看，按cuda算效率确实持平4080啊，本来我的预计是只差4080的10%。

所以我怀疑4070tis故意不按更合理的方式切。

页: [1]

Chiphell - 分享与交流用户体验's Archiver

我可能知道为啥4070tis提升不及预期了（包括4090Doge）