Chiphell - 分享与交流用户体验

 找回密码
 加入我们
搜索
      
查看: 6750|回复: 53

[显卡] 两极反转,这代A卡架构和性能上取得了一定优势

[复制链接]
发表于 2020-10-31 07:55 | 显示全部楼层 |阅读模式
AMD2K.jpg
AMD4K.jpg
有点13年下半年R9 290X/290战胜GTX780/GTX Titan,逼得NVIDIA推出完整版GK110的GTX780TI/GTX Titan Black的味道了。
按照目前的情况看NV的应对策略是取消华而不实的RTX3080 20GB/RTX3070 TI(GA104)/RTX3070 16GB,
把RTX3090小割一刀,显存取消双贴推RTX3080TI,RTX3080再阉一刀推RTX3070TI(GA102一个GPU三个子型号,上次是GF100/GT200/G92/G80年代的事情)
然而这似乎还不够,一定幅度的降价肯定是免不了的了。
理想情况下NV可能得把RTX3090升级成完整版GA102,RTX3080TI维持RTX3090当前的规模,RTX3070换成完整版GA104,除此之外还要放开TGP限制。
中期解决方案是换成TSMC N7,当年G92/GT200曾经换过制程并引入第二家代工厂(UMC),但是需要花费接近一年的时间
发表于 2020-10-31 08:14 | 显示全部楼层
不会,等着买老黄卡的人多的是,不可能降价。
发表于 2020-10-31 08:29 来自手机 | 显示全部楼层
本帖最后由 天空与大地之兽 于 2020-10-31 08:31 编辑

可能的办法是同样紧急开sam,反正是个软件特性,然后出3080ti,塞钱强化光追……大概这么几招
另外,真换n7应该不用这么久,本身就有适配n7的方案,sb老黄嫌贵……
发表于 2020-10-31 08:38 | 显示全部楼层
本帖最后由 我輩樹である 于 2020-10-31 11:11 编辑

一切都要等卡出来后才能下定论。但老黄现在牌还有一大把。

3090已经82sm了,升级84完整版性能提升不大 ,对良率要求却高了很多,有84sm的直接拿来做quadro不香么。所以这个应该不会。

首先是feature上的问题,当然我认为N、A(包括主机)两家这代在feature是类似的,N反倒落后一个英菲尼迪缓存,其他都只是强度的差距,而非你有我无。

那么N可以打的牌:光追,dlss,这两个指标现在已经不仅仅停留在媒体的春秋笔法上了,有实打实的惠及玩家。特别是下代主机普及后,这些特性都是有点追求游戏的标准配置了。

A这边也有可能牛逼吹过了,英菲尼迪缓存sam也应该会有游戏适配的问题,发布会只是最好的表现。

当所有这些牌打完了,N可能才会考虑花钱更新产品线。

不出意外的话,A卡出来后会有铺天盖地的“评测”开着各种光追dlss和A卡对线。

评分

参与人数 1邪恶指数 +11 收起 理由
wesleyxy + 11 666,确属会有"评测"开着各种光追dlss和A卡.

查看全部评分

发表于 2020-10-31 08:41 | 显示全部楼层
皮衣黄生态优势某种程度上来说确实比当时intel对amd还要好点,指望他这么良心怕是不容易

希望酥麻保持这个势头吧
发表于 2020-10-31 08:43 | 显示全部楼层
本帖最后由 我輩樹である 于 2020-10-31 08:46 编辑

N卡拥有几乎翻倍于竞争对手的单精度浮点能力,图像性能却和对方有来有回,还被对方占据了高地。

问题是N卡以前是以浮点转换能力强于A卡为傲的,现在一下高反差反转,你做的不是计算卡啊。。

但这里是否还有优化的空间呢,也是个可以期待的问题。

从历史规律总结来看,显卡就是谁越专一谁就要占优一些。以前是GCN三心二意,现在是ampere三心二意(ga102之所以要三心二意,我的猜测是ga100彻底变成强化tensorcore运行矩阵指令的gpu了,但在科学计算领域,还有大量算法仍然使用向量指令,这样老黄就出一个ga102,强化翻倍fp32,专攻向量指令,两手抓两手都要硬,当然游戏玩家买单,美滋滋),苦果子大家都要吃,谁也跑不了。
发表于 2020-10-31 08:49 | 显示全部楼层
----不出意外的话,A卡出来后会有铺天盖地的“评测”开着各种光追dlss和A卡对线----
这结果是肯定的,所以该买N卡的去买,A卡留给我,和我等。。不要抢
发表于 2020-10-31 09:13 | 显示全部楼层
我还以为第三方评测出来,原来还是AMD的PPT重制
发表于 2020-10-31 09:25 来自手机 | 显示全部楼层
真要原架构花一年时间从三星迁移到台漏电     navi31都出来了
发表于 2020-10-31 09:25 来自手机 | 显示全部楼层
换代工厂还要重新流片、验证,要花不少钱呢。不如学学牙膏厂,投30亿广告费,抓着光追和大力水手死吹。
发表于 2020-10-31 10:14 | 显示全部楼层
换制程没那么容易,DRC什么的都要重做。几百亿晶体管,光是验证就要跑很久。验证、debug完了只是能用。
如果要提升性能,还要针对不同的晶体管特性重新仿真各个模块的电压-频率关系,甚至可能要微调晶体管尺寸,这个工程量实在巨大,难以想象。

Zen和Zen+没做那么多工作,才能加快迭代节奏,代价就是没法整体取得12nm的提升。
发表于 2020-10-31 10:18 | 显示全部楼层
本帖最后由 路西法大大 于 2020-10-31 10:20 编辑

华人就是善于学习别人的优点并搞出自己的独门配方,这届大NAVI就相当于是吸收了图灵所有独门技术后再加上自家缓存新技术后的大成之作。当然我猜到了下一代老黄也会反过来吸收大NAVI上面的每个优势技术来勃起一波......顺带一说the king这种就是典型的三哥属于又菜又拉不下面子向对手学习的万年菜逼。
发表于 2020-10-31 10:21 来自手机 | 显示全部楼层
扯淡,G92什么时候换过UMC
发表于 2020-10-31 10:22 来自手机 | 显示全部楼层
上一次UMC代工GPU还是9550呢,因为台积电产不过来
 楼主| 发表于 2020-10-31 10:24 | 显示全部楼层
天空与大地之兽 发表于 2020-10-31 08:29
可能的办法是同样紧急开sam,反正是个软件特性,然后出3080ti,塞钱强化光追……大概这么几招
另外,真换n7 ...

选择先进工艺还是成熟工艺是一个策略问题,不同的选择意味着不同的频率、密度、良率、成本
7nm之前选择先进工艺基一直是最优选,只要别在良率太低的时候急着上大芯片当小白鼠就行,
原因也简单,7nm之前每一整代工艺进步都能带来可观的频率和密度提升,平摊后的成本增长却不是很显著,甚至由于密度提升面积缩小还能降一点成本
GPU的性能基本可以等效于 频率*规模*效率(架构效率)
每一代工艺通过后续改进良率和频率都会获得提升,通过深入挖掘密度也会略有上涨(甚至单独作为“半代节点”,比如12nm/8nm)
当时GPU上先进工艺也很激进,基本是抢着用,吃了几次良率的亏之后A/N都开始先用小芯片试水(GT215/RV740)

7nm开始情况发生了显著的变化,一方面先进工艺的频率提升收益显著减小,另一方面成本明显增加。
表格里面记录了A/N两家各代旗舰GPU的工艺/频率变化情况
  GPU
  
  G80
  
  G92
  
  GT200A2
  
  GT200B3
  
  GF100
  
  GF110
  
  工艺nm
  
  90
  
  65
  
  65
  
  55(65+)
  
  40
  
  40
  
  主频MHZ
  
  612
  
  650
  
  602
  
  648
  
  700
  
  772
  
  增长
  
  N/A
  
  6%
  
  -7%
  
  8%
  
  8%
  
  10%
  
  GPU
  
  GK110A1
  
  GK110B1
  
  GM200
  
  GP102
  
  TU102
  
  GA102
  
  工艺nm
  
  28
  
  28
  
  28
  
  16
  
  12(16+)
  
  8(10+)
  
  主频MHZ
  
  993
  
  1058
  
  1075
  
  1531
  
  1770
  
  1700
  
  增长
  
  29%
  
  7%
  
  2%
  
  42%
  
  16%
  
  -4%
  
  GPU
  
  R600
  
  RV670
  
  RV770
  
  Cypress
  
  Cayman
  
  Tahiti
  
  工艺nm
  
  80(90+)
  
  55(65+)
  
  55(65+)
  
  40
  
  40
  
  28
  
  主频MHZ
  
  743
  
  777
  
  750
  
  850
  
  880
  
  925
  
  增长
  
  N/A
  
  5%
  
  -3%
  
  13%
  
  4%
  
  5%
  
  GPU
  
  Hawaii
  
  Fiji
  
  Vega10
  
  Vega20
  
  NAVI21
  
   
  
  工艺nm
  
  28
  
  28
  
  14
  
  7
  
  7
  
   
  
  主频MHZ
  
  1000
  
  1050
  
  1546
  
  1750
  
  2250 
  
   
  
  增长
  
  8%
  
  5%
  
  47%
  
  13%
  
  29% 
  
   
  

*所有频率均取最早发布时最高单芯片型号的频率,如果存在boost频率则取boost

可以看到90nm-55nm这一段工艺进步带来的频率提升还比较少,甚至会因为芯片规模增大反而频率降低的情况。
从40nm开始收益越来越高,而且每一代工艺后续挖掘的潜力也不小,16/14nm这个节点提升最大,而从10nm(8nm实际上基于10nm)开始收益急剧减小。
而且还有一个特点是先进工艺深度挖掘的潜力依然很大,16nm的改进版12nm在TU102上频率提升了16%,Vega20相对Vega10工艺提升了两代(中间隔着一个10nm),
频率提升只有区区13%,到了NAVI21依然是7nm(可能从N7升级到N7P)却提升了29%(其中一部分是放弃HBM显存减少热量堆积的收益)。

光看芯片规模的话,老黄开始用成熟工艺之后明显变大方了:

  GPU
  
  GM200
  
  Fiji
  
  GP102
  
  Vega10
  
  工艺
  
  28nm
  
  28nm
  
  16nm
  
  14nm
  
  晶体管(billion)
  
  8.0
  
  8.9
  
  12.0
  
  12.5
  
  面积(mm2)
  
  601
  
  596
  
  471
  
  486
  
  Boost频率
  
  1075
  
  1050
  
  1480
  
  1677
  
  GPU
  
  TU102
  
  Vega20
  
  GA102
  
  Navi21
  
  工艺
  
  12nm
  
  7nm
  
  8nm
  
  7nm
  
  晶体管(billion)
  
  18.6
  
  13.2
  
  28.3
  
  26.8
  
  面积
  
  754
  
  331
  
  628.4
  
  ???
  
  Boost频率
  
  1770
  
  1750
  
  1700
  
  2250
  

老黄这个策略本身是正确的,Turing的时候很成功:拿成熟的12nm做大芯片好过吃7nm的螃蟹,12nm之前已经生产了一年的巨无霸GV100,丧心病狂的815mm2
但是这次老黄贪便宜上了三星的当(Apple之前已经上当了一次没听说么?),没想到8nm理论上比12nm领先了一整代频率反而开倒车。

现在临时跳车首先有法律问题,NV这种大客户和代工厂的协议大多会包含对数量的承诺(AMD现在就还被GF绑着),当然不排除三星违反了别的条款导致NV可以轻松解约。
其次就算NV加班加点第一时间去找TSMC还插队,重新流片就要数个月的时间,之后的封装、测试流程还得再走一遍,在pin to pin兼容的情况下,再发给AIC,AIC还得走一遍验证的流程才能开始生产,这至少要花大半年(还要碰上中国过年耽搁一个月)。

发表于 2020-10-31 10:36 | 显示全部楼层
001.jpg
7nm也不是万能的吧。
根据农企的数据,在注重性能的时候,7nm相比GF的14nm 只不过做到了25%的频率提升,甚至在radeon VII上还没提升这么多频率,有一部分性能提升是带宽补足到1TB/s得来的。

从GF坑爹14nm到TSMC 7nm尚且如此,那从三星8nm到TSMC 7nm又能提升多少呢?三星8nm再不济也是10nm的改进版。

这次RDNA2在工艺没变的情况下,号称同功耗提升了30%频率。
其实要是按照一些人之前抹黑的说法,80CU跑5700xt的频率起码得450W甚至500W。现在居然300W就跑2250MHz,而且还有一定的灰烬潜力,说明频率提升还不止这个数。
这也说明改进工艺能提升一部分频率,然而自己的布线、优化提升更为重要。
002.png
很遗憾的是这种招式在帕斯卡那代用过一次了。这就好比斗地主,NV的这张布线优化的王炸  几年前已经用出去了,现在还有类似的炸弹?我对此持怀疑态度。


发表于 2020-10-31 10:39 来自手机 | 显示全部楼层
Dudayev 发表于 2020-10-31 10:24
选择先进工艺还是成熟工艺是一个策略问题,不同的选择意味着不同的频率、密度、良率、成本
7nm之前选择先 ...

频率除了跟制程关系大,跟架构关系也很大,rdna2比rdna提升了30%频率,制程没变,发布会明确说了研发团队专门做了提升频率的架构优化,包括gcn和开普勒同为台积电28nm工艺时,开普勒架构频率也是明显高于gcn,老黄的麦克斯韦和开普勒同为28nm,频率提升也很大,老黄也专门说过优化了架构,使其能够跑在更高的频率
 楼主| 发表于 2020-10-31 10:40 | 显示全部楼层
我輩樹である 发表于 2020-10-31 08:38
一切都要等卡出来后才能下定论。但老黄现在牌还有一大把。

3090已经82sm了,升级84完整版性能提升不大 , ...

Infinity Cache对N来说倒是不难实现,本身是个类似于全片L2的东西,GA100上有现成的40MB L2,GA102只有可怜的6MB而且最奇葩的是L1比L2大……
重新改一下内存控制器,把L2放大再研究一下怎么配合大容量L2效率更高
光追和DLSS倒是逐步实用了,至少比上一代强

GA100本身的SM设计更像Turing,INT32和FP32的数据路径还是分开的,真正强大的是第三代的Tensor Core,GA10X上面的TC直接性能腰斩,和Turing上比几乎没提升,仅仅是多了TF32、BF16的支持(这两有啥用?我用FP16好像一直很顺利)
更可恶的是老黄把GA10X上多出来的那一倍FP32做了手脚,不支持FP16(连直接丢精度都不支持),劣化炼丹性能(除非只用FP32).
老黄在发布会说图形处理主要用FP32,但是似乎多出来的这一倍FP32利用率存在严重问题,还不如增加GPC数量的提升更大,再联想到3080那个恶心的10GB显存……老黄是不是在防炼丹上太认真了
发表于 2020-10-31 10:46 | 显示全部楼层
本帖最后由 zhoubi 于 2020-10-31 10:49 编辑

这有点像DOTA2  更新核心装备一样。
nvidia  16年依靠优化布线,把GPU的核心频率推向了不可思议的程度。这就好比幻影刺客这种英雄出到了BKB这种质变装,一度团战取得巨大优势,但是没把对面打GG。
现在AMD那边的后期英雄,苟延残喘打了几年钱,也出到了BKB,频率不但跟上来还反超了对手,团战隐隐然有翻盘迹象。

现在nvidia还能再出一次BKB吗?要知道几年前就已经提前透支了这个优势
 楼主| 发表于 2020-10-31 10:47 | 显示全部楼层
panzerlied 发表于 2020-10-31 10:22
上一次UMC代工GPU还是9550呢,因为台积电产不过来

UMC代工过:
G96-300
G92/G92a/G92b
发表于 2020-10-31 10:47 | 显示全部楼层
我輩樹である 发表于 2020-10-31 08:38
一切都要等卡出来后才能下定论。但老黄现在牌还有一大把。

3090已经82sm了,升级84完整版性能提升不大 , ...

英菲尼迪缓存牛逼在不需要游戏开发商做什么适配,一切都是驱动里面调调就完事儿了
 楼主| 发表于 2020-10-31 10:49 | 显示全部楼层
zhoubi 发表于 2020-10-31 10:46
这有点像DOTA2  更新核心装备一样。
nvidia  16年依靠优化布线,把GPU的核心频率推向了不可思议的程度。这 ...

Pascal的效率相对Maxwell没多大提升啊,架构提升大的是Maxwell那一代
16/14nm这个节点本身给力,AMD的频率和密度也提升了一大截
发表于 2020-10-31 10:53 | 显示全部楼层
本帖最后由 我輩樹である 于 2020-10-31 11:05 编辑
zoo 发表于 2020-10-31 10:47
英菲尼迪缓存牛逼在不需要游戏开发商做什么适配,一切都是驱动里面调调就完事儿了 ...


我说的是游戏和英菲尼迪缓存之间的配合,效果有好有坏,从现在官方释出的例子就可以看出。有的提升多有的提升少。
发表于 2020-10-31 10:55 来自手机 | 显示全部楼层
适当降价就行了,本来这类高端卡也卖不了几张,关键还是3000以下这个价位
发表于 2020-10-31 10:56 来自手机 | 显示全部楼层
zhoubi 发表于 2020-10-31 10:46
这有点像DOTA2  更新核心装备一样。
nvidia  16年依靠优化布线,把GPU的核心频率推向了不可思议的程度。这 ...

确实,三星的10nm和8nm是成熟的工艺,骁龙835用的10nm被成为一代神u,骁龙730 8nm也没翻车,虽然显卡跟移动芯片对工艺要求有区别,骁龙835和730至少说明了三星的工艺是成熟的,锅不能三星一个人背
发表于 2020-10-31 10:56 来自手机 | 显示全部楼层
我輩樹である 发表于 2020-10-31 10:53
我说的是游戏和英菲尼迪缓存之间的配合,效果有好有坏,从现在官方释出的例子就可以看出。有的提升多有的 ...

这个是硬件的,发布会说了,不用游戏特别优化
发表于 2020-10-31 10:57 | 显示全部楼层
psps3 发表于 2020-10-31 10:56
这个是硬件的,发布会说了,不用游戏特别优化

你再看看我说的什么意思。
发表于 2020-10-31 10:59 | 显示全部楼层
Dudayev 发表于 2020-10-31 10:47
UMC代工过:
G96-300
G92/G92a/G92b

好,丝印上面怎么区分呢?
发表于 2020-10-31 11:02 | 显示全部楼层
本帖最后由 我輩樹である 于 2020-10-31 11:06 编辑
Dudayev 发表于 2020-10-31 10:40
Infinity Cache对N来说倒是不难实现,本身是个类似于全片L2的东西,GA100上有现成的40MB L2,GA102只有可 ...

要改缓存体系就是要该构架了,这基本不可能,最少最少,也要用一年。生命周期腰斩后出40系显卡。

老黄防的是工业界生产的时候用游戏卡炼丹,而学术界用游戏卡是完全ok的,我猜测这也是它在安培游戏卡上翻倍fp32的原因。据我所知很多3090也是高校实验室定走了,很多面向研究机构的方案商也出了基于3090的计算平台。

学术界用卡和工业界还是有点不同,学术界做一些新网络构型不一定能够用tensor core高效的加速,这时候fp32性能还是蛮重要的。当然工业界的学术部门也是一样,不过它们有a100用。
发表于 2020-10-31 11:03 来自手机 | 显示全部楼层
我輩樹である 发表于 2020-10-31 10:57
你再看看我说的什么意思。

说的不是英菲尼的缓存么,这个官方并没有给出不同游戏效率对比,他是一种提高显存和芯片数据带宽的,给出游戏开关下数据对比的是sam技术,如果我理解错了,当我没说吧
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

小黑屋|手机版|Archiver|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2021-9-29 03:53 , Processed in 0.013403 second(s), 11 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2007-2021 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表