Chiphell - 分享与交流用户体验

 找回密码
 加入我们
搜索
      
查看: 2216|回复: 9

[PC硬件] 新瓶装什么酒?NVIDIA GM107架构展望

[复制链接]
发表于 2014-1-9 13:05 | 显示全部楼层 |阅读模式
原文地址:http://news.mydrivers.com/1/289/289248.htm

麦克斯韦将要来临?

我们都希望自己“想知道更多”的欲望得到满足,所以每当一款新的芯片级产品即将问世时,我们都喜欢用组合情报以及既有现象加以延伸的形式来进行关于新显卡的猜测游戏。这游戏我们玩儿了很多次,我们很享受这些预测过程带给我们的思考和冲击。您呢?还想跟我们再玩儿上几次么?

游戏的机会又来了——根据坊间日盛的传闻,一块新的NVIDIA显卡将于2月份面市了。

先来清点一下之前预测游戏的“战绩”吧,从GeForce GTX 660Ti开始一直到GeForce GTX 780,我们一共进行过四次新显卡架构规格的预测游戏。除了Radeon R9  290X以巨大的改进超出了我们的预期之外,GeForce GTX 660Ti、GeForce GTX 660以及GeForce GTX 780皆以我们所预测的架构形态登场。4次猜测命中3次,这样的“胜率”应该能支撑我们继续玩儿下去了吧。


麦克斯韦要来了?

那么即将在2月份到来的这款新显卡,我们是否会再一次猜中它的架构和规格呢?这个估计要猜过之后才知道。至于怎么猜,就要看到目前为止泄露出来的可用情报了。关于这款新显卡,我们所知其实并不多,唯一能用得上的已知条件就是它的芯片代号。

这款新显卡的芯片代号,是GM107。没错,麦克斯韦。

麦克斯韦要干什么

既然预测的是GM107,那M所代表的麦克斯韦架构也就成了我们无法回避的话题。从2011年8月首次曝光开始,麦克斯韦架构就一直处在犹抱琵琶半遮面的状态之中。开普勒上预留的各种悬念,NVIDIA经常拿出来念叨的数倍于前代的性能功耗比提升,还有Project 丹佛,这些悬念一直都在增加麦克斯韦架构的神秘感。

归根结底,麦克斯韦到底是什么?


麦克斯韦的起点:NVIDIA与斯坦福大学联合发布的Echelon架构论文

尽管NVIDIA并没有直接公布,但透过对《Power and Programmability: The Challenges of ExaScale Computing》等论文以及情报的综合解读与适当的推测,我们还是能够大致勾勒出麦克斯韦架构的基本特征的——麦克斯韦架构的主要目的,在于改进整个GPU架构的任务管理层级和机制,达成的手段则是使用全新设计的LOC(Latency Processor)单元来取代传统的GTE(Giga Thread Engine)。

具体来说,NVIDIA的核心目的在于同时提升产品的并行处理能力和性能功耗比,对于GPU逻辑结构的一切改进,都要为这一目的进行服务。

在麦克斯韦之前的各架构当中,NVIDIA分别完成了并行度的拓展方式以及ALU团簇结构的改进,截止到开普勒为止,NVIDIA已经在底层创造出了一个达成度相对较高的ALU团簇结构和宏观并行结构,所以在麦克斯韦当中,我们认为NVIDIA不会再进行过多的相关改动。换言之,麦克斯韦将会在ALU团簇结构基本保持不变的前提下直接加入基于ARM架构的LOC,甚至有可能直接集成一枚或多枚丹佛处理器。


先期公布的丹佛架构流片细节

还是包含192个ALU的SMX,还是差不多的GPC结构,也许最大的麦克斯韦会有更多GPC/SMX,但不会有什么触及本质的细节调整,甚至ROP等后端也都不会有什么数量之外的变化。麦克斯韦的相当一部分结构将会沿用开普勒的设计,两者最大的区别将来自从GTE到LOC的角色转化。甚至不严谨的说,我们认为麦克斯韦就是“大头”+“大块头”版的开普勒。一切麦克斯韦的核心改变,均来自“大头”的LOC。

那么,是什么因素支撑了我们的猜测呢?


扁平化的未来

为了能够比较通俗的进行解释,我们决定用一个不那么严谨的方式来举一个不怎么准确,但却十分好理解的例子。

我们的一位同事前一阵跳槽了,他去了一家做手机的名字是某种粮食的公司高就。同事去了粮食公司之后对我们大发感慨——这间公司扁平化的好厉害,各级主管都是只管具体事儿的小头目而已,定调的只有绰号“雷布斯”的公司老总一人。所有人,哪怕是最底层的实习生,只要一有想法,都可以去直接敲“雷布斯”的办公室门然后进去PK,无论天文地理还是鸡毛蒜皮,只要想法可行,“雷布斯”都会直接把想法变成项目交给对应的人员去推动,甚至可以绕开各个小头目们。


扁平化企业结构的优势(图片源自互动百科)

虽然并不是所有项目都会以这种方式在公司内部产生、发酵然后成型,但粮食公司这种扁平化的组织架构确实给公司中许多项目的产生和推进创造了有利的条件,它可以让信息更快速的在决策层和基层之间进行流动,减少传统企业架构当中多层管理结构对于信息交换和决策所造成的迟滞,还可以带来更高的项目执行效率,提升公司的执行能力和竞争力。粮食公司这两年的蓬勃发展,与扁平化有着很深的联系。

当然,有优势就会有考验,扁平化不代表一盘散沙,扁平化公司内部的原始执行效率和单位执行效率必须要高,而且依旧需要针对性极强的模块化分工和协作来达成任务的高效执行。在此基础上,扁平化还需要顶层的决策者相当强势并且十分全能。“雷布斯”不一定非要专精于某种领域,但他必须是,起码要尽可能的是一名全才,能够了解公司业务相关的一切或者是绝大多数相关领域,可以对信息和想法是否对公司有益以及如何发展进行判断和决策,甚至还要明确将任务交给谁才干的最快等等细节问题。


最理想的扁平化需要一个无比强大的领导,当然也可能累死他……

扁平化要求决策者无比强大,他的强大是信息快速交换、决策快速成型以及任务正确推进的一等要素。如果能够达成扁平化对决策者的要求,同时公司内部能够保有极好的执行效率和分工协作能力,扁平化的企业应该可以保持旺盛的活力和很好的竞争力。

当前的GPU,尤其是NVIDIA GPU所要面对并解决的,正是与扁平化公司相同的问题。

扁平化的麦克斯韦

就像一般的健全发展企业一样,GPU的发展也是一个循序渐进的过程。在GPU逻辑结构的初级阶段,复杂细腻的多级任务管理机制有助于细化任务,提高任务的分派效率和准确率,进而提升单元复用率并提升架构的总效率。但是,随着ALU规模的肥大化,分级任务管理机制的规模也会跟着膨胀,越来越多的ALU需要越来越多的分级管理机制进行有效的管理,这显然会导致管理体系慢慢走向过于庞大的方向,消耗过多晶体管并占据更多的芯片资源。

不仅如此,同样跟每一个繁文冗节过多而且部门派系庞大并且相互制肘的企业一样,过于庞大复杂的多级管理机制也会给任务发放和回收带来明显的迟滞问题,大量能源和延迟会被浪费在数据交换流通以及通讯而不是运算和操作上。多级管理机制的膨胀同时还会提升驱动及软件对硬件的管理和使用成本,增加编程端的优化难度,面对日益庞大的硬件,程序员们在构筑算法时需要更多的考虑通讯问题并非操作本身,他们的精力将可能会因此而被更多地引导到数据结构之类的层面,如何提升操作效率或者进行更有效的计算反倒成了退一步之后才会考虑的问题。这不仅无助于硬件实际性能的提升,降低架构的性能功耗比,同时还会制约软件和算法的进步。


传统NVIDIA GPU的多级任务管理机制

凡事总有过犹不及,复杂严谨的多级任务管理机制在GPU的初期阶段是必要和必须的,但在GPU规模日益庞大的今天,它反倒成了进步的枷锁和绊脚石。所以就像Cache肥大化之后Intel从xbar转向ringbus一样,GPU的肥大化必定催生任务管理机制从多级回归到单级。

于是,逐步接替现有任务管理机制的LOC来了。

在我们所推测的麦克斯韦架构当中,LOC单元就是整个GPU的“雷布斯”,它将会以比GTE更高的效率遂行整个逻辑结构的任务决策和管理工作,更多地介入但又不会完全接管原本由其他下级任务管理机制承担的与执行单元的沟通活动。LOC会直接与底层执行单元进行通讯并传递任务,而底层单元执行完毕的部分任务结果也将能够直接递交给LOC进行回收,不再需要像过去那样通过逐级回归的方式来完成上缴。显而易见的,LOC单元的引入不仅能增强GPU的最上级管理体系,改善整个GPU的任务密度和任务传递有效性,同时也可以降低整个GPU的通讯成本并提升底层单元的执行效率。


面向ALU团簇的二级任务管理机制(Fermi架构)

从多级任务管理机制回归到扁平化甚至单级任务管理机制,需要单级任务管理机制本身具有强大的执行/决策能力和足够高的灵活性,它(LOC或者其他一级任务管理单元)不仅要能够迅速的对不同任务做出正确反应,还要能实时掌握原本拆分给多级并行管理机制来管理的庞大ALU团簇所处的状态并直接对其进行有效统御。设计者需要为充当单级任务管理机制的逻辑结构与ALU团簇设计更为直接高效的通讯机制,驱动端也必须做出大量的对应优化工作,这些工作都是前所未有的。既然前所未见,试水就是一个必要的选择了。


Echelon架构细节

伴随着数代架构的演进和积累,NVIDIA目前所拥有的各个底层执行结构在现行环境下的综合表现,尤其是性能功耗比表现已经相对成熟,我们认为NVIDIA以这些相对成熟的结构作为基础和对象来完成试水是一个很合适的选择。所以从谨慎的采用渐进式的方式逐步取代现行结构的角度出发,以一个成熟的,比较小但又不是小的离谱的现行结构作为切入点进行LOC的引入试水是合理的。

扁平化的需求和切入点的合理选择,这就是我们对麦克斯韦首秀形式做出前述预期的依据。如果GM107是第一个被推出的麦克斯韦,NVIDIA在推出GM107之后才推出更大规模的麦克斯韦,那也不是什么奇怪的事情。

但是,GM107并不一定就会采用麦克斯韦架构。


是……

没错,虽然我们对麦克斯韦进行了热情满满的预期,同时也对GM107采用麦克斯韦架构的合理性做出了分析,但GM107并不一定就会采用麦克斯韦架构,因为麦克斯韦面临着两个问题。

第一个问题,同时也是最致命的问题,就是丹佛工程的进度。

尽管NVIDIA已经在CES2014展会上公布了以丹佛处理器为CPU的Tegra K1,目前的丹佛应该可以被认为处于架构凝固状态,但除此之外,没有任何其他证据能够证明它已经最终定案,并且已经完成了与现有GPU逻辑结构的融合。LOC单元需要强大而且成熟的逻辑结构,选择改进型的ARM处理器作为基础也显示了NVIDIA对它的重视,如果丹佛没有完成,我们实在无法做出麦克斯韦已经OK的定论。


唯一证明丹佛存在的图片源自NV的PPT高手……

第二个制约GM107当中部署麦克斯韦架构的要素来自可制造性层面,那就是TSMC的16/20nm工艺进度。

对于麦克斯韦架构,尤其是第一代麦克斯韦而言,最理想的选择就是统一进入到20nm或者16nm FinFET工艺当中,这可以保证整个麦克斯韦家族的EDA一致性,让NVIDIA更好地解决整个麦克斯韦家族芯片的可制造性问题。如果变更工艺,丹佛和整个GPU架构都将经受多重工艺带来的布局和可制造性问题考验,更何况TSMC的16/20nm工艺目前进展都很缓慢,20nm 2014年一季度正式进行生产部署,而且工艺细节已经将其指向了SoC领域,至于16nm FinFET工艺,乐观估计也要等到下半年才会露面。

以目前的时间点来看,GM107采用28nm工艺的概率明显更大。采用28nm去生产成型的麦克斯韦结构,这是一个风险极大的选择。


TSMC的20/16nm工艺远水解不了近渴,而且还可能会“卖队友”

所以,我们是很希望GM107能一口气跑步进入麦克斯韦时代,并且为后续架构充当开路先锋的,但一厢情愿的希望不一定甚至可以说不可能成真,尽管它叫G“M”107,但并不一定就会基于只能真正意义上的麦克斯韦架构,所以我们依旧要面向实际,给出基于其它可能性的猜测。

基本游戏规则

对于预测来说,“规则”的订立是至关重要的。正确全面的考量可以帮我们逼近真实,同时也可以在预测过程中给我们带来更多理性思考的享受。出于这种要求,同以往一样,结合前面对麦克斯韦架构以及现实状态的分析,我们将对GM107以及GeForce GTX 750Ti的预测规则设定成了三个方面:性能互制,架构风险以及综合市场布局。架构风险部分在前页实际上已经完成了讨论,所以接下来,我们将要看到的是限制GM107整体规模的制约条件,性能和市场。

以代号而言,GM“107”明确无疑的说明了它的定位,这是一款接替GK107的架构,其性能定位将会处在当前的中端~中低端产品之间,并应该更加接近前者。当前NVIDIA阵营当中处于中端性能的产品是GTX650Ti Boost/GTX650Ti,而中低端则是GTX650,两者分别基于2/3开放的GK106以及完整规格的GK107,因此GM107架构的性能无疑将处在三者之间。由于其性能具体会处在何种地位目前仍无人知晓,所以我们只能接着求助于市场要素了。


NVIDIA现部署于千元级市场的赚钱利器——GK106核心

从市场分级来说,当前的GK107架构产品主要集中在799~899元的中低端区间,而GTX650Ti/GTX650Ti boost则分别位于千元级至1299这一当前出货量及利润均十分丰厚的区间上。所以如果GM107的目的是取代GK107,而性能又位于GK107和2/3开放的GK106之间,那么在当前库存产品的正常清货节奏以及竞争对手没有做出反应的前提下,GM107以千元级的首发定价及性能出现,是比较符合NVIDIA赚钱本意的可能情况。

换言之,按照过去两年间AMD与NVIDIA的一贯表现,比较靠谱的GM107的产品将有可能以略高于GTX650Ti但处于GTX650Ti Boost以下的性能,以999~1099的定价登陆市场,并视对手动作以及AIC清理上代产品库存的情况在后续的市场运作中通过调整最终降至799元及以下区间。

有钱赚才是最重要的,这便是我们设定游戏规则的最核心要务。


面向中低端的公版GTX650

我们暂时不去评判这种可能性所导致的溢价问题,自从HD7800首发开始,这种事情在AN之间已经循环上演了多次,而且毕竟这仅仅只是我们为了预测架构形态而设置的假想条件而已。所以如果NVIDIA真的如我们所预测的那样给了这么个过高的定价,首测中再对其进行谴责也不迟。

既然性能和价位与GTX650Ti相近并有可能同时取代它和GTX650,GM107应该还要具有其他吸引人的要素和条件才行。我们并不知道NVIDIA将会为GM系列架构附庸怎样的新鲜功能,以目前的情况来看,似乎也没有什么特别的功能会达到相当诱人的地步。因此我们决定为GM107再附上一个诱人的条件,那就是比2/3开放的GK106和GK107,也就是GTX650Ti/650更高的性能功耗比。

定价千元,性能和性能功耗比均比GTX650Ti有进步,游戏规则已定,我们可以开猜了。


新瓶“陈酿”——GM107A

我们的第一种GM107猜测方案有些乏味,虽然可以算是一个全新的架构,但它依旧基于完全成熟的开普勒而非新一代麦克斯韦。不过话说回来,这个被暂时命名为GM107A的架构拥有满足我们预设游戏规则的一切条件,对NVIDIA来说是一个相当优秀的选择。



虽然叫“GM107”,但这货明显是基于开普勒的新架构

在我们的假设当中,GM107A拥有4组SMX单元,分别居于2个GPC中来组成并行结构,每组GPC分别对应一个双通道64Bit显存控制器和8个ROP单元,这与GK104/106的基本形态是类似的。双GPC意味着该架构拥有两组光栅化处理单元,其单周期的几何输出以及光栅化能力为同频GK104架构的一半。

或者说直白点,它其实就是原生的“半颗”GK104芯片。


GM107A等于二分之一颗GK104

经过计算,我们认为采用这种结构的GM107A的芯片面积将会在150平方毫米左右(147.5,封装后大于150),不仅成本占优,同频功耗也将会明显低于规模相当但使用2/3规模GK106架构的GTX650Ti/GTX650Ti Boost。与此同时,更低的芯片面积和功耗赋予了GM107A更好的高频运行能力,我们预计GM107A的默认运行频率将会达到1050/6000MHz左右,更高的运行频率将会让GM107A轻松达到甚至超越GTX650Ti的性能。

GM107A虽然没有采用麦克斯韦,但它同时拥有低风险、成本更低、性能功耗比更高以及性能符合预期等多方面的优势,相对而言确实是一个不错的选择。

新瓶“旧酒”——GM107B

接下来登场的GM107B同样是新架构+老面孔,而且在我们所有的预测中,这一架构的成本和性能功耗比表现应该是最差的。但与之相对应的是,这款预测架构将会拥有最高的理论性能上限,同时各方面指标也并没有



基于另一种开普勒(GK110 like)的GM107B

GM107B拥有6组SMX单元,分别居于2个GPC中来组成并行结构,每组GPC分别对应一个双通道64Bit显存控制器和8个ROP单元,这与GK110的基本形态类似,同时也是GM107B与GM107A最大的区别来源。在几何处理能力方面,GM107B倒是与GM107A类似,均为同频GK104架构的一半。但是由于更大数量的ALU以及材质单元总量,GM107B的图形性能将会超过同频的GM107A。


GM107B的结构参考——GK110

由于GPC结构调整成了GK110的形式并因此而拥有了更多运算和图形结构,GM107B的芯片面积较之GM107A有了相当程度的增长。根据我们的计算,GM107B的芯片面积将不会小于180平方毫米(176.4,封装后将可能大于180),更大的面积会让它在成本及功耗控制层面上的表现逊于GM107A。另外,为了“控制”性能同时进一步控制成本,我们预计如果最终登场的GM107是形态B的话,NVIDIA将很有可能会关闭一至两组SMX单元。

更大的芯片面积和更复杂的性能控制方式影响了我们对GM107B的好感度,但这些特性也赋予了GM107B更多的可能性。如果操作得当,GM107B很有可能会变出大量衍生品并覆盖相当宽泛的市场区间。

新人新气象——GM107C

接下来登场的GM107C是我们最希望但却又最不可能见到的GM107形态,它将会基于麦克斯韦架构,同时依旧遵循我们所制定的预测规则细节。



真正意义上的GM107,不过可能性嘛……

GM107C同样拥有4组SMX单元,分别居于2个GPC中来组成并行结构,每组GPC分别对应一个双通道64Bit显存控制器和8个ROP单元,也就是说它的基本结构规模与GM107A一致,所以两者的各项参数和理论性能也趋于相同。

GM107C的最大不同点在于以一枚改进自丹佛处理器的LOC单元来取代传统开普勒架构当中的GTE(也就是我们在架构图中一致使用的),同时可能会进一步改进整个芯片内部的互联机构,GM107C当中的NoC将会上升到前所未有的比例,以便能够配合LOC对任务及底层单元的管理,并改善芯片内部的通讯环境,诚如我们前面所分析的那样,GM107C将会因此而拥有三种预测架构中最高的执行效率。


虽然芯片面积会比GK107更大,但GM107C的效率是很值得期待的

我们目前还没有掌握LOC单元的具体尺寸以及它对于面积增长的贡献情况,也无法确定GM107内部的互联是否会激增并导致面积急剧膨胀,所以仅对其进行保守的猜测,认为两者并未给面积带来过大的变化。基于麦克斯韦结构的GM107C的芯片面积将会在155平方毫米左右,封装后将会进一步增大。

不过说实话,28nm的麦克斯韦,嗯……就当它是个可能变成惊喜的美梦吧。


值得期待么?

我们今天关于麦克斯韦以及三款GM107可能形态的分析到这里就算是结束了,根据坊间的各种传闻,GM107架构已经凝固,现在应该正躺在AIC的生产线上待产。用户们只需静静等待,就能在近期与它见面了。

所以接下来的问题就很直接了——GM107以及麦克斯韦架构,究竟值不值得期待。


阶段性的G80~GF100架构发展过程(图片引自后藤弘茂先生博客)

我们曾经多次提到过,NVIDIA的GPU发展演进过程是一个拥有既定目标的漫长演化过程,这个过程的最终目的在于推出一款能够很好地处理并行线程和指令吞吐,拥有良好双精度运算能力,单元复用率足够高同时每瓦特性能出色的GPGPU构架。从G80开始的每一代NVIDIA架构都有自己的任务和定位,它们各自任务的完成将NVIDIA的整体架构演进推到了今天的高度。同样的,麦克斯韦这条道路上也有自己的任务和所要扮演的角色。

LOC的引入不仅会改变传统GPU结构当中的任务管理模式,提升GPU的执行效率和性能功耗比,改善编程人员的工作环境,同时还将为现阶段的GPU打开一扇崭新的大门。LOC的丰富可编程性将会给GPU效率提升以及运算应用前景带来更多可能性,其自身所保有的运算能力将会在GPU并行计算当中发挥重要的作用。NVIDIA的GPU架构以及融合计算架构,将从麦克斯韦开始进入全新的阶段。


GM107究竟是开普勒还是麦克斯韦呢?

与麦克斯韦架构相比,GM107的意义就要更加直白一些了。如果它采用了麦克斯韦架构,那么它将会充当整个麦克斯韦家族的开路先锋和“试错员”,为NVIDIA积累大量必要的经验,同时向用户们提前揭晓一部分麦克斯韦架构的优秀特性。如果它依旧基于开普勒架构,那么用户仍将会有很大概率收获一款绝对性能及性能功耗比相当优秀且表现成熟的中低端显卡产品。无论哪种结果成真,对于大多数用户来说都应该是个好消息。

既然是好消息的话,等等看又有何妨呢?

新闻标签:英伟达 显卡


发表于 2014-1-9 15:08 | 显示全部楼层
谈显卡就只显卡 拉 个乔不死 出来干啥?说明他的伟大?历史伟大的人一大堆,列宁,马克思,斯大林,爱迪生,爱恩斯坦,,,
发表于 2014-1-9 15:39 | 显示全部楼层
一看到这自恋的文字就知道又是顾大炮的大作了
发表于 2014-1-9 16:44 | 显示全部楼层
不是有人说有个芯片是576sp么
发表于 2014-1-9 17:08 | 显示全部楼层
废话连篇,不知道讲了些什么
发表于 2014-1-9 17:12 来自手机 | 显示全部楼层
花开无声 发表于 2014-1-9 15:08
谈显卡就只显卡 拉 个乔不死 出来干啥?说明他的伟大?历史伟大的人一大堆,列宁,马克思,斯大林,爱迪生 ...

逗我呢,明明文章里说的是雷不死好么,怎么天天有人工读生似的
发表于 2014-1-9 19:25 | 显示全部楼层
花开无声 发表于 2014-1-9 15:08
谈显卡就只显卡 拉 个乔不死 出来干啥?说明他的伟大?历史伟大的人一大堆,列宁,马克思,斯大林,爱迪生 ...

文盲你好
发表于 2014-1-9 21:01 | 显示全部楼层
2月就上市?
发表于 2014-1-9 21:57 来自手机 | 显示全部楼层
不是四月吗?
发表于 2014-1-9 22:54 | 显示全部楼层
不错的技术文!
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

小黑屋|手机版|Archiver|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2021-5-17 18:21 , Processed in 0.009469 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2007-2021 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表