很多人没明白英伟达能用TSMC 5nm做出多强的卡

T.JOHN 发表于 2022-9-9 23:43

A100白皮书 https://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf
GA102白皮书 https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf
H100白皮书 https://resources.nvidia.com/en-us-tensor-core

以下所有数据和内容均出自于上面三分白皮书，简单点说就是H100两个版本。完全体SXM5性能是3.1x A100，规模是2.5x。功耗1.75x，缩水体也可以做到PCIe性能是A100 2.5x，规模2.1x，功耗0.88x

https://imgs.services/i/2022/09/09/12oaim1.jpg

我引用一下原话就是
3x faster IEEE FP64 and FP32 processing rates chip-to-chip compared to A100, due to 2x faster clock-for-clock performance per SM, plus additional SM counts and higher clocks of H100.
https://imgs.services/i/2022/09/09/12oaxiz.jpg

从CUDA规模上看，GA102的sm单元是A100的1/2（多个RT core），而A100又是H100的1/2。H100还有PCIe5.0，HBM3e，这些不会用游戏卡上的暂且不提。

也就是说7nm->5nm，老黄可以做出了同功耗理论性能2.5x+的卡。那么samsung 8nm->5nm，你不用大脑就能想到老黄性能上压制AMD不是能不能的事情，而是想不想的事情。现在不管什么传言，ada lovelace高功耗也好，以及之前GH下放也罢。只要老黄想，规模做到GA102直接2x+，再加上频率1.5x，这是毫无难度，这性能提升绝对比ampere相比turing大了多。

我黄只是给苏妈留点面子，不想赢了那么多，旗舰只要象征性稍微赢点就行了，然后定格高价，愿者上钩，走量还是靠下面的60/70。也不知道RNDA3究竟如何，大家都要赚钱，所以向来精准的刀法需要一定地酝酿，免得你们这群打游戏的说我老黄老了，刀法不行。面对vega整出个1080ti纯属没必要[怪脸]

无聊的石头 发表于 2022-9-9 23:46

啊对对对

赫敏发表于 2022-9-9 23:52

计算卡重复单元多，频率不用很高。游戏卡要把各种硬件特效做上去还要保证频率，所以5nm密度优势没那么大

当然老黄这边拿捏下amd还是一点问题都没有的

mullions 发表于 2022-9-9 23:55

明白了又能怎么样

谎言之神Cyric 发表于 2022-9-9 23:57

所以发售三个月内价格会到MSPR的五折吗[可爱]

rSkip 发表于 2022-9-10 00:04

GA100没有像游戏卡那样FP32加倍，显得挺低的。可能是立项比较早的原因？还是说为了加强矩阵乘法而减少向量乘法投入

dead_kiss 发表于 2022-9-10 00:05

苏妈躲在墙角喃喃自言自语：锤你的是30系，跟我有什么关系

lk_yeah 发表于 2022-9-10 00:08

N也好，A也好，谁强谁弱有什么好争的呢，谁强你买谁的就是了啊，争论这个有钱收？

psps3 发表于 2022-9-10 00:15

本帖最后由 psps3 于 2022-9-10 00:25 编辑

下代卡老黄不知能切出多少型号[偷笑]

明月路小霸王 发表于 2022-9-10 00:18

谁性能强就买谁~~我没有信仰的~~我只有钱

nnjohnnie 发表于 2022-9-10 00:23

黄：小赢中赢还是大赢？真是烦恼

xudi8092 发表于 2022-9-10 00:36

没意义，马上发布了，有多强到时候自然见分晓

gbawrc 发表于 2022-9-10 00:43

qiu95 发表于 2022-9-10 01:08

楼主有一些认识偏差，首先比较tensor core的性能对于游戏计算来说是没有意义的，tensor core的执行主要是对于HMMA.16816指令。而游戏中更多用的是cuda core的性能，这里老黄可能要让你失望了，你看A6000的GA102的fp32的性能是38.7，而GA100的SM中FP32和INT32是不同的，所以A100的fp32的性能会比A6000（3090）差。回到 H100的fp32，SM中的FP32翻倍，达到48T。实际提升了24%。并且这还是考虑到两边显存带宽都是没有瓶颈上。并且H100的话少了RTcore，加回来的话肯定要占其他计算单元的位置（估计要砍tensor core的性能）。再加上raster engine，估计这代提升在20%左右比较正常

T.JOHN 发表于 2022-9-10 01:21

qiu95 发表于 2022-9-10 01:08
楼主有一些认识偏差，首先比较tensor core的性能对于游戏计算来说是没有意义的，tensor core的执行主要是对 ...

这不是GA102和A100的横向比较，两者本来就不具备可比性，我自然知道3090 FP32 39T。这里比的是H100和A100，除了显存容量不变，一次工艺变更，从FP8->FP64全方位3X性能提升，而不是拆东墙补西墙式的提升。说了直白点就是老黄不计成本游戏卡至少能做到3X+理论性能提升，因为samsung 8nm远不如tmsc 7nm。

liyichao97 发表于 2022-9-10 01:28

虽说我估计ad102完全体也是会比n31强点…
但是用fp32估性能吧，n31应该也得有n21的三倍来着…这么算没啥太大意义，和游戏帧数的提升挂钩太少

FelixIvory 发表于 2022-9-10 02:32

本帖最后由 FelixIvory 于 2022-9-10 02:33 编辑

1.能耗比，在一个合适功耗下的中端卡性能。
2.定价。
3.恶心玩家，16g显存是分水岭。游戏建模的提升，显存给16g才能保证未来游戏在4k下运行良好。
4.单纯谈旗舰，无非是能耗比和规模的博弈。

用户发表于 2022-9-10 02:35

本帖最后由用户于 2022-9-10 02:51 编辑

MLPerf结果已经出来了，ResNet50看着没到2倍啊？

https://blogs.nvidia.com/wp-content/uploads/2022/09/H100-final-scaled.jpg

BERT加速多但好像用了低精度

Bysmiel 发表于 2022-9-10 04:28

问题不是他能做多强，而是市场环境能让你花同样的钱买到多强的货。

ws1234 发表于 2022-9-10 05:13

很久之前，intel的fans也是这样说amd的……

老喵发表于 2022-9-10 06:06

拿表面数据做出的表面结论

jiekedexin 发表于 2022-9-10 07:06

AMD准时在每年发布前倒闭一次。

PolyMorph 发表于 2022-9-10 08:29

AMD何时倒闭？

jkllyn3361 发表于 2022-9-10 10:00

不影响大家根据现状寻找需求，回归互相需求再打成一致本身[狂笑]

xks07 发表于 2022-9-10 10:00

黄刀客现在就是前几年的牙膏
不是做不出来，是故意慢慢挤牙膏。
这都看不出来？
显存大小设置就很明显

gjbsas 发表于 2022-9-10 10:12

功耗是多少呢？相同功耗下跟amd显卡比强多少呢？

ts02147823 发表于 2022-9-10 13:50

AMD日常倒闭

futurejl 发表于 2022-9-10 14:53

两人不是亲戚嘛，肯定合计合计一起赚钱啊

kinglfa 发表于 2022-9-10 14:57

4070有256bit没？

af_x_if 发表于 2022-9-10 15:21

你猜猜MI50（7nm，300W）->MI250X（6nm，500W）提升了多少倍？

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

很多人没明白英伟达能用TSMC 5nm做出多强的卡