T.JOHN 发表于 2022-9-9 23:43

很多人没明白英伟达能用TSMC 5nm做出多强的卡

A100白皮书 https://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf
GA102白皮书 https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf
H100白皮书 https://resources.nvidia.com/en-us-tensor-core

以下所有数据和内容均出自于上面三分白皮书,简单点说就是H100两个版本。完全体SXM5性能是3.1x A100,规模是2.5x。功耗1.75x,缩水体也可以做到PCIe性能是A100 2.5x,规模2.1x,功耗0.88x

https://imgs.services/i/2022/09/09/12oaim1.jpg

我引用一下原话就是
3x faster IEEE FP64 and FP32 processing rates chip-to-chip compared to A100, due to 2x faster clock-for-clock performance per SM, plus additional SM counts and higher clocks of H100.
https://imgs.services/i/2022/09/09/12oaxiz.jpg

从CUDA规模上看,GA102的sm单元是A100的1/2(多个RT core),而A100又是H100的1/2。H100还有PCIe5.0,HBM3e,这些不会用游戏卡上的暂且不提。

也就是说7nm->5nm,老黄可以做出了同功耗理论性能2.5x+的卡。那么samsung 8nm->5nm,你不用大脑就能想到老黄性能上压制AMD不是能不能的事情,而是想不想的事情。现在不管什么传言,ada lovelace高功耗也好,以及之前GH下放也罢。只要老黄想,规模做到GA102直接2x+,再加上频率1.5x,这是毫无难度,这性能提升绝对比ampere相比turing大了多。

我黄只是给苏妈留点面子,不想赢了那么多,旗舰只要象征性稍微赢点就行了,然后定格高价,愿者上钩,走量还是靠下面的60/70。也不知道RNDA3究竟如何,大家都要赚钱,所以向来精准的刀法需要一定地酝酿,免得你们这群打游戏的说我老黄老了,刀法不行。面对vega整出个1080ti纯属没必要[怪脸]

无聊的石头 发表于 2022-9-9 23:46

啊 对对对

赫敏 发表于 2022-9-9 23:52

计算卡重复单元多,频率不用很高。游戏卡要把各种硬件特效做上去还要保证频率,所以5nm密度优势没那么大

当然老黄这边拿捏下amd还是一点问题都没有的

mullions 发表于 2022-9-9 23:55

明白了又能怎么样

谎言之神Cyric 发表于 2022-9-9 23:57

所以发售三个月内价格会到MSPR的五折吗[可爱]

rSkip 发表于 2022-9-10 00:04

GA100没有像游戏卡那样FP32加倍,显得挺低的。可能是立项比较早的原因?还是说为了加强矩阵乘法而减少向量乘法投入

dead_kiss 发表于 2022-9-10 00:05

苏妈躲在墙角喃喃自言自语:锤你的是30系,跟我有什么关系

lk_yeah 发表于 2022-9-10 00:08

N也好,A也好,谁强谁弱有什么好争的呢,谁强你买谁的就是了啊,争论这个有钱收?

psps3 发表于 2022-9-10 00:15

本帖最后由 psps3 于 2022-9-10 00:25 编辑

下代卡老黄不知能切出多少型号[偷笑]

明月路小霸王 发表于 2022-9-10 00:18

谁性能强就买谁~~我没有信仰的~~我只有钱

nnjohnnie 发表于 2022-9-10 00:23

黄:小赢中赢还是大赢?真是烦恼

xudi8092 发表于 2022-9-10 00:36

没意义,马上发布了,有多强到时候自然见分晓

gbawrc 发表于 2022-9-10 00:43

qiu95 发表于 2022-9-10 01:08

楼主有一些认识偏差,首先比较tensor core的性能对于游戏计算来说是没有意义的,tensor core的执行主要是对于HMMA.16816指令。而游戏中更多用的是cuda core的性能,这里老黄可能要让你失望了,你看A6000的GA102的fp32的性能是38.7,而GA100的SM中FP32和INT32是不同的,所以A100的fp32的性能会比A6000(3090)差。回到 H100的fp32,SM中的FP32翻倍,达到48T。实际提升了24%。并且这还是考虑到两边显存带宽都是没有瓶颈上。并且H100的话少了RTcore,加回来的话肯定要占其他计算单元的位置(估计要砍tensor core的性能)。再加上raster engine,估计这代提升在20%左右比较正常

T.JOHN 发表于 2022-9-10 01:21

qiu95 发表于 2022-9-10 01:08
楼主有一些认识偏差,首先比较tensor core的性能对于游戏计算来说是没有意义的,tensor core的执行主要是对 ...

这不是GA102和A100的横向比较,两者本来就不具备可比性,我自然知道3090 FP32 39T。这里比的是H100和A100,除了显存容量不变,一次工艺变更,从FP8->FP64全方位3X性能提升,而不是拆东墙补西墙式的提升。说了直白点就是老黄不计成本游戏卡至少能做到3X+理论性能提升,因为samsung 8nm远不如tmsc 7nm。

liyichao97 发表于 2022-9-10 01:28

虽说我估计ad102完全体也是会比n31强点…
但是用fp32估性能吧,n31应该也得有n21的三倍来着…这么算没啥太大意义,和游戏帧数的提升挂钩太少

FelixIvory 发表于 2022-9-10 02:32

本帖最后由 FelixIvory 于 2022-9-10 02:33 编辑

1.能耗比,在一个合适功耗下的中端卡性能。
2.定价。
3.恶心玩家,16g显存是分水岭。游戏建模的提升,显存给16g才能保证未来游戏在4k下运行良好。
4.单纯谈旗舰,无非是能耗比和规模的博弈。

用户 发表于 2022-9-10 02:35

本帖最后由 用户 于 2022-9-10 02:51 编辑

MLPerf结果已经出来了,ResNet50看着没到2倍啊?

https://blogs.nvidia.com/wp-content/uploads/2022/09/H100-final-scaled.jpg

BERT加速多但好像用了低精度

Bysmiel 发表于 2022-9-10 04:28

问题不是他能做多强,而是市场环境能让你花同样的钱买到多强的货。

ws1234 发表于 2022-9-10 05:13

很久之前,intel的fans也是这样说amd的……

老喵 发表于 2022-9-10 06:06

拿表面数据做出的表面结论

jiekedexin 发表于 2022-9-10 07:06

AMD准时在每年发布前倒闭一次。

PolyMorph 发表于 2022-9-10 08:29

AMD何时倒闭?

jkllyn3361 发表于 2022-9-10 10:00

不影响大家根据现状寻找需求,回归互相需求再打成一致本身[狂笑]

xks07 发表于 2022-9-10 10:00

黄刀客现在就是前几年的牙膏
不是做不出来,是故意慢慢挤牙膏。
这都看不出来?
显存大小设置就很明显

gjbsas 发表于 2022-9-10 10:12

功耗是多少呢?相同功耗下跟amd显卡比强多少呢?

ts02147823 发表于 2022-9-10 13:50

AMD日常倒闭

futurejl 发表于 2022-9-10 14:53

两人不是亲戚嘛,肯定合计合计一起赚钱啊

kinglfa 发表于 2022-9-10 14:57

4070有256bit没?

af_x_if 发表于 2022-9-10 15:21

你猜猜MI50(7nm,300W)->MI250X(6nm,500W)提升了多少倍?
页: [1] 2
查看完整版本: 很多人没明白英伟达能用TSMC 5nm做出多强的卡