关于7900XTX 的TPP和PD计算

KimmyGLM · 发表于 2023-10-18 22:53

先贴下BIS原始文稿：
https://www.bis.doc.gov/index.ph ... 73aacd911519e28eb4f

根据文稿做了一些摘要，先贴下BIS 的定义：

3A090.a：the most powerful data-center ICs；
3A090.b：less powerful but could be used to train large-scale AI systems by a sufficiently well-resourced actor

The revised 3A090.a control parameter will control ICs with one or more digital processing units having either:
(1) a ‘total processing performance’ of  4800 or more, or
(2) a ‘total processing performance’ of 1600 or more and a ‘performance densityof 5.92 or more.

The new ECCN 3A090.b will control ICs with one or more digital processing  units having either:
(1) a ‘total processing performance’ of 2400 or more and less than 4800 and a ‘performance density’of 1.6 or more and less than 5.92, or
(2) a ‘total processing performance’ of  1600 or more and a ‘performance density’ of 3.2 or more and less than 5.92.

7900XTX目前可以走开源的AI计算，应该是符合3A090.b的定义；
几个基本参数：
DIE SIZE：300 + 222 mm^2
TFLOPS FP32：61.4
TFLOPS FP16 (FP8/INT8)：128
根据TPP 的计算公式  TPP：1965
PD（power density）: 3.76

两个数据都符合3A090.b  (2)的要求，奇怪的是，竟然没有一丁点关于7900XTX的讨论和下架，国会的这帮大爷们就这么看不起AMD吗？还是说NV这边刻意先下架4090？

PolyMorph · 发表于 2023-10-18 23:11

本帖最后由 PolyMorph 于 2023-10-19 00:00 编辑

4090ti专业版 Quadro Tesla jd还敞开卖呢，还不跪谢奸商们

KimmyGLM · 发表于 2023-10-18 23:14

PolyMorph 发表于 2023-10-18 23:11
4090ti专业版jd还敞开卖呢，还不跪谢国会大老爷

也许是AMD的ai计算确实太垃圾了, 没人看的上，真惨

fighte97 · 发表于 2023-10-18 23:17

AD102有三四张卡不在他们所谓的"官方封禁名单"里

chungexcy · 发表于 2023-10-18 23:18

本帖最后由 chungexcy 于 2023-10-18 23:22 编辑

FP32在50TFlops以上且500mm2以内的显卡都符合。
老黄需要切出一块12288CUDA的4080super才行。
等下一代换成fp+fp+int架构，性能估计也只能比现在的4080提高70-80%了。。。

PolyMorph · 发表于 2023-10-18 23:33

chungexcy 发表于 2023-10-18 23:18
FP32在50TFlops以上且500mm2以内的显卡都符合。
老黄需要切出一块12288CUDA的4080super才行。
等下一代换成 ...

4080已经破50T了，所以始终是商家在表演

PPXG · 发表于 2023-10-18 23:33

我对事件全貌推断是这样：
最早是NV提供给SEC的那个报告，之所以有4090其实是NV想抗议BIS的这个要求所以举了4090做例子，不然6000Ada肯定也在内。。。。然后另一张计算了TPP等各种数据的图是XX证券的人员看到报告后逆推因果做的图。。。所以没有6000Ada，也没XTX。而且有人提到XX证券这个图做的非常不专业

说白了这就是一场非技术专业金融工作人员瞎找数据闹出来的乌龙罢了。。。。。另外事件有了最新进展，论坛这边就不方便说了，估计马上又要锁帖子了

hellol1 · 发表于 2023-10-18 23:45

PPXG 发表于 2023-10-18 23:33
我对事件全貌推断是这样：
最早是NV提供给SEC的那个报告，之所以有4090其实是NV想抗议BIS的这个要求所以举 ...

之前悄悄生产4090的厂商拿不到芯片了。。。

所以下一波是给零售4090改装涡轮散热套件？

chungexcy · 发表于 2023-10-18 23:51

PolyMorph 发表于 2023-10-18 23:33
4080已经破50T了，所以始终是商家在表演

超频性能不算，不然别人直接定到40TFlops

NVIDIA CUDA® Cores 9728
Boost Clock (GHz) 2.51

FP32=48.83TFlops

用户 · 发表于 2023-10-18 23:53

chungexcy 发表于 2023-10-18 23:18
FP32在50TFlops以上且500mm2以内的显卡都符合。
老黄需要切出一块12288CUDA的4080super才行。
等下一代换成 ...

弄片标称0.5ghz的硅渣不就行了，然后拿回去自己超频

PolyMorph · 发表于 2023-10-19 00:03

chungexcy 发表于 2023-10-18 23:51
超频性能不算，不然别人直接定到40TFlops

NVIDIA CUDA® Cores 9728

4080super就可以光明正大制裁了

chungexcy · 发表于 2023-10-19 00:11

PolyMorph 发表于 2023-10-19 00:03
4080super就可以光明正大制裁了

4080super 不超过 12888 cuda 就行，600mm2的AD102可以弄到60T

LV3的萝莉控 · 发表于 2023-10-19 00:13

所以TPP到底是怎么算的？没看出来

PolyMorph · 发表于 2023-10-19 00:16

LV3的萝莉控发表于 2023-10-19 00:13
所以TPP到底是怎么算的？没看出来

tflops x 32bit

Epilogue · 发表于 2023-10-19 00:23

那不是因为amd太没存在感，何况老黄给的文件，肯定只谈自己啊

LV3的萝莉控 · 发表于 2023-10-19 00:28

PolyMorph 发表于 2023-10-19 00:16
tflops x 32bit

算力乘对应精度？

atiufo · 发表于 2023-10-19 08:04

Epilogue 发表于 2023-10-19 00:23
那不是因为amd太没存在感，何况老黄给的文件，肯定只谈自己啊

真相了，那段涉及型号的原文是nv发的，怎么可能提到农企

KimmyGLM · 发表于 2023-10-19 09:00

atiufo 发表于 2023-10-19 08:04
真相了，那段涉及型号的原文是nv发的，怎么可能提到农企

那是NV回复SEC 的报告，是可能受影响的型号，显然是很仓促的回答。

hustlhx · 发表于 2023-10-19 10:23

chungexcy 发表于 2023-10-18 23:51
超频性能不算，不然别人直接定到40TFlops

NVIDIA CUDA® Cores 9728

那是不是出个4090L，规模不变，base频率砍半，就能卖了？

ltpterry · 发表于 2023-10-19 11:46

3A090.b：less powerful but could be used to train large-scale AI systems by a sufficiently well-resourced actor
直译过来就是：“虽然单卡性能较低，但是可以组成大规模AI系统“。4090禁掉了P2P之后就没有办法做大规模的集群了（硬件上不支持，但是以前的驱动有bug显示支持P2P；最近的驱动修复了这个bug）

如果从字面意义去解读的话，不能做p2p的4090其实还是有一点希望的，倒是A6000ada/L40/L40s这次肯定会被禁的

画外：我记得有一次看过一个深水鱼上面的卖家在卖一张es卡，说是只能玩游戏，但cuda完全不能用。我在想要是以后5090出一个不能做计算只玩游戏卖一万出头到底吸引力到底有多大。

KimmyGLM · 发表于 2023-10-19 13:10

ltpterry 发表于 2023-10-19 11:46
3A090.b：less powerful but could be used to train large-scale AI systems by a sufficiently well-reso ...

把cuda加速从游戏卡里面剥离才是真的，不知道能不能直接软屏蔽

Illidan2004 · 发表于 2023-10-19 13:11

KimmyGLM 发表于 2023-10-18 23:14
也许是AMD的ai计算确实太垃圾了, 没人看的上，真惨

你这么说国产卡更没人用了

Illidan2004 · 发表于 2023-10-19 13:12

ltpterry 发表于 2023-10-19 11:46
3A090.b：less powerful but could be used to train large-scale AI systems by a sufficiently well-reso ...

6000ada也没有nvlink啊？
以后集群肯定都是通过CXL了
PCIE+IB/Roce Switch

KimmyGLM · 发表于 2023-10-19 13:23

Illidan2004 发表于 2023-10-19 13:12
6000ada也没有nvlink啊？
以后集群肯定都是通过CXL了
PCIE+IB/Roce Switch

3A090.b 这类在BIS文件都写了，可以去申请豁免。
我估计重点还是集中TPP超过4800 T的这些型号上。

JihadFenix · 发表于 2023-10-19 15:18

KimmyGLM 发表于 2023-10-19 13:10
把cuda加速从游戏卡里面剥离才是真的，不知道能不能直接软屏蔽

屏蔽了怎么DLSS

昰昰暃暃 · 发表于 2023-12-4 14:17

不是说超过tpp4800才被禁售么，4080都差的远，7900xtx离这条线就更远了。

moresun23 · 发表于 2023-12-5 16:28

果断入手7900XTX 红魔省的美丽国加强禁售按趋势国内高端卡换代会比国外慢几代

fluttershy · 发表于 2023-12-5 17:13

因为黄卡搬代码模型用的多今天还有人问我公司采购买4080 搞AI 啥都不懂也不知道要搞多大的模更加用考虑码农会不会搞rocm了

fluttershy · 发表于 2023-12-5 17:18

降算力又不是不行之前锁算力显卡反正也是WIN下通过驱动来玩游戏 linux下直接锁了算力
就看老黄愿不愿意皮里阳秋再搞个漏洞放出去

大头吃小头 · 发表于 2023-12-5 17:24

大概率还是出货以及知名度问题

中国有人拿农企卡rocm来跑ai么？

我想想啊
海光买了amd的老gcn来搞gpgpu，似乎也用了rocm.....

小公司倒是真的没见用的...

账号		自动登录	找回密码
密码			加入我们

[显卡] 关于7900XTX 的TPP和PD计算