关于AI PC的50TOPS，请教各位180mm

os39000 发表于 2024-7-15 21:19

从字面意思讲，这个50TOPS是每秒50T操作，按照TPU提供的数据
Pixel Rate 208.3 GPixel/s
Texture Rate 625.0 GTexel/s
FP16 (half) 40.00 TFLOPS (1:1)
FP32 (float) 40.00 TFLOPS
FP64 (double) 625.0 GFLOPS (1:64)
3090TiFP16也就40TFLOPS，那么AIPC是不是可以和3090Ti匹敌了呢？
因为我手上确实有一张3090Ti, 如果算力相当，那cpu就有更高的性价比，比3090Ti强，3090发热厉害，一工作就是450W。

xy. 发表于 2024-7-15 21:26

aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops

狮子歌歌 发表于 2024-7-15 21:28

[偷笑]这种宣传的东西要是能跟3090一个级别肯定大吹特吹啊。

aozorahishi 发表于 2024-7-15 21:29

3090Ti的INT8超过300TOPS（tensorcore）

af_x_if 发表于 2024-7-15 21:30

那个50TOPS是按照int8算的。

os39000 发表于 2024-7-15 21:41

xy. 发表于 2024-7-15 21:26
aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops

上数量级了啊

os39000 发表于 2024-7-15 21:42

狮子歌歌发表于 2024-7-15 21:28
这种宣传的东西要是能跟3090一个级别肯定大吹特吹啊。

还没到呢，宣传力度就来了

os39000 发表于 2024-7-15 21:42

aozorahishi 发表于 2024-7-15 21:29
3090Ti的INT8超过300TOPS（tensorcore）

按300T, 差距也是明显

os39000 发表于 2024-7-15 21:43

af_x_if 发表于 2024-7-15 21:30
那个50TOPS是按照int8算的。

加个大内存，可是有可玩性的，不知道行不行

gihu 发表于 2024-7-15 21:47

xy. 发表于 2024-7-15 21:26
aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops

4080Super才830 Tops，3090Ti到不了的[傻笑]

PaperMellon 发表于 2024-7-15 21:49

得看精度，各家宣传的NPU好像都是INT8，水果是FP16，3090在这两个精度下的TOPs高得多

wjm47196 发表于 2024-7-15 21:59

PaperMellon 发表于 2024-7-15 21:49
得看精度，各家宣传的NPU好像都是INT8，水果是FP16，3090在这两个精度下的TOPs高得多 ...

黄总blackwell都fp4了。。。。
精度越来越不重要了

赫敏发表于 2024-7-15 22:05

gihu 发表于 2024-7-15 08:47
4080Super才830 Tops，3090Ti到不了的

但40系算的是FP4

psps3 发表于 2024-7-15 22:25

FP32 (float) 40.00 TFLOPS，厉害[困惑]

gihu 发表于 2024-7-15 22:26

赫敏发表于 2024-7-15 22:05
但40系算的是FP4

Tops说的是整数计算，怎么会是FP4[偷笑]

PaperMellon 发表于 2024-7-15 22:28

wjm47196 发表于 2024-7-15 21:59
黄总blackwell都fp4了。。。。
精度越来越不重要了

精度对AI的准确性还是重要的其实，根据https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaper-v2.1.pdf 这份文件的第30页，楼主的3090Ti的Peak FP16 在tensor加速下都超过50了。INT8更高。
如果只是追求速度的话，低精度是一个方案。

PaperMellon 发表于 2024-7-15 22:30

赫敏发表于 2024-7-15 22:05
但40系算的是FP4

但楼主说的不是3090Ti吗，FP4的确会快很多，但是准确度是不如8/16/32的

我輩樹である 发表于 2024-7-15 22:54

3090ti是生产端设备，可以用作训练，ai pc的npu是消费端设备，npu只考虑怎么高效的推理，所以即便ops完全一致，消费端也没法做训练，还需要生产级的缓存体系。

npu技术上是不落后的，一般还支持混合精度，比如amd的支持w4abf16，intel也应该类似，当然nv从40系就支持transformer引擎（30系只有A100支持，但其实完全不是一个类型），30系虽然没有但也支持混合精度。

kang12 发表于 2024-7-15 23:40

本帖最后由 kang12 于 2024-7-15 23:46 编辑

https://www.chiphell.com/thread-2616424-1-1.html 这个新闻帖里有40系N卡的AI TOPS，换算过去可以知道30系的情况，3090Ti在660 AI TOPS左右，单位和现在AI PC宣称的算力单位一致；后者50以内的合计TOPS只能做端侧基本推理，是4050Laptop的四分之一性能，NPU也只是GPU的分支，不要期待太多（价格和算力基本是成正比的，处理器的AI算力价格只占到总价的噱头级别）[困惑]。

赫敏发表于 2024-7-15 23:59

PaperMellon 发表于 2024-7-15 09:30
但楼主说的不是3090Ti吗，FP4的确会快很多，但是准确度是不如8/16/32的

我是针对说4080比3090ti强的

赫敏发表于 2024-7-16 00:03

gihu 发表于 2024-7-15 09:26
Tops说的是整数计算，怎么会是FP4

你所谓4080super 830 tops就是FP4算力，40系根本没有专门的int8算力

赫敏发表于 2024-7-16 00:24

gihu 发表于 2024-7-15 09:26
Tops说的是整数计算，怎么会是FP4

我又错了，其实40系是INT4,FP4,INT8,FP8,BF16,TF32全精度制霸

zerozerone 发表于 2024-7-16 00:29

经济型快餐vs满汉全席

当然了各有各的吹法，自己开心最重要。

privater 发表于 2024-7-16 01:12

真有人信这些厂商的话术吗？

稍微玩点 diy 都该知道和性能直接相关的看芯片面积是最容易的。
NEU 指甲盖那点面积，还想干嘛。

cuixiang 发表于 2024-7-16 09:16

privater 发表于 2024-7-16 01:12
真有人信这些厂商的话术吗？

稍微玩点 diy 都该知道和性能直接相关的看芯片面积是最容易的。

对，原材料摆在那里。

但AI 的确是卖点不假。谁叫显卡不先走这一步棋，好领先呢。不然哪有CPU的事。

aibo 发表于 2024-7-16 09:30

根据nv的白皮书，3090ti的int8 是320/640TOPS
不知道现在这个稀疏性用的多不多

hjmfun 发表于 2024-7-16 09:35

本帖最后由 hjmfun 于 2024-7-16 09:37 编辑

NV 也发明了和AIPC对标的AI Tops, 可以在官网找到这个表格：
<table>
 <thead>
 <tr>
 <th> </th>
 <th>RTX 4090</th>
 <th>RTX 4080 SUPER</th>
 <th>RTX 4080</th>
 <th>RTX 4070 Ti SUPER</th>
 <th>RTX 4070 Ti</th>
 <th>RTX 4070 SUPER</th>
 <th>RTX 4070</th>
 <th>RTX 4060 Ti</th>
 <th>RTX 4060</th>
 <th>RTX 3090Ti</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <td class="highlight">DLSS</td>
 <td>DLSS 3</td>
 <td>DLSS 3</td>
 <td>DLSS 3</td>
 <td>DLSS 3</td>
 <td>DLSS 3</td>
 <td>DLSS 3</td>
 <td>DLSS 3</td>
 <td>DLSS 3</td>
 <td>DLSS 3</td>
 <td>DLSS 2</td>
 </tr>
 <tr>
 <td class="highlight">Shader Cores</td>
 <td>Ada Lovelace 83 TFLOPS</td>
 <td>Ada Lovelace 52 TFLOPS</td>
 <td>Ada Lovelace 49 TFLOPS</td>
 <td>Ada Lovelace 44 TFLOPS</td>
 <td>Ada Lovelace 40 TFLOPS</td>
 <td>Ada Lovelace 36 TFLOPS</td>
 <td>Ada Lovelace 29 TFLOPS</td>
 <td>Ada Lovelace 22 TFLOPS</td>
 <td>Ada Lovelace 15 TFLOPS</td>
 <td>Ampere 40 TFLOPS</td>
 </tr>
 <tr>
 <td class="highlight">Ray Tracing Cores</td>
 <td>3rd Gen 191 TFLOPS</td>
 <td>3rd Gen 121 TFLOPS</td>
 <td>3rd Gen 113 TFLOPS</td>
 <td>3rd Gen 102 TFLOPS</td>
 <td>3rd Gen 93 TFLOPS</td>
 <td>3rd Gen 82 TFLOPS</td>
 <td>3rd Gen 67 TFLOPS</td>
 <td>3rd Gen 51 TFLOPS</td>
 <td>3rd Gen 35 TFLOPS</td>
 <td>2nd Gen 78 TFLOPS</td>
 </tr>
 <tr>
 <td class="highlight">Tensor Cores (AI)</td>
 <td>4th Gen 1321 AI TOPS</td>
 <td>4th Gen 836 AI TOPS</td>
 <td>4th Gen 780 AI TOPS</td>
 <td>4th Gen 706 AI TOPS</td>
 <td>4th Gen 641 AI TOPS</td>
 <td>4th Gen 568 AI TOPS</td>
 <td>4th Gen 466 AI TOPS</td>
 <td>4th Gen 353 AI TOPS</td>
 <td>4th Gen 242 AI TOPS</td>
 <td>3rd Gen 320 AI TOPS</td>
 </tr>
 <tr>
 <td class="highlight">NVENC</td>
 <td>2x 8th Gen with AV1</td>
 <td>2x 8th Gen with AV1</td>
 <td>2x 8th Gen with AV1</td>
 <td>2x 8th Gen with AV1</td>
 <td>2x 8th Gen with AV1</td>
 <td>1x 8th Gen with AV1</td>
 <td>1x 8th Gen with AV1</td>
 <td>1x 8th Gen with AV1</td>
 <td>1x 8th Gen with AV1</td>
 <td>1x 7th Gen</td>
 </tr>
 <tr>
 <td class="highlight">VRAM</td>
 <td>24 GB GDDR6X</td>
 <td>16 GB GDDR6X</td>
 <td>16 GB GDDR6X</td>
 <td>12 GB GDDR6X</td>
 <td>12 GB GDDR6X</td>
 <td>16 GB or 8 GB GDDR6</td>
 <td>8 GB GDDR6</td>
 <td>8 GB GDDR6</td>
 <td>8 GB GDDR6</td>
 <td>24 GB GDDR6X</td>
 </tr>
 </tbody>
</table>
这个AI TOPS可以理解为int 8推理，以外的是我只找到一个UP主解释了这个东西是怎么算的：https://www.bilibili.com/video/BV1Ww4m1Z7aw

从表格可以看到，3090Ti的AI Tops是320，还是远强于npu的，4090直接达到了1300+，完全不是一个量级。
表格出处：https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/

os39000 发表于 2024-7-16 09:38

PaperMellon 发表于 2024-7-15 21:49
得看精度，各家宣传的NPU好像都是INT8，水果是FP16，3090在这两个精度下的TOPs高得多 ...

这么看水果更良心。
-- 苹果组装自由度不如PC，更需要一步到位，要有钞能力。我的机器是一点点组装起来的

os39000 发表于 2024-7-16 09:40

wjm47196 发表于 2024-7-15 21:59
黄总blackwell都fp4了。。。。
精度越来越不重要了

我跑推理玩，显存凑够48G可以玩70B llama3量化版本

os39000 发表于 2024-7-16 09:46

PaperMellon 发表于 2024-7-15 22:28
精度对AI的准确性还是重要的其实，根据https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvi ...

对的，我就是跑推理用，而且3090Ti矿的可能性相对低

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

关于AI PC的50TOPS，请教各位180mm