关于AI PC的50TOPS,请教各位180mm
从字面意思讲,这个50TOPS是每秒50T操作,按照TPU提供的数据Pixel Rate 208.3 GPixel/s
Texture Rate 625.0 GTexel/s
FP16 (half) 40.00 TFLOPS (1:1)
FP32 (float) 40.00 TFLOPS
FP64 (double) 625.0 GFLOPS (1:64)
3090TiFP16也就40TFLOPS,那么AIPC是不是可以和3090Ti匹敌了呢?
因为我手上确实有一张3090Ti, 如果算力相当,那cpu就有更高的性价比,比3090Ti强,3090发热厉害,一工作就是450W。 aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops [偷笑]这种宣传的东西要是能跟3090一个级别肯定大吹特吹啊。 3090Ti的INT8超过300TOPS(tensorcore) 那个50TOPS是按照int8算的。 xy. 发表于 2024-7-15 21:26
aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops
上数量级了啊 狮子歌歌 发表于 2024-7-15 21:28
这种宣传的东西要是能跟3090一个级别肯定大吹特吹啊。
还没到呢,宣传力度就来了 aozorahishi 发表于 2024-7-15 21:29
3090Ti的INT8超过300TOPS(tensorcore)
按300T, 差距也是明显 af_x_if 发表于 2024-7-15 21:30
那个50TOPS是按照int8算的。
加个大内存,可是有可玩性的,不知道行不行 xy. 发表于 2024-7-15 21:26
aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops
4080Super才830 Tops,3090Ti到不了的[傻笑] 得看精度,各家宣传的NPU好像都是INT8,水果是FP16,3090在这两个精度下的TOPs高得多 PaperMellon 发表于 2024-7-15 21:49
得看精度,各家宣传的NPU好像都是INT8,水果是FP16,3090在这两个精度下的TOPs高得多 ...
黄总blackwell都fp4了。。。。
精度越来越不重要了 gihu 发表于 2024-7-15 08:47
4080Super才830 Tops,3090Ti到不了的
但40系算的是FP4 FP32 (float) 40.00 TFLOPS,厉害[困惑] 赫敏 发表于 2024-7-15 22:05
但40系算的是FP4
Tops说的是整数计算,怎么会是FP4[偷笑] wjm47196 发表于 2024-7-15 21:59
黄总blackwell都fp4了。。。。
精度越来越不重要了
精度对AI的准确性还是重要的其实,根据https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaper-v2.1.pdf 这份文件的第30页,楼主的3090Ti的Peak FP16 在tensor加速下都超过50了。INT8更高。
如果只是追求速度的话,低精度是一个方案。 赫敏 发表于 2024-7-15 22:05
但40系算的是FP4
但楼主说的不是3090Ti吗,FP4的确会快很多,但是准确度是不如8/16/32的 3090ti是生产端设备,可以用作训练,ai pc的npu是消费端设备,npu只考虑怎么高效的推理,所以即便ops完全一致,消费端也没法做训练,还需要生产级的缓存体系。
npu技术上是不落后的,一般还支持混合精度,比如amd的支持w4abf16,intel也应该类似,当然nv从40系就支持transformer引擎(30系只有A100支持,但其实完全不是一个类型),30系虽然没有但也支持混合精度。 本帖最后由 kang12 于 2024-7-15 23:46 编辑
https://www.chiphell.com/thread-2616424-1-1.html 这个新闻帖里有40系N卡的AI TOPS,换算过去可以知道30系的情况,3090Ti在660 AI TOPS左右,单位和现在AI PC宣称的算力单位一致;后者50以内的合计TOPS只能做端侧基本推理,是4050Laptop的四分之一性能,NPU也只是GPU的分支,不要期待太多(价格和算力基本是成正比的,处理器的AI算力价格只占到总价的噱头级别)[困惑]。
PaperMellon 发表于 2024-7-15 09:30
但楼主说的不是3090Ti吗,FP4的确会快很多,但是准确度是不如8/16/32的
我是针对说4080比3090ti强的 gihu 发表于 2024-7-15 09:26
Tops说的是整数计算,怎么会是FP4
你所谓4080super 830 tops就是FP4算力,40系根本没有专门的int8算力 gihu 发表于 2024-7-15 09:26
Tops说的是整数计算,怎么会是FP4
我又错了,其实40系是INT4,FP4,INT8,FP8,BF16,TF32全精度制霸 经济型快餐vs满汉全席
当然了各有各的吹法,自己开心最重要。 真有人信这些厂商的话术吗?
稍微玩点 diy 都该知道和性能直接相关的看芯片面积是最容易的。
NEU 指甲盖那点面积,还想干嘛。 privater 发表于 2024-7-16 01:12
真有人信这些厂商的话术吗?
稍微玩点 diy 都该知道和性能直接相关的看芯片面积是最容易的。
对,原材料摆在那里。
但AI 的确是卖点不假。谁叫显卡不先走这一步棋,好领先呢。不然哪有CPU的事。 根据nv的白皮书,3090ti的int8 是320/640TOPS
不知道现在这个稀疏性用的多不多
本帖最后由 hjmfun 于 2024-7-16 09:37 编辑
NV 也发明了和AIPC对标的AI Tops, 可以在官网找到这个表格:
<table>
<thead>
<tr>
<th> </th>
<th>RTX 4090</th>
<th>RTX 4080 SUPER</th>
<th>RTX 4080</th>
<th>RTX 4070 Ti SUPER</th>
<th>RTX 4070 Ti</th>
<th>RTX 4070 SUPER</th>
<th>RTX 4070</th>
<th>RTX 4060 Ti</th>
<th>RTX 4060</th>
<th>RTX 3090Ti</th>
</tr>
</thead>
<tbody>
<tr>
<td class="highlight">DLSS</td>
<td>DLSS 3</td>
<td>DLSS 3</td>
<td>DLSS 3</td>
<td>DLSS 3</td>
<td>DLSS 3</td>
<td>DLSS 3</td>
<td>DLSS 3</td>
<td>DLSS 3</td>
<td>DLSS 3</td>
<td>DLSS 2</td>
</tr>
<tr>
<td class="highlight">Shader Cores</td>
<td>Ada Lovelace<br>83 TFLOPS</td>
<td>Ada Lovelace<br>52 TFLOPS</td>
<td>Ada Lovelace<br>49 TFLOPS</td>
<td>Ada Lovelace<br>44 TFLOPS</td>
<td>Ada Lovelace<br>40 TFLOPS</td>
<td>Ada Lovelace<br>36 TFLOPS</td>
<td>Ada Lovelace<br>29 TFLOPS</td>
<td>Ada Lovelace<br>22 TFLOPS</td>
<td>Ada Lovelace<br>15 TFLOPS</td>
<td>Ampere<br>40 TFLOPS</td>
</tr>
<tr>
<td class="highlight">Ray Tracing Cores</td>
<td>3rd Gen<br>191 TFLOPS</td>
<td>3rd Gen<br>121 TFLOPS</td>
<td>3rd Gen<br>113 TFLOPS</td>
<td>3rd Gen<br>102 TFLOPS</td>
<td>3rd Gen<br>93 TFLOPS</td>
<td>3rd Gen<br>82 TFLOPS</td>
<td>3rd Gen<br>67 TFLOPS</td>
<td>3rd Gen<br>51 TFLOPS</td>
<td>3rd Gen<br>35 TFLOPS</td>
<td>2nd Gen<br>78 TFLOPS</td>
</tr>
<tr>
<td class="highlight">Tensor Cores (AI)</td>
<td>4th Gen<br>1321 AI TOPS</td>
<td>4th Gen<br>836 AI TOPS</td>
<td>4th Gen<br>780 AI TOPS</td>
<td>4th Gen<br>706 AI TOPS</td>
<td>4th Gen<br>641 AI TOPS</td>
<td>4th Gen<br>568 AI TOPS</td>
<td>4th Gen<br>466 AI TOPS</td>
<td>4th Gen<br>353 AI TOPS</td>
<td>4th Gen<br>242 AI TOPS</td>
<td>3rd Gen<br>320 AI TOPS</td>
</tr>
<tr>
<td class="highlight">NVENC</td>
<td>2x 8th Gen<br>with AV1</td>
<td>2x 8th Gen<br>with AV1</td>
<td>2x 8th Gen<br>with AV1</td>
<td>2x 8th Gen<br>with AV1</td>
<td>2x 8th Gen<br>with AV1</td>
<td>1x 8th Gen<br>with AV1</td>
<td>1x 8th Gen<br>with AV1</td>
<td>1x 8th Gen<br>with AV1</td>
<td>1x 8th Gen<br>with AV1</td>
<td>1x 7th Gen</td>
</tr>
<tr>
<td class="highlight">VRAM</td>
<td>24 GB<br>GDDR6X</td>
<td>16 GB<br>GDDR6X</td>
<td>16 GB<br>GDDR6X</td>
<td>12 GB<br>GDDR6X</td>
<td>12 GB<br>GDDR6X</td>
<td>16 GB or 8 GB<br>GDDR6</td>
<td>8 GB<br>GDDR6</td>
<td>8 GB<br>GDDR6</td>
<td>8 GB<br>GDDR6</td>
<td>24 GB<br>GDDR6X</td>
</tr>
</tbody>
</table>
这个AI TOPS可以理解为int 8推理,以外的是我只找到一个UP主解释了这个东西是怎么算的:https://www.bilibili.com/video/BV1Ww4m1Z7aw
从表格可以看到,3090Ti的AI Tops是320,还是远强于npu的,4090直接达到了1300+,完全不是一个量级。
表格出处:https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/ PaperMellon 发表于 2024-7-15 21:49
得看精度,各家宣传的NPU好像都是INT8,水果是FP16,3090在这两个精度下的TOPs高得多 ...
这么看水果更良心。
-- 苹果组装自由度不如PC,更需要一步到位,要有钞能力。我的机器是一点点组装起来的 wjm47196 发表于 2024-7-15 21:59
黄总blackwell都fp4了。。。。
精度越来越不重要了
我跑推理玩,显存凑够48G可以玩70B llama3量化版本 PaperMellon 发表于 2024-7-15 22:28
精度对AI的准确性还是重要的其实,根据https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvi ...
对的,我就是跑推理用,而且3090Ti矿的可能性相对低
页:
[1]
2