找回密码
 加入我们
搜索
      
查看: 7079|回复: 54

[显卡] 关于AI PC的50TOPS,请教各位180mm

[复制链接]
发表于 2024-7-15 21:19 | 显示全部楼层 |阅读模式
从字面意思讲,这个50TOPS是每秒50T操作,按照TPU提供的数据
Pixel Rate 208.3 GPixel/s
Texture Rate 625.0 GTexel/s
FP16 (half) 40.00 TFLOPS (1:1)
FP32 (float) 40.00 TFLOPS
FP64 (double) 625.0 GFLOPS (1:64)
3090TiFP16也就40TFLOPS,那么AIPC是不是可以和3090Ti匹敌了呢?
因为我手上确实有一张3090Ti, 如果算力相当,那cpu就有更高的性价比,比3090Ti强,3090发热厉害,一工作就是450W。
发表于 2024-7-15 21:26 | 显示全部楼层
aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops
发表于 2024-7-15 21:28 | 显示全部楼层
这种宣传的东西要是能跟3090一个级别肯定大吹特吹啊。
发表于 2024-7-15 21:29 | 显示全部楼层
3090Ti的INT8超过300TOPS(tensorcore)
发表于 2024-7-15 21:30 | 显示全部楼层
那个50TOPS是按照int8算的。
 楼主| 发表于 2024-7-15 21:41 | 显示全部楼层
xy. 发表于 2024-7-15 21:26
aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops

上数量级了啊
 楼主| 发表于 2024-7-15 21:42 | 显示全部楼层
狮子歌歌 发表于 2024-7-15 21:28
这种宣传的东西要是能跟3090一个级别肯定大吹特吹啊。

还没到呢,宣传力度就来了
 楼主| 发表于 2024-7-15 21:42 | 显示全部楼层
aozorahishi 发表于 2024-7-15 21:29
3090Ti的INT8超过300TOPS(tensorcore)

按300T, 差距也是明显
 楼主| 发表于 2024-7-15 21:43 | 显示全部楼层
af_x_if 发表于 2024-7-15 21:30
那个50TOPS是按照int8算的。

加个大内存,可是有可玩性的,不知道行不行
发表于 2024-7-15 21:47 | 显示全部楼层
xy. 发表于 2024-7-15 21:26
aipc 要求的那个 tops 不区分操作类型或者宽度, 3090ti 换算过来至少有 800 tops

4080Super才830 Tops,3090Ti到不了的
发表于 2024-7-15 21:49 | 显示全部楼层
得看精度,各家宣传的NPU好像都是INT8,水果是FP16,3090在这两个精度下的TOPs高得多
发表于 2024-7-15 21:59 | 显示全部楼层
PaperMellon 发表于 2024-7-15 21:49
得看精度,各家宣传的NPU好像都是INT8,水果是FP16,3090在这两个精度下的TOPs高得多 ...

黄总blackwell都fp4了。。。。
精度越来越不重要了
发表于 2024-7-15 22:05 | 显示全部楼层
gihu 发表于 2024-7-15 08:47
4080Super才830 Tops,3090Ti到不了的

但40系算的是FP4
发表于 2024-7-15 22:25 | 显示全部楼层
FP32 (float) 40.00 TFLOPS,厉害
发表于 2024-7-15 22:26 | 显示全部楼层

Tops说的是整数计算,怎么会是FP4
发表于 2024-7-15 22:28 | 显示全部楼层
wjm47196 发表于 2024-7-15 21:59
黄总blackwell都fp4了。。。。
精度越来越不重要了

精度对AI的准确性还是重要的其实,根据https://images.nvidia.com/aem-da ... whitepaper-v2.1.pdf 这份文件的第30页,楼主的3090Ti的Peak FP16 在tensor加速下都超过50了。INT8更高。
如果只是追求速度的话,低精度是一个方案。
发表于 2024-7-15 22:30 | 显示全部楼层

但楼主说的不是3090Ti吗,FP4的确会快很多,但是准确度是不如8/16/32的
发表于 2024-7-15 22:54 | 显示全部楼层
3090ti是生产端设备,可以用作训练,ai pc的npu是消费端设备,npu只考虑怎么高效的推理,所以即便ops完全一致,消费端也没法做训练,还需要生产级的缓存体系。

npu技术上是不落后的,一般还支持混合精度,比如amd的支持w4abf16,intel也应该类似,当然nv从40系就支持transformer引擎(30系只有A100支持,但其实完全不是一个类型),30系虽然没有但也支持混合精度。
发表于 2024-7-15 23:40 | 显示全部楼层
本帖最后由 kang12 于 2024-7-15 23:46 编辑

https://www.chiphell.com/thread-2616424-1-1.html 这个新闻帖里有40系N卡的AI TOPS,换算过去可以知道30系的情况,3090Ti在660 AI TOPS左右,单位和现在AI PC宣称的算力单位一致;后者50以内的合计TOPS只能做端侧基本推理,是4050Laptop的四分之一性能,NPU也只是GPU的分支,不要期待太多(价格和算力基本是成正比的,处理器的AI算力价格只占到总价的噱头级别)
发表于 2024-7-15 23:59 | 显示全部楼层
PaperMellon 发表于 2024-7-15 09:30
但楼主说的不是3090Ti吗,FP4的确会快很多,但是准确度是不如8/16/32的

我是针对说4080比3090ti强的
发表于 2024-7-16 00:03 | 显示全部楼层
gihu 发表于 2024-7-15 09:26
Tops说的是整数计算,怎么会是FP4

你所谓4080super 830 tops就是FP4算力,40系根本没有专门的int8算力

点评

错了,是FP8不是FP4 https://images.nvidia.com/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf  发表于 2024-7-16 00:15
发表于 2024-7-16 00:24 | 显示全部楼层
gihu 发表于 2024-7-15 09:26
Tops说的是整数计算,怎么会是FP4

我又错了,其实40系是INT4,FP4,INT8,FP8,BF16,TF32全精度制霸
发表于 2024-7-16 00:29 | 显示全部楼层
经济型快餐vs满汉全席

当然了各有各的吹法,自己开心最重要。
发表于 2024-7-16 01:12 | 显示全部楼层
真有人信这些厂商的话术吗?

稍微玩点 diy 都该知道和性能直接相关的看芯片面积是最容易的。
NEU 指甲盖那点面积,还想干嘛。
发表于 2024-7-16 09:16 | 显示全部楼层
privater 发表于 2024-7-16 01:12
真有人信这些厂商的话术吗?

稍微玩点 diy 都该知道和性能直接相关的看芯片面积是最容易的。

对,原材料摆在那里。

但AI 的确是卖点不假。谁叫显卡不先走这一步棋,好领先呢。不然哪有CPU的事。
发表于 2024-7-16 09:30 | 显示全部楼层
根据nv的白皮书,3090ti的int8 是320/640TOPS
不知道现在这个稀疏性用的多不多

微信图片_20240716092947.jpg
发表于 2024-7-16 09:35 | 显示全部楼层
本帖最后由 hjmfun 于 2024-7-16 09:37 编辑

NV 也发明了和AIPC对标的AI Tops, 可以在官网找到这个表格:
<table>
        <thead>
            <tr>
                <th> </th>
                <th>RTX 4090</th>
                <th>RTX 4080 SUPER</th>
                <th>RTX 4080</th>
                <th>RTX 4070 Ti SUPER</th>
                <th>RTX 4070 Ti</th>
                <th>RTX 4070 SUPER</th>
                <th>RTX 4070</th>
                <th>RTX 4060 Ti</th>
                <th>RTX 4060</th>
                <th>RTX 3090Ti</th>
            </tr>
        </thead>
        <tbody>
            <tr>
                <td class="highlight">DLSS</td>
                <td>DLSS 3</td>
                <td>DLSS 3</td>
                <td>DLSS 3</td>
                <td>DLSS 3</td>
                <td>DLSS 3</td>
                <td>DLSS 3</td>
                <td>DLSS 3</td>
                <td>DLSS 3</td>
                <td>DLSS 3</td>
                <td>DLSS 2</td>
            </tr>
            <tr>
                <td class="highlight">Shader Cores</td>
                <td>Ada Lovelace<br>83 TFLOPS</td>
                <td>Ada Lovelace<br>52 TFLOPS</td>
                <td>Ada Lovelace<br>49 TFLOPS</td>
                <td>Ada Lovelace<br>44 TFLOPS</td>
                <td>Ada Lovelace<br>40 TFLOPS</td>
                <td>Ada Lovelace<br>36 TFLOPS</td>
                <td>Ada Lovelace<br>29 TFLOPS</td>
                <td>Ada Lovelace<br>22 TFLOPS</td>
                <td>Ada Lovelace<br>15 TFLOPS</td>
                <td>Ampere<br>40 TFLOPS</td>
            </tr>
            <tr>
                <td class="highlight">Ray Tracing Cores</td>
                <td>3rd Gen<br>191 TFLOPS</td>
                <td>3rd Gen<br>121 TFLOPS</td>
                <td>3rd Gen<br>113 TFLOPS</td>
                <td>3rd Gen<br>102 TFLOPS</td>
                <td>3rd Gen<br>93 TFLOPS</td>
                <td>3rd Gen<br>82 TFLOPS</td>
                <td>3rd Gen<br>67 TFLOPS</td>
                <td>3rd Gen<br>51 TFLOPS</td>
                <td>3rd Gen<br>35 TFLOPS</td>
                <td>2nd Gen<br>78 TFLOPS</td>
            </tr>
            <tr>
                <td class="highlight">Tensor Cores (AI)</td>
                <td>4th Gen<br>1321 AI TOPS</td>
                <td>4th Gen<br>836 AI TOPS</td>
                <td>4th Gen<br>780 AI TOPS</td>
                <td>4th Gen<br>706 AI TOPS</td>
                <td>4th Gen<br>641 AI TOPS</td>
                <td>4th Gen<br>568 AI TOPS</td>
                <td>4th Gen<br>466 AI TOPS</td>
                <td>4th Gen<br>353 AI TOPS</td>
                <td>4th Gen<br>242 AI TOPS</td>
                <td>3rd Gen<br>320 AI TOPS</td>
            </tr>
            <tr>
                <td class="highlight">NVENC</td>
                <td>2x 8th Gen<br>with AV1</td>
                <td>2x 8th Gen<br>with AV1</td>
                <td>2x 8th Gen<br>with AV1</td>
                <td>2x 8th Gen<br>with AV1</td>
                <td>2x 8th Gen<br>with AV1</td>
                <td>1x 8th Gen<br>with AV1</td>
                <td>1x 8th Gen<br>with AV1</td>
                <td>1x 8th Gen<br>with AV1</td>
                <td>1x 8th Gen<br>with AV1</td>
                <td>1x 7th Gen</td>
            </tr>
            <tr>
                <td class="highlight">VRAM</td>
                <td>24 GB<br>GDDR6X</td>
                <td>16 GB<br>GDDR6X</td>
                <td>16 GB<br>GDDR6X</td>
                <td>12 GB<br>GDDR6X</td>
                <td>12 GB<br>GDDR6X</td>
                <td>16 GB or 8 GB<br>GDDR6</td>
                <td>8 GB<br>GDDR6</td>
                <td>8 GB<br>GDDR6</td>
                <td>8 GB<br>GDDR6</td>
                <td>24 GB<br>GDDR6X</td>
            </tr>
        </tbody>
    </table>
这个AI TOPS可以理解为int 8推理,以外的是我只找到一个UP主解释了这个东西是怎么算的:https://www.bilibili.com/video/BV1Ww4m1Z7aw

从表格可以看到,3090Ti的AI Tops是320,还是远强于npu的,4090直接达到了1300+,完全不是一个量级。
表格出处:https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/
 楼主| 发表于 2024-7-16 09:38 | 显示全部楼层
PaperMellon 发表于 2024-7-15 21:49
得看精度,各家宣传的NPU好像都是INT8,水果是FP16,3090在这两个精度下的TOPs高得多 ...

这么看水果更良心。
-- 苹果组装自由度不如PC,更需要一步到位,要有钞能力。我的机器是一点点组装起来的
 楼主| 发表于 2024-7-16 09:40 | 显示全部楼层
wjm47196 发表于 2024-7-15 21:59
黄总blackwell都fp4了。。。。
精度越来越不重要了

我跑推理玩,显存凑够48G可以玩70B llama3量化版本
 楼主| 发表于 2024-7-16 09:46 | 显示全部楼层
PaperMellon 发表于 2024-7-15 22:28
精度对AI的准确性还是重要的其实,根据https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvi ...

对的,我就是跑推理用,而且3090Ti矿的可能性相对低
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 16:14 , Processed in 0.014352 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表