找回密码
 加入我们
搜索
      
查看: 5685|回复: 61

[显卡] 显卡算力这个词是不是和挖X一起被炒起来的啊 记得以前都是跑分 没人提算力啊

[复制链接]
发表于 2024-9-13 10:41 | 显示全部楼层
本帖最后由 welsmann 于 2024-9-13 10:44 编辑

说到这个总是让我想起现在的各类NPU,XPU芯片的算力,天天嘴上挂着XXXTOPs,这个TOPs是FP32?FP16?FP8?INT8?INT4?

关键是这些NPU都不敢亮血条来batte一下,不如GPGPU实在,

要说AI运算,那黄伟达的芯片一开稀疏矩阵跑起tensor直接就起飞了,

带了tensor的FP8加上稀疏矩阵的4090默频都能到1.320PFlops(我记得应该是NV的ada架构白皮书里这么写的https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf

又:4090可以超,小飞机一拉超到3.06GHz可以去看AIDA64里面(位置大概在GPGPU)有个理论性能计算页面,FP32都被干到100Tflops了,你细品,什么tensor FP8,估计按照白皮书的换算法,估计都有小800T了(上稀疏矩阵估计1.4~1.5P应该有的)。

更别提帕斯卡以来就有的INT4,那都不敢想,如果按照现在这种文字游戏TOP算力(跑的最快的数据格式,tensor INT4稀疏矩阵),默频估计有2PTOPs多,超了可能有3PTOPs。然而有些芯片没那个逻辑电路,就跟1080跑FP16一样,慢悠悠的,NPU呢?FP8估计也不行。所以这种算力就是个伪命题,最好都先实锤硬件上原生支持哪些数据格式,再归一化(比如说喜闻乐见的FP32)亮血条了比
发表于 2024-9-13 10:48 | 显示全部楼层
本帖最后由 welsmann 于 2024-9-13 10:49 编辑
jxljk 发表于 2024-9-13 10:44
很久以前都是 单双精度   老黄把双精度给砍了  现在我好奇 RTX 这个tensor  是什么运算 ...


有个tensorcore,https://images.nvidia.cn/aem-dam ... pu-architecture.pdf里面有讲,再每一组里面有一个tensorcore单元,他的功能是每次CUDA跑AI的时候就会介入,数据进去会被加速运算。配合外面普通的单精度FP/INT SM流处理器协同计算就能实现混合精度运算比单纯的单精度/INT32运算单元要快很多

你可以认为tensor FP32 /ten sor FP16 tensor xx 是老黄针对CUDA架构进行优化的数据格式,能够榨干CUDA GPU性能
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-14 10:48 , Processed in 0.012607 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表