显卡算力这个词是不是和挖X一起被炒起来的啊记得以前都是跑分没人提算力啊

welsmann · 发表于 2024-9-13 10:41

本帖最后由 welsmann 于 2024-9-13 10:44 编辑

说到这个总是让我想起现在的各类NPU，XPU芯片的算力，天天嘴上挂着XXXTOPs，这个TOPs是FP32？FP16？FP8？INT8?INT4？

关键是这些NPU都不敢亮血条来batte一下，不如GPGPU实在，

要说AI运算，那黄伟达的芯片一开稀疏矩阵跑起tensor直接就起飞了，

带了tensor的FP8加上稀疏矩阵的4090默频都能到1.320PFlops（我记得应该是NV的ada架构白皮书里这么写的https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf）

又：4090可以超，小飞机一拉超到3.06GHz可以去看AIDA64里面（位置大概在GPGPU）有个理论性能计算页面，FP32都被干到100Tflops了，你细品，什么tensor FP8，估计按照白皮书的换算法，估计都有小800T了（上稀疏矩阵估计1.4~1.5P应该有的）。

更别提帕斯卡以来就有的INT4，那都不敢想，如果按照现在这种文字游戏TOP算力（跑的最快的数据格式，tensor INT4稀疏矩阵），默频估计有2PTOPs多，超了可能有3PTOPs。然而有些芯片没那个逻辑电路，就跟1080跑FP16一样，慢悠悠的，NPU呢？FP8估计也不行。所以这种算力就是个伪命题，最好都先实锤硬件上原生支持哪些数据格式，再归一化（比如说喜闻乐见的FP32）亮血条了比

welsmann · 发表于 2024-9-13 10:48

本帖最后由 welsmann 于 2024-9-13 10:49 编辑

jxljk 发表于 2024-9-13 10:44
很久以前都是单双精度老黄把双精度给砍了现在我好奇 RTX 这个tensor 是什么运算 ...

有个tensorcore，https://images.nvidia.cn/aem-dam ... pu-architecture.pdf里面有讲，再每一组里面有一个tensorcore单元，他的功能是每次CUDA跑AI的时候就会介入，数据进去会被加速运算。配合外面普通的单精度FP/INT SM流处理器协同计算就能实现混合精度运算比单纯的单精度/INT32运算单元要快很多

你可以认为tensor FP32 /ten sor FP16 tensor xx 是老黄针对CUDA架构进行优化的数据格式，能够榨干CUDA GPU性能

账号		自动登录	找回密码
密码			加入我们

[显卡] 显卡算力这个词是不是和挖X一起被炒起来的啊记得以前都是跑分没人提算力啊

浏览过的版块

[显卡] 显卡算力这个词是不是和挖X一起被炒起来的啊 记得以前都是跑分 没人提算力啊

浏览过的版块

[显卡] 显卡算力这个词是不是和挖X一起被炒起来的啊记得以前都是跑分没人提算力啊