找回密码
 加入我们
搜索
      
查看: 3385|回复: 6

[显卡] 分享手头三个N卡的AI计算速度对比(个人程序)

[复制链接]
发表于 2024-4-7 21:32 来自手机 | 显示全部楼层 |阅读模式
测试程序:一千多组double类型数据,每组数据含上千个点,迭代计算一万次。果然“买的多就是省得多啊”

2080FE:1.25 秒/迭代
1060MQ:2.69秒/迭代
4070TiS:0.7秒/迭代
发表于 2024-4-7 21:54 | 显示全部楼层
取决于个人的时间价值。

月入2000的人点100元的外卖是奢侈行为,自己买菜做饭是省钱行为。

月入200000的人点100元的外卖是省钱行为,自己买菜做饭是奢侈行为。
发表于 2024-4-8 00:44 | 显示全部楼层
现在这些测卡很多都是个测个的,基本上没啥横评价值
有没有什么卡数量比较比较多的统一测试
发表于 2024-4-8 00:59 来自手机 | 显示全部楼层
AI一般不用double,都是float,bfloat
发表于 2024-4-8 01:02 | 显示全部楼层
gartour 发表于 2024-4-7 21:54
取决于个人的时间价值。

月入2000的人点100元的外卖是奢侈行为,自己买菜做饭是省钱行为。

存在一个bug:月入n的厨子随便多做炒点菜就可以节省多余开支
发表于 2024-4-8 01:14 | 显示全部楼层
用户 发表于 2024-4-8 00:59
AI一般不用double,都是float,bfloat

准确来说.......FP32算是out了
现在基本盘是BF16/FP16
FP8是40系tensor的主流,Blackwell的FP6估计还能提一级
LLM好像可以量化到int4
至于fp64感觉更像是有限元仿真......
发表于 2024-4-8 01:42 来自手机 | 显示全部楼层
welsmann 发表于 2024-4-8 01:14
准确来说.......FP32算是out了
现在基本盘是BF16/FP16
FP8是40系tensor的主流,Blackwell的FP6估计还能提 ...

那是inference。training还得至少16位。我见过的64位精度用在NN上,一个是neuralode,一个是矩阵求逆,都是极端特殊应用。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 05:36 , Processed in 0.009199 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表