分享手头三个N卡的AI计算速度对比(个人程序)
测试程序:一千多组double类型数据,每组数据含上千个点,迭代计算一万次。果然“买的多就是省得多啊”[傻笑]2080FE:1.25 秒/迭代
1060MQ:2.69秒/迭代
4070TiS:0.7秒/迭代
取决于个人的时间价值。
月入2000的人点100元的外卖是奢侈行为,自己买菜做饭是省钱行为。
月入200000的人点100元的外卖是省钱行为,自己买菜做饭是奢侈行为。 现在这些测卡很多都是个测个的,基本上没啥横评价值
有没有什么卡数量比较比较多的统一测试 AI一般不用double,都是float,bfloat gartour 发表于 2024-4-7 21:54
取决于个人的时间价值。
月入2000的人点100元的外卖是奢侈行为,自己买菜做饭是省钱行为。
存在一个bug:月入n的厨子随便多做炒点菜就可以节省多余开支[傻笑] 用户 发表于 2024-4-8 00:59
AI一般不用double,都是float,bfloat
准确来说.......FP32算是out了
现在基本盘是BF16/FP16
FP8是40系tensor的主流,Blackwell的FP6估计还能提一级
LLM好像可以量化到int4
至于fp64感觉更像是有限元仿真...... welsmann 发表于 2024-4-8 01:14
准确来说.......FP32算是out了
现在基本盘是BF16/FP16
FP8是40系tensor的主流,Blackwell的FP6估计还能提 ...
那是inference。training还得至少16位。我见过的64位精度用在NN上,一个是neuralode,一个是矩阵求逆,都是极端特殊应用。
页:
[1]