找回密码
 加入我们
搜索
      
查看: 23489|回复: 28

[显卡] [分享]RTX A6000 fp16性能 和bf16性能 《补交测试数据》

[复制链接]
发表于 2023-7-10 18:28 | 显示全部楼层
是微调吧,主要是看你基于的模型的量化程度。一般一个预训练大语言模型都会发布多个量化的版本,即使没有别人也会帮他量化。如果基于fp16的量化版本,就可以用fp16微调。很多llm甚至有4bit的模型。
发表于 2023-7-10 19:07 | 显示全部楼层
godspeed66 发表于 2023-7-10 19:00
是的

已经单卡在跑了,预计要跑18万条数据,时间不能容忍,18天才能跑一个epoch


这个取决于代码如何写的,但另外的帖子里面你说你用的deepspeed,现代一点的框架都能利用tensor core,你只需要关注tensor的性能就行了。
发表于 2023-7-10 19:10 | 显示全部楼层
另外文本类的transformer模型是相对density的模型,所以sparse性能肯定是达不到标称的值。
发表于 2023-7-11 14:23 来自手机 | 显示全部楼层
godspeed66 发表于 2023-7-11 14:17
呀呀 算错了  忘了还有sparsity

根据nvidia的官方材料

根据squeezellm的最新研究成果,llm可以提高到稀疏度0.45%。稀疏性能仅用于可以压缩的部分。
发表于 2023-7-19 07:20 | 显示全部楼层
https://huggingface.co/meta-llama

llama2出了,楼主可以试试。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-24 02:40 , Processed in 0.007156 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表