Chiphell - 分享与交流用户体验

 找回密码
 加入我们
搜索
      
查看: 12291|回复: 45

[显卡] RTX3080/RTX3090炼丹性能堪忧

[复制链接]
发表于 2020-10-18 09:57 | 显示全部楼层 |阅读模式
RTX3080/RTX3090刚发布的时候看着那暴涨的FP32性能一阵高兴,还以为穷人的炼丹性能又可以往前迈出一大步,或许可以上个四卡跑跑大一点的模型。
结果最初的RTX3080炼丹评测来了当头一棒,
FP32的训练速度确实提升明显,大多数模型相对Titan RTX提升接近50%,
FP16的训练速度却没多少提升,甚至某些模型还下降了。
最初以为是RTX3080显存不够导致Batch Size太小没喂饱的锅,
结果不死心等到了RTX3090的测试……结果依然差不多
CNN_BENCH.png
(测试链接)
按理说GA102又是FP32单元暴涨又是新一代TensorCore的,显存带宽也提高了,
结果就这点提升实在是坑爹。
而且RTX3080削减的那1GB显存多少有一点争对炼丹的味道,之前两代11GB显存使得很多实验室模型都卡着这个上限,
1GB显存对游戏来说影响大,对炼丹来说就是会不会OOM的区别。

FP32性能翻倍FP16却没有

最早的时候安培架构的白皮书只有GA100的版本,看上去各种高大上,后来NVIDIA终于更新了GA102的版本,可以对具体情况一窥究竟。
相对Turing架构,用于游戏卡的Ampera架构在宏观上改变并不大,依然是GPC-TPC-SMs的设计,每组SM(Streaming Multiprocessor)
包含128个CUDA Core和4个Tensor Core。
GA10XSM.png
GA10X SM
TU10XSM.png
TU10X SM
最大的变化来自SM内部,TU10X中包含两个数据路径:FP32和INT32,而到了GA10X,原先单独的INT32那一部分,同时也支持FP32。
乍一看利用率提升了很多似乎提升很大,FP32性能确实翻倍了,但是FP16却没有?
TU10X中,FP32那一部分同时支持双倍的FP16操作,可是到了GA10X中,混合的那一部分并没有这个特性。

TensorCore是阉割重点

Volta架构中引入的Tensor Core为符合特定要求下的运算带来了显著的性能提升,Turing架构首次在游戏卡上引入了Tensor Core。
Ampera架构中Tensor Core升级到了最新3.0版本,GA10X使用的是GA100的阉版,相比TU10X,每个SM拥有的TensorCore数量从8个减少到四个,
但是性能翻倍(只有GA100的一半),最终每个SM支持的FMA操作数量依然是512,另外还支持性能翻倍的稀疏矩阵FMA操作和新的数据格式:TF32、BF16。
由于Tensor Core被严重地阉割了一刀,实际上对于非稀疏矩阵的TensorCore运算性能,GA100相对TU102并没有多少提升,再加上GA102的FP16性能提升也非常有限,
最终表现符合测试结果。

GPUCMP.png
性能对比……老黄真是坏啦坏啦的





评分

参与人数 1邪恶指数 +10 收起 理由
醉酒棕熊 + 10

查看全部评分

发表于 2020-10-18 10:00 来自手机 | 显示全部楼层
原来这一刀砍的是专业计算性能?
发表于 2020-10-18 10:04 来自手机 | 显示全部楼层
不是后续也有大显存版么
发表于 2020-10-18 10:07 | 显示全部楼层
准备业余搞搞AI, 那就等3080S 20G了?
发表于 2020-10-18 10:11 来自手机 | 显示全部楼层
3080跟3090就是给臭打游戏的准备的,这是好事。
发表于 2020-10-18 10:11 来自手机 | 显示全部楼层
本帖最后由 用户 于 2020-10-18 10:21 编辑

fp16没啥人用,关键是tf32/bf16。有人知道3080 tensor到底支不支持tf32?tf32对fp32/bf16加速比多少?
发表于 2020-10-18 10:13 | 显示全部楼层
FP32提升50%够了,我个人搞的研究全部都是FP32
发表于 2020-10-18 10:14 来自手机 | 显示全部楼层
zhensunbin0202 发表于 2020-10-18 10:11
3080跟3090就是给臭打游戏的准备的,这是好事。


根本不是。对2080ti提升第一矿工70%提升,第二炼金50%提升,游戏提升才20%。所以游戏玩家别做梦了,等3070和a卡发力吧
发表于 2020-10-18 10:19 | 显示全部楼层
本帖最后由 PolyMorph 于 2020-10-18 10:20 编辑

3090刀在专业性能上,驱动并不开放,泰坦不出只有quadro了,或者是rtx titan
发表于 2020-10-18 10:22 | 显示全部楼层
炼丹都要上v100,a100了吧。DGX已经是大公司必备了
发表于 2020-10-18 10:24 | 显示全部楼层
用户 发表于 2020-10-18 10:11
fp16没啥人用,关键是tf32/bf16。有人知道3080 tensor到底支不支持tf32?tf32对fp32/bf16加速比多少? ...

fp16在bert里面还是必备的。主要是没有tpu,现有的v100只能用fp16。
不行就只能A100了。
发表于 2020-10-18 10:25 来自手机 | 显示全部楼层
kgolym 发表于 2020-10-18 10:22
炼丹都要上v100,a100了吧。DGX已经是大公司必备了

买得起dgx的公司都自己搞芯片了吧,我没见有人用。p100和v100 pcie,titan和quadro偶有见到。
发表于 2020-10-18 10:27 | 显示全部楼层
用户 发表于 2020-10-18 10:25
买得起dgx的公司都自己搞芯片了吧,我没见有人用。p100和v100 pcie,titan和quadro偶有见到。 ...

我们(MSFT)就用,新的A100的DGX也买了,但还没用到。FB也是一堆DGX。老黄搞这个肯定是有市场的。
发表于 2020-10-18 10:28 来自手机 | 显示全部楼层
kgolym 发表于 2020-10-18 10:24
fp16在bert里面还是必备的。主要是没有tpu,现有的v100只能用fp16。
不行就只能A100了。 ...

tpu是bf16,fp16会指数溢出,要加很复杂的操作吧
发表于 2020-10-18 10:30 | 显示全部楼层
用户 发表于 2020-10-18 10:28
tpu是bf16,fp16会指数溢出,要加很复杂的操作吧

tpu的bf16稳定不少。fp16只能用混合精度,需要做scaling (nvidia的apex基本弄好了,无脑用),但训练的时候也容易炸掉。
发表于 2020-10-18 10:30 | 显示全部楼层
跑个bert试试。
发表于 2020-10-18 10:33 | 显示全部楼层
fp32翻倍但未必会用,所以要有人来测下首选sp和首选tensor core下的性能对比。sp和tensor core是没法并行,只能二选一。
发表于 2020-10-18 10:33 来自手机 | 显示全部楼层
我輩樹である 发表于 2020-10-18 10:30
跑个bert试试。

CUDA out of memory
发表于 2020-10-18 10:39 | 显示全部楼层
kgolym 发表于 2020-10-18 10:27
我们(MSFT)就用,新的A100的DGX也买了,但还没用到。FB也是一堆DGX。老黄搞这个肯定是有市场的。 ...

财大器粗我记得前几年还是一堆老掉牙的K40,现在直接上最新的了
发表于 2020-10-18 10:43 | 显示全部楼层
用户 发表于 2020-10-18 10:39
财大器粗我记得前几年还是一堆老掉牙的K40,现在直接上最新的了

自从有了bert后,那些都不能用了,最低也要v100,慢慢就更新了
发表于 2020-10-18 10:47 | 显示全部楼层
用户 发表于 2020-10-18 10:14
根本不是。对2080ti提升第一矿工70%提升,第二炼金50%提升,游戏提升才20%。所以游戏玩家别做梦了,等307 ...

对2080Ti游戏提升20%?
发表于 2020-10-18 10:57 | 显示全部楼层
zhensunbin0202 发表于 2020-10-18 10:47
对2080Ti游戏提升20%?

3080对2080提升大概是70%,2080到2080ti有差不多35%,那么3080差不多等于126%左右的2080ti
发表于 2020-10-18 11:35 | 显示全部楼层
本帖最后由 tim6252 于 2020-10-18 11:37 编辑

所以说  3090 不叫泰坦也是有原因的   不然为啥要降价?  
不光没有半专业驱动加持   
这次30系得  这个 新CUDA绝对是个大坑点    ,,,
发表于 2020-10-18 12:02 | 显示全部楼层
前几天在折腾3090的pytorch和tensorflow环境,才发现支持30系游戏卡的CUDA11.1,两家都没正式支持,nightly版本也没支持,真正能加速30系游戏卡的cudnn更是还没有更新出来,所以等这些软件支持都做起来后再测测看如何,反正我看github上说好像目前3090就只能有2080ti的效果
发表于 2020-10-18 12:05 | 显示全部楼层
TNTWW 发表于 2020-10-18 12:02
前几天在折腾3090的pytorch和tensorflow环境,才发现支持30系游戏卡的CUDA11.1,两家都没正式支持,n ...

https://developer.nvidia.com/rdp/cudnn-download

支持从10.1到11.1都有
发表于 2020-10-18 12:09 | 显示全部楼层
chungexcy 发表于 2020-10-18 12:05
https://developer.nvidia.com/rdp/cudnn-download

支持从10.1到11.1都有

我知道,主要是最新的cudnn8.0.4还只是对A100的训练做优化,30系游戏卡的还没加进去
发表于 2020-10-18 12:31 来自手机 | 显示全部楼层
和楼主同样的结果,倒腾了好久终于在docker里面跑起了cuda11.1的tf1.15,发现fp32性能提升确实不错,fp16基本没提升。不过吧,自己其实很少用混合精度训练,因为盖起来比较麻烦,有时候想用迁移学习更麻烦,最后保存的模型也要转换。所以大多数时候还是fp32
发表于 2020-10-18 13:08 | 显示全部楼层
本帖最后由 chungexcy 于 2020-10-18 13:13 编辑
TNTWW 发表于 2020-10-18 12:09
我知道,主要是最新的cudnn8.0.4还只是对A100的训练做优化,30系游戏卡的还没加进去 ...

看了一下8.0.4,9月28号发行的,好像开始优化ga102了。
GA102 support with improved convolution performance
    Now includes convolution heuristics targeting the NVIDIA GA102 GPU. (not applicable for Jetson platforms)
https://docs.nvidia.com/deeplear ... /rel_8.html#rel-804


看来像你说的那样,真正优化可能要等到8.1
cudnn8.0.3 and 8.0.4 doesn't ship with fully trained heuristics for the 30XX series, which will be added either in 8.0.5 or 8.1.
Performance regressions for cudnn workloads might thus be expected at the moment.

https://docs.nvidia.com/deeplearning/cudnn/release-notes/rel_8.html#rel-804
发表于 2020-10-18 14:59 | 显示全部楼层
PolyMorph 发表于 2020-10-18 10:19
3090刀在专业性能上,驱动并不开放,泰坦不出只有quadro了,或者是rtx titan

quadro不是也没有了吗?
 楼主| 发表于 2020-10-18 16:25 | 显示全部楼层
weizhifx 发表于 2020-10-18 14:59
quadro不是也没有了吗?

只是这个品牌暂时雪藏了,产品线还在
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

小黑屋|手机版|Archiver|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2021-7-27 14:14 , Processed in 0.010847 second(s), 11 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2007-2021 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表