用7900XTX做了一点点AI测试,感觉AMD的ROCM目前还是不太行
本帖最后由 cutezzk 于 2023-6-22 09:30 编辑测试如下,大家可以下我的代码一起测试,模型大概是用lstm神经网络预测股票价格,测试只改变了lstm神经网络的hidden_dim(这个hidden_dim在jupyter notebook的某一个代码单元格里,写得有点丑陋,搜索一下应该能找到)。测试时间采用train model单元格运行的时间(wall time)
A卡7900xtx测试情况:ROCM hidden_dim=128 10s;hiddem_dim=256 22.2s; hidden_dim=512 69s; hidden_dim=1024爆显存
directml hidden_dim=128 25.8; hidden_dim=256 30.6; hidden_dim=512爆显存
N卡rtx4090测试情况 CUDA hidden_dim=128 1.76s;hiddem_dim=256 2.9s; hidden_dim=512 8.02s; hidden_dim=1024 26.1s; hidden_dim=1700 67s; hidden_dim=2048爆显存
作为一位普通用户,如果不对代码做优化的话(我也不知道怎么优化ROCM,也有可能是我代码写得有问题,但是N卡默认表现就很好),rtx4090在这个模型的表现把7900xtx秒飞了,在dim为128的情况下10秒对比1.76秒,256的情况下22.2秒对比2.9只能说非常离谱。而且在显存方面也做了优化,能开更高的hidden_dim,也就是说炼丹方面rtx4080的16g就能和A卡的24g比比了
网上搜了教程,没找到怎么开fp16,反正就是折腾不来。。。光把环境整好就够呛了
附带神秘代码地址https://p an.baidu.com/s/1UtqKGZES dNA0qj5EL7o00Q?pwd=6qnx
提取码:6qnx
git: https://github.com/taixujianyitianxiawudi/lstm-test123 不明觉厉 只能说N卡老黄当初做CUDA生态并且一直坚持下来,现在终于收成果实了,相比之下,ROCM还有很长路要走...但是在经济问题面前,一切都会开启自适应模式.市场最终会筛选出最优的方案... 本帖最后由 raiya 于 2023-6-22 03:51 编辑
AMD想要AI向自己这边倾斜,很简单,去把非专业卡的显存加到48G,价格按照4090就行,立刻就都会去研究A卡炼丹。
本帖最后由 Neo_Granzon 于 2023-6-22 04:33 编辑
raiya 发表于 2023-6-22 03:49
AMD想要AI向自己这边倾斜,很简单,去把非专业卡的显存加到48G,价格按照4090就行,立刻就都会去研究A卡炼 ...
不用这么麻烦,直接把79xt降价到3000比你那个好使。 跑int8推理的话79xtx确实就4090的十分之一算力吧,感觉没啥问题 [流汗]普通人没必要折磨自己用A卡搞ai,老老实实跟着主流版本走就行了。。。除非你技术力爆表或者有志成为ai行业的开源社区大佬。。。 本帖最后由 raiya 于 2023-6-22 05:16 编辑
Neo_Granzon 发表于 2023-6-22 04:30
不用这么麻烦,直接把79xt降价到3000比你那个好使。
不不不。因为已经有4090这种东西了,A卡只有潜力更大的时候,才有人去开发他。就像语言类的本地部署模型,瓶颈首先是显存。 notebook不传git server放网盘[失望] 非常不看好。老黄长期投入得到的cuda相当于一套指令集,软件生态的壁垒已经非常高了 本帖最后由 JP_ToKyo 于 2023-6-22 07:40 编辑
beasy 发表于 2023-6-22 06:47
非常不看好。老黄长期投入得到的cuda相当于一套指令集,软件生态的壁垒已经非常高了 ...
然而不是說大旗開始在轉向了嗎...轉去開放那邊
CUDA一套下來的確是省時省事省力省心情[偷笑] 用啥不好你非要用torch directml
含印量十足
rocm 5.5咋不用 大佬啊,炒股的根据你的模拟能发财了[偷笑] 不过a卡确实不适合ai,打游戏是不错,我用6900XT跑topaz只有4080的5分之一速度,明显不对应实际2卡的级别差。 liprais 发表于 2023-6-22 08:27
用啥不好你非要用torch directml
含印量十足
rocm 5.5咋不用
第一组就是rocm 5.5呀,rocm没你想得那么快,就和directml一个量级的速度 YsHaNg 发表于 2023-6-22 05:48
notebook不传git server放网盘
哈哈哈哈我补github链接了 Skysky007 发表于 2023-6-22 08:53
不过a卡确实不适合ai,打游戏是不错,我用6900XT跑topaz只有4080的5分之一速度,明显不对应实际2卡的级别差 ...
4080 1080 1X能跑多少?看论坛和4070TI一样 不过4080那套U比较老了 rocm 确实问题很多 一直 在 linux 下,刚支持windows 我爱我家2022 发表于 2023-6-22 09:38
4080 1080 1X能跑多少?看论坛和4070TI一样 不过4080那套U比较老了
34 33 11 40 配置环境劝退不少人,xtx价格比4080又没便宜多少,个人还好,公司行为出问题屎盆子全是amd的,老板直接两个字母评价你了 Neo_Granzon 发表于 2023-6-22 04:30
不用这么麻烦,直接把79xt降价到3000比你那个好使。
一个核心将近2000块,卖你3000他还赚啥?显存便宜多了。 Geohot 最近一期直播就说他才搭的全A平台用A卡驱动把GPU内核搞崩溃了(主要用于他自己写的tinygrad项目),他说他联系了AMD的人也没解决,已经把他piss off了 毛茸茸 发表于 2023-6-22 12:03
配置环境劝退不少人,xtx价格比4080又没便宜多少,个人还好,公司行为出问题屎盆子全是amd的,老板直接两个 ...
xtx价格比4080又没便宜多少?多少算多?多少算少? Skysky007 发表于 2023-6-22 11:14
34 33 11 40
那和4090差不了多少呀4090好像也就40以内呀
那谢谢了我也一直犹豫4080还是4090 goodrain 发表于 2023-6-22 21:25
xtx价格比4080又没便宜多少?多少算多?多少算少?
对并公司采购根本不算什么 个人购买才多少量 DIY都是可以忽略的 goodrain 发表于 2023-6-22 21:25
xtx价格比4080又没便宜多少?多少算多?多少算少?
这点钱都觉得多真心不建议玩人工智能 ROCM 似乎也就pytorch 2.0 以上支持会好些
只能说AMD还有很多路要走,关机现在游戏和专业卡AMD架构上也割裂了,个人感觉不是好事 mark一下等我把大奶机装好拿我6800xt跑 nlnjnj 发表于 2023-6-22 22:14
ROCM 似乎也就pytorch 2.0 以上支持会好些
只能说AMD还有很多路要走,关机现在游戏和专业卡AMD架构上也割裂 ...
为什么割裂不是好事情呢?术业有专攻,不同类型的卡用不同的架构,做不同的事情。
我感觉老黄也在这么干啊。 打不开了,可以分享下代码吗,想用3090下看看