用7900XTX做了一点点AI测试，感觉AMD的ROCM目前还是不太行

cutezzk 发表于 2023-6-22 00:03

本帖最后由 cutezzk 于 2023-6-22 09:30 编辑

测试如下，大家可以下我的代码一起测试，模型大概是用lstm神经网络预测股票价格，测试只改变了lstm神经网络的hidden_dim（这个hidden_dim在jupyter notebook的某一个代码单元格里，写得有点丑陋，搜索一下应该能找到）。测试时间采用train model单元格运行的时间（wall time）
A卡7900xtx测试情况：ROCM hidden_dim=128 10s；hiddem_dim=256 22.2s; hidden_dim=512 69s; hidden_dim=1024爆显存
directml hidden_dim=128 25.8; hidden_dim=256 30.6; hidden_dim=512爆显存
N卡rtx4090测试情况 CUDA hidden_dim=128 1.76s；hiddem_dim=256 2.9s; hidden_dim=512 8.02s; hidden_dim=1024 26.1s; hidden_dim=1700 67s; hidden_dim=2048爆显存
作为一位普通用户，如果不对代码做优化的话（我也不知道怎么优化ROCM，也有可能是我代码写得有问题，但是N卡默认表现就很好），rtx4090在这个模型的表现把7900xtx秒飞了，在dim为128的情况下10秒对比1.76秒，256的情况下22.2秒对比2.9只能说非常离谱。而且在显存方面也做了优化，能开更高的hidden_dim，也就是说炼丹方面rtx4080的16g就能和A卡的24g比比了
网上搜了教程，没找到怎么开fp16，反正就是折腾不来。。。光把环境整好就够呛了

附带神秘代码地址https://p an.baidu.com/s/1UtqKGZES dNA0qj5EL7o00Q?pwd=6qnx
提取码：6qnx

git: https://github.com/taixujianyitianxiawudi/lstm-test123

leon0620 发表于 2023-6-22 00:09

不明觉厉

Serena 发表于 2023-6-22 02:26

只能说N卡老黄当初做CUDA生态并且一直坚持下来,现在终于收成果实了,相比之下,ROCM还有很长路要走...但是在经济问题面前,一切都会开启自适应模式.市场最终会筛选出最优的方案...

raiya 发表于 2023-6-22 03:49

本帖最后由 raiya 于 2023-6-22 03:51 编辑

AMD想要AI向自己这边倾斜，很简单，去把非专业卡的显存加到48G，价格按照4090就行，立刻就都会去研究A卡炼丹。

Neo_Granzon 发表于 2023-6-22 04:30

本帖最后由 Neo_Granzon 于 2023-6-22 04:33 编辑

raiya 发表于 2023-6-22 03:49
AMD想要AI向自己这边倾斜，很简单，去把非专业卡的显存加到48G，价格按照4090就行，立刻就都会去研究A卡炼 ...

不用这么麻烦，直接把79xt降价到3000比你那个好使。

yangzi123aaa20 发表于 2023-6-22 04:53

跑int8推理的话79xtx确实就4090的十分之一算力吧，感觉没啥问题

dengyp42 发表于 2023-6-22 05:12

[流汗]普通人没必要折磨自己用A卡搞ai，老老实实跟着主流版本走就行了。。。除非你技术力爆表或者有志成为ai行业的开源社区大佬。。。

raiya 发表于 2023-6-22 05:14

本帖最后由 raiya 于 2023-6-22 05:16 编辑

Neo_Granzon 发表于 2023-6-22 04:30
不用这么麻烦，直接把79xt降价到3000比你那个好使。

不不不。因为已经有4090这种东西了，A卡只有潜力更大的时候，才有人去开发他。就像语言类的本地部署模型，瓶颈首先是显存。

YsHaNg 发表于 2023-6-22 05:48

notebook不传git server放网盘[失望]

beasy 发表于 2023-6-22 06:47

非常不看好。老黄长期投入得到的cuda相当于一套指令集，软件生态的壁垒已经非常高了

JP_ToKyo 发表于 2023-6-22 07:38

本帖最后由 JP_ToKyo 于 2023-6-22 07:40 编辑

beasy 发表于 2023-6-22 06:47
非常不看好。老黄长期投入得到的cuda相当于一套指令集，软件生态的壁垒已经非常高了 ...

然而不是說大旗開始在轉向了嗎...轉去開放那邊
CUDA一套下來的確是省時省事省力省心情[偷笑]

liprais 发表于 2023-6-22 08:27

用啥不好你非要用torch directml
含印量十足
rocm 5.5咋不用

Skysky007 发表于 2023-6-22 08:50

大佬啊，炒股的根据你的模拟能发财了[偷笑]

Skysky007 发表于 2023-6-22 08:53

不过a卡确实不适合ai，打游戏是不错，我用6900XT跑topaz只有4080的5分之一速度，明显不对应实际2卡的级别差。

cutezzk 发表于 2023-6-22 09:27

liprais 发表于 2023-6-22 08:27
用啥不好你非要用torch directml
含印量十足
rocm 5.5咋不用

第一组就是rocm 5.5呀，rocm没你想得那么快，就和directml一个量级的速度

cutezzk 发表于 2023-6-22 09:31

YsHaNg 发表于 2023-6-22 05:48
notebook不传git server放网盘

哈哈哈哈我补github链接了

我爱我家2022 发表于 2023-6-22 09:38

Skysky007 发表于 2023-6-22 08:53
不过a卡确实不适合ai，打游戏是不错，我用6900XT跑topaz只有4080的5分之一速度，明显不对应实际2卡的级别差 ...

4080 1080 1X能跑多少？看论坛和4070TI一样不过4080那套U比较老了

wschip 发表于 2023-6-22 09:50

rocm 确实问题很多一直在 linux 下，刚支持windows

Skysky007 发表于 2023-6-22 11:14

我爱我家2022 发表于 2023-6-22 09:38
4080 1080 1X能跑多少？看论坛和4070TI一样不过4080那套U比较老了

34 33 11 40

毛茸茸 发表于 2023-6-22 12:03

配置环境劝退不少人，xtx价格比4080又没便宜多少，个人还好，公司行为出问题屎盆子全是amd的，老板直接两个字母评价你了

厌夜发表于 2023-6-22 12:20

Neo_Granzon 发表于 2023-6-22 04:30
不用这么麻烦，直接把79xt降价到3000比你那个好使。

一个核心将近2000块，卖你3000他还赚啥？显存便宜多了。

chiefnerd 发表于 2023-6-22 17:00

Geohot 最近一期直播就说他才搭的全A平台用A卡驱动把GPU内核搞崩溃了（主要用于他自己写的tinygrad项目），他说他联系了AMD的人也没解决，已经把他piss off了

goodrain 发表于 2023-6-22 21:25

毛茸茸发表于 2023-6-22 12:03
配置环境劝退不少人，xtx价格比4080又没便宜多少，个人还好，公司行为出问题屎盆子全是amd的，老板直接两个 ...

xtx价格比4080又没便宜多少？多少算多？多少算少？

我爱我家2022 发表于 2023-6-22 21:27

Skysky007 发表于 2023-6-22 11:14
34 33 11 40

那和4090差不了多少呀4090好像也就40以内呀
那谢谢了我也一直犹豫4080还是4090

scei 发表于 2023-6-22 21:37

毛茸茸 发表于 2023-6-22 22:12

goodrain 发表于 2023-6-22 21:25
xtx价格比4080又没便宜多少？多少算多？多少算少？

这点钱都觉得多真心不建议玩人工智能

nlnjnj 发表于 2023-6-22 22:14

ROCM 似乎也就pytorch 2.0 以上支持会好些
只能说AMD还有很多路要走，关机现在游戏和专业卡AMD架构上也割裂了，个人感觉不是好事

pppig236 发表于 2023-6-22 22:46

mark一下等我把大奶机装好拿我6800xt跑

fairness 发表于 2023-6-22 23:06

nlnjnj 发表于 2023-6-22 22:14
ROCM 似乎也就pytorch 2.0 以上支持会好些
只能说AMD还有很多路要走，关机现在游戏和专业卡AMD架构上也割裂 ...

为什么割裂不是好事情呢？术业有专攻，不同类型的卡用不同的架构，做不同的事情。
我感觉老黄也在这么干啊。

amer 发表于 2023-6-23 02:12

打不开了，可以分享下代码吗，想用3090下看看

页: [1] 2 3

Chiphell - 分享与交流用户体验's Archiver

用7900XTX做了一点点AI测试，感觉AMD的ROCM目前还是不太行