Chiphell - 分享与交流用户体验

标题: 用7900XTX做了一点点AI测试,感觉AMD的ROCM目前还是不太行 [打印本页]

作者: cutezzk    时间: 2023-6-22 00:03
标题: 用7900XTX做了一点点AI测试,感觉AMD的ROCM目前还是不太行
本帖最后由 cutezzk 于 2023-6-22 09:30 编辑

测试如下,大家可以下我的代码一起测试,模型大概是用lstm神经网络预测股票价格,测试只改变了lstm神经网络的hidden_dim(这个hidden_dim在jupyter notebook的某一个代码单元格里,写得有点丑陋,搜索一下应该能找到)。测试时间采用train model单元格运行的时间(wall time)
A卡7900xtx测试情况:ROCM hidden_dim=128 10s;hiddem_dim=256 22.2s; hidden_dim=512 69s; hidden_dim=1024爆显存
directml hidden_dim=128 25.8; hidden_dim=256 30.6; hidden_dim=512爆显存
N卡rtx4090测试情况 CUDA hidden_dim=128 1.76s;hiddem_dim=256 2.9s; hidden_dim=512 8.02s; hidden_dim=1024 26.1s; hidden_dim=1700 67s; hidden_dim=2048爆显存
作为一位普通用户,如果不对代码做优化的话(我也不知道怎么优化ROCM,也有可能是我代码写得有问题,但是N卡默认表现就很好),rtx4090在这个模型的表现把7900xtx秒飞了,在dim为128的情况下10秒对比1.76秒,256的情况下22.2秒对比2.9只能说非常离谱。而且在显存方面也做了优化,能开更高的hidden_dim,也就是说炼丹方面rtx4080的16g就能和A卡的24g比比了
网上搜了教程,没找到怎么开fp16,反正就是折腾不来。。。光把环境整好就够呛了

附带神秘代码地址https://p an.baidu.com/s/1UtqKGZES dNA0qj5EL7o00Q?pwd=6qnx
提取码:6qnx

git: https://github.com/taixujianyitianxiawudi/lstm-test123
作者: leon0620    时间: 2023-6-22 00:09
不明觉厉
作者: Serena    时间: 2023-6-22 02:26
只能说N卡老黄当初做CUDA生态并且一直坚持下来,现在终于收成果实了,相比之下,ROCM还有很长路要走...但是在经济问题面前,一切都会开启自适应模式.市场最终会筛选出最优的方案...
作者: raiya    时间: 2023-6-22 03:49
本帖最后由 raiya 于 2023-6-22 03:51 编辑

AMD想要AI向自己这边倾斜,很简单,去把非专业卡的显存加到48G,价格按照4090就行,立刻就都会去研究A卡炼丹。


作者: Neo_Granzon    时间: 2023-6-22 04:30
本帖最后由 Neo_Granzon 于 2023-6-22 04:33 编辑
raiya 发表于 2023-6-22 03:49
AMD想要AI向自己这边倾斜,很简单,去把非专业卡的显存加到48G,价格按照4090就行,立刻就都会去研究A卡炼 ...


不用这么麻烦,直接把79xt降价到3000比你那个好使。
作者: yangzi123aaa20    时间: 2023-6-22 04:53
跑int8推理的话79xtx确实就4090的十分之一算力吧,感觉没啥问题
作者: dengyp42    时间: 2023-6-22 05:12
普通人没必要折磨自己用A卡搞ai,老老实实跟着主流版本走就行了。。。除非你技术力爆表或者有志成为ai行业的开源社区大佬。。。
作者: raiya    时间: 2023-6-22 05:14
本帖最后由 raiya 于 2023-6-22 05:16 编辑
Neo_Granzon 发表于 2023-6-22 04:30
不用这么麻烦,直接把79xt降价到3000比你那个好使。


不不不。因为已经有4090这种东西了,A卡只有潜力更大的时候,才有人去开发他。就像语言类的本地部署模型,瓶颈首先是显存。
作者: YsHaNg    时间: 2023-6-22 05:48
notebook不传git server放网盘
作者: beasy    时间: 2023-6-22 06:47
非常不看好。老黄长期投入得到的cuda相当于一套指令集,软件生态的壁垒已经非常高了
作者: JP_ToKyo    时间: 2023-6-22 07:38
本帖最后由 JP_ToKyo 于 2023-6-22 07:40 编辑
beasy 发表于 2023-6-22 06:47
非常不看好。老黄长期投入得到的cuda相当于一套指令集,软件生态的壁垒已经非常高了 ...


然而不是說大旗開始在轉向了嗎...轉去開放那邊
CUDA一套下來的確是省時省事省力省心情
作者: liprais    时间: 2023-6-22 08:27
用啥不好你非要用torch directml
含印量十足
rocm 5.5咋不用
作者: Skysky007    时间: 2023-6-22 08:50
大佬啊,炒股的根据你的模拟能发财了
作者: Skysky007    时间: 2023-6-22 08:53
不过a卡确实不适合ai,打游戏是不错,我用6900XT跑topaz只有4080的5分之一速度,明显不对应实际2卡的级别差。
作者: cutezzk    时间: 2023-6-22 09:27
liprais 发表于 2023-6-22 08:27
用啥不好你非要用torch directml
含印量十足
rocm 5.5咋不用

第一组就是rocm 5.5呀,rocm没你想得那么快,就和directml一个量级的速度
作者: cutezzk    时间: 2023-6-22 09:31
YsHaNg 发表于 2023-6-22 05:48
notebook不传git server放网盘

哈哈哈哈我补github链接了
作者: 我爱我家2022    时间: 2023-6-22 09:38
Skysky007 发表于 2023-6-22 08:53
不过a卡确实不适合ai,打游戏是不错,我用6900XT跑topaz只有4080的5分之一速度,明显不对应实际2卡的级别差 ...

4080 1080 1X能跑多少?看论坛和4070TI一样 不过4080那套U比较老了
作者: wschip    时间: 2023-6-22 09:50
rocm 确实问题很多 一直 在 linux 下,刚支持windows
作者: Skysky007    时间: 2023-6-22 11:14
我爱我家2022 发表于 2023-6-22 09:38
4080 1080 1X能跑多少?看论坛和4070TI一样 不过4080那套U比较老了

34 33 11 40
作者: 毛茸茸    时间: 2023-6-22 12:03
配置环境劝退不少人,xtx价格比4080又没便宜多少,个人还好,公司行为出问题屎盆子全是amd的,老板直接两个字母评价你了
作者: 厌夜    时间: 2023-6-22 12:20
Neo_Granzon 发表于 2023-6-22 04:30
不用这么麻烦,直接把79xt降价到3000比你那个好使。

一个核心将近2000块,卖你3000他还赚啥?显存便宜多了。
作者: chiefnerd    时间: 2023-6-22 17:00
Geohot 最近一期直播就说他才搭的全A平台用A卡驱动把GPU内核搞崩溃了(主要用于他自己写的tinygrad项目),他说他联系了AMD的人也没解决,已经把他piss off了
作者: goodrain    时间: 2023-6-22 21:25
毛茸茸 发表于 2023-6-22 12:03
配置环境劝退不少人,xtx价格比4080又没便宜多少,个人还好,公司行为出问题屎盆子全是amd的,老板直接两个 ...

xtx价格比4080又没便宜多少?多少算多?多少算少?
作者: 我爱我家2022    时间: 2023-6-22 21:27
Skysky007 发表于 2023-6-22 11:14
34 33 11 40

那和4090差不了多少呀  4090好像也就40以内呀
那谢谢了  我也一直犹豫4080还是4090  
作者: scei    时间: 2023-6-22 21:37
goodrain 发表于 2023-6-22 21:25
xtx价格比4080又没便宜多少?多少算多?多少算少?

对并公司采购根本不算什么 个人购买才多少量 DIY都是可以忽略的
作者: 毛茸茸    时间: 2023-6-22 22:12
goodrain 发表于 2023-6-22 21:25
xtx价格比4080又没便宜多少?多少算多?多少算少?

这点钱都觉得多真心不建议玩人工智能
作者: nlnjnj    时间: 2023-6-22 22:14
ROCM 似乎也就pytorch 2.0 以上支持会好些
只能说AMD还有很多路要走,关机现在游戏和专业卡AMD架构上也割裂了,个人感觉不是好事
作者: pppig236    时间: 2023-6-22 22:46
mark一下等我把大奶机装好拿我6800xt跑
作者: fairness    时间: 2023-6-22 23:06
nlnjnj 发表于 2023-6-22 22:14
ROCM 似乎也就pytorch 2.0 以上支持会好些
只能说AMD还有很多路要走,关机现在游戏和专业卡AMD架构上也割裂 ...

为什么割裂不是好事情呢?  术业有专攻,不同类型的卡用不同的架构,做不同的事情。
我感觉老黄也在这么干啊。
作者: amer    时间: 2023-6-23 02:12
打不开了,可以分享下代码吗,想用3090下看看
作者: Neo_Granzon    时间: 2023-6-23 02:50
goodrain 发表于 2023-6-22 21:25
xtx价格比4080又没便宜多少?多少算多?多少算少?

便宜3dB以内都算少,便宜6dB以上算多,便宜10dB算交个朋友。
作者: Neo_Granzon    时间: 2023-6-23 02:52
厌夜 发表于 2023-6-22 12:20
一个核心将近2000块,卖你3000他还赚啥?显存便宜多了。

所以你知道农企显卡业务现在有多尴尬了,性能瘸腿,还没有降价空间。
作者: ZBKX    时间: 2023-6-23 07:54
游戏卡就应该做好只打游戏的觉悟。这些事情交给Instinct吧。(虽然也是被4090暴打)
作者: pppig236    时间: 2023-6-25 02:17
本帖最后由 pppig236 于 2023-6-24 13:25 编辑

6800xt 256 32.1s 服了
512 4m 8s。。。
作者: BetaHT    时间: 2023-6-25 06:01
raiya 发表于 2023-6-22 03:49
AMD想要AI向自己这边倾斜,很简单,去把非专业卡的显存加到48G,价格按照4090就行,立刻就都会去研究A卡炼 ...

对,其实大显存的成本没有那么贵。
amd不用这个策略很难说不是和老黄商量好了
作者: nlnjnj    时间: 2023-6-25 09:08
fairness 发表于 2023-6-22 23:06
为什么割裂不是好事情呢?  术业有专攻,不同类型的卡用不同的架构,做不同的事情。
我感觉老黄也在这么 ...

初期不利于推广,老黄卡虽然分割,但是CUDA那套却是通用的

如果AMD只有专业卡能打,那么适配ROCM的开发者就更少了
作者: ltpterry    时间: 2023-7-3 18:50
(, 下载次数: 150)
我不用lstm,但基本上复现出来是没什么区别的

统一Wall time吧:
dim=128: 10.7s
dim=256:   15s
dim=512: 30.8s
dim加到850的时候RuntimeError:miopenStatusBadParm了,虽然看着VRAM只用了16000MB出头,还是上不去
等我的主板返修回来再用雷7跑一次


作者: Haha303    时间: 2023-7-4 03:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: pppig236    时间: 2024-6-24 09:14
本帖最后由 pppig236 于 2024-6-23 20:15 编辑

来挖坟,捡的辣鸡盖板3090跑默认的第一项只要5s
对比68xt rocm 40s。。。
(, 下载次数: 138)

68xt
(, 下载次数: 101)
作者: netjunegg    时间: 2024-6-24 09:49
fairness 发表于 2023-6-22 23:06
为什么割裂不是好事情呢?  术业有专攻,不同类型的卡用不同的架构,做不同的事情。
我感觉老黄也在这么 ...

NV的cuda不管高高中低档卡配的几乎都有,对于普及推广非常有利。cuda早期没人用的时候纯粹是增加硬件成本,但是人家就是不惜代价,眼光比较长远,格局较大
作者: chenwen834    时间: 2024-6-24 09:50
nlnjnj 发表于 2023-6-25 09:08
初期不利于推广,老黄卡虽然分割,但是CUDA那套却是通用的

如果AMD只有专业卡能打,那么适配ROCM的开发 ...

AMD就应该让APU也能用ROCM,虽然只是玩具
但可以在学生群体里广泛推广
作者: wjxiz    时间: 2024-6-24 09:53
提示: 作者被禁止或删除 内容自动屏蔽
作者: wjxiz    时间: 2024-6-24 10:02
提示: 作者被禁止或删除 内容自动屏蔽
作者: 路西法大大    时间: 2024-6-24 10:05
本帖最后由 路西法大大 于 2024-6-24 10:09 编辑
Neo_Granzon 发表于 2023-6-22 04:30
不用这么麻烦,直接把79xt降价到3000比你那个好使。


大显存专业卡当游戏卡便宜卖是少赚点,游戏卡卖跳楼价是要亏钱的
作者: Leciel    时间: 2024-6-24 10:26
4090没有,只有4070。股票预测没有,stable diffusion和ollama。

7900xtx在文生图领域rocm就比4070快个10%。兼容性不错。
在使用zluda的情况下windows可以取得比Linux rocm更好的结果,主要是loading time更短。兼容性差一些。
周末测了一下wsl2 rocm 6.1.3,兼容性问题很多,勉强可以跑起来,速度也不如zluda。不过进入wsl 2的大门还是给我很多惊喜,微软做的不错。

ollama没对比,主要是7900xtx足够快,8b参数以下基本上没什么等待时间。
作者: pppig236    时间: 2024-6-24 10:30
chenwen834 发表于 2024-6-23 20:50
AMD就应该让APU也能用ROCM,虽然只是玩具
但可以在学生群体里广泛推广

apu新架构的貌似真能用
作者: JackyQ2021    时间: 2024-6-24 10:37
老黄的软件优势只是针对小公司和个人用户,那些巨头哪个是用老黄的通用软件,都是自己专门优化的模型和软件,大公司有钱有自己的专业团队。老黄牛皮哄哄的说新AI显卡必须装在他的机柜里,微软不鸟他,说不可以装在自己采购的机柜里就放弃老黄的新Ai卡,老黄还不是乖乖的说微软随意,想怎么装就怎么装
作者: fluttershy    时间: 2024-6-24 10:39
ZLUDA都比DirectML强

作者: pppig236    时间: 2024-6-24 10:44
JackyQ2021 发表于 2024-6-23 21:37
老黄的软件优势只是针对小公司和个人用户,那些巨头哪个是用老黄的通用软件,都是自己专门优化的模型和软件 ...

确实,别的不说,学校实验室里面就是两块4090
但是学校的超算都是dddd
(, 下载次数: 118)

(我觉得老黄主要客户是学校 :(
作者: liu3yang3715    时间: 2024-6-24 10:58
Rocm和CUDA的显存利用率居然还不一样,我以为一样的数据,显存占用会是一样的。
作者: 平安是福    时间: 2024-6-24 11:32
JackyQ2021 发表于 2024-6-24 10:37
老黄的软件优势只是针对小公司和个人用户,那些巨头哪个是用老黄的通用软件,都是自己专门优化的模型和软件 ...

微软采购的不是mi300x吗,又进了b200的订单吗
作者: JackyQ2021    时间: 2024-6-24 11:38
本帖最后由 JackyQ2021 于 2024-6-24 11:39 编辑
平安是福 发表于 2024-6-24 11:32
微软采购的不是mi300x吗,又进了b200的订单吗


老黄新卡发布会上不是展示了自家的机柜吗?新卡模块都是直接插在自家的机柜里,
老黄要求新卡用户必须用老黄的机柜安装新卡模块,结果微软不鸟老黄。
老黄机柜的目的是绑定用户,以后升级其他厂商的AI卡会很麻烦,一般机房机柜都是
统一标准的,老黄的不是标准的
作者: Neo_Granzon    时间: 2024-6-24 13:02
Leciel 发表于 2024-6-24 10:26
4090没有,只有4070。股票预测没有,stable diffusion和ollama。

7900xtx在文生图领域rocm就比4070快个10% ...

农企自己的卡,跑农企亲儿子ROCM,居然打不过intc不要的孤儿zluda,这真的令人迷惑。
作者: Neo_Granzon    时间: 2024-6-24 13:04
fluttershy 发表于 2024-6-24 10:39
ZLUDA都比DirectML强

zluda甚至比农企亲儿子ROCM都强,DirectML这种流浪汉是没前途的。
作者: 大头吃小头    时间: 2024-6-24 13:12
Leciel 发表于 2024-6-24 10:26
4090没有,只有4070。股票预测没有,stable diffusion和ollama。

7900xtx在文生图领域rocm就比4070快个10% ...

wsl2支持a卡了?我前面折腾wsl的时候在wsl里找不到a卡也找不到a卡驱动啊,上网一搜发现就2020年有个驱动标明支持wsl
作者: 寒蝉鸣泣    时间: 2024-6-24 13:35
来迟了 页面不存在了
作者: 装陈醋的酱油瓶    时间: 2024-6-24 14:22
yangzi123aaa20 发表于 2023-6-22 04:53
跑int8推理的话79xtx确实就4090的十分之一算力吧,感觉没啥问题

a卡没有类似tensor 的单元吗?
作者: cloudybeyond    时间: 2024-6-24 14:25
请问这个具体怎么使用,能够用于A股么?

我有兴趣研究下
作者: Flanker    时间: 2024-6-24 14:26
JackyQ2021 发表于 2024-6-24 11:38
老黄新卡发布会上不是展示了自家的机柜吗?新卡模块都是直接插在自家的机柜里,
老黄要求新卡用户必须用 ...

哪来的沙雕传闻,是所有服务器厂商都不做n卡方案了吗

(, 下载次数: 95)
作者: fluttershy    时间: 2024-6-24 15:10
Neo_Granzon 发表于 2024-6-24 13:04
zluda甚至比农企亲儿子ROCM都强,DirectML这种流浪汉是没前途的。

所以之前要封杀 WIN下面效率比linux ROCM还强
作者: chenwen834    时间: 2024-6-25 09:57
wjxiz 发表于 2024-6-24 10:02
难呀,老师cuda 的 PPT都写了10年了,又要学新AMD的API了

大学生反正一天在学校挺无聊  拿笔记本玩玩我觉得也没什么不好的
不一定听老师讲,毕竟是还在用谭浩强的地方
作者: fairness    时间: 2024-6-25 18:28
JackyQ2021 发表于 2024-6-24 11:38
老黄新卡发布会上不是展示了自家的机柜吗?新卡模块都是直接插在自家的机柜里,
老黄要求新卡用户必须用 ...

什么机柜机柜的?  这东西有啥技术含量?    为啥还不是业界标准的呢?
是不是微软家的机柜,是他自己定制的尺寸,反正它用到的数据中心够多,量够大; 自己定制也没问题。
作者: JackyQ2021    时间: 2024-6-25 18:36
fairness 发表于 2024-6-25 18:28
什么机柜机柜的?  这东西有啥技术含量?    为啥还不是业界标准的呢?
是不是微软家的机柜,是他自己定 ...

哦 你应该是没看老黄的直播,我是当晚看了直播,老黄的确展示了专用机柜(或者叫机架),
可以直接插入新AI卡模块,老黄还展示了配套液冷,连接器等等。
外媒说老黄希望全面掌控,筑牢堤坝。
作者: Flanker    时间: 2024-6-25 21:21
JackyQ2021 发表于 2024-6-25 18:36
哦 你应该是没看老黄的直播,我是当晚看了直播,老黄的确展示了专用机柜(或者叫机架),
可以直接插入新 ...

媒体说啥就是啥呗,mgx明确支持标准的19寸机柜

(, 下载次数: 50)

(, 下载次数: 45)
作者: jiaxu1006    时间: 2024-6-25 21:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: 大头吃小头    时间: 2024-6-25 21:32
fluttershy 发表于 2024-6-24 15:10
所以之前要封杀 WIN下面效率比linux ROCM还强

是zluda的实现方式被nv警告了吧,amd撤资,开发组就直接开源了




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5