AMD战未来不是虚的, AI提速最少20%
众所周知,amd在ai这块的首要问题还是无法越过nvidia的cuda护城河。新的算法新的特性首发都是cuda,amd的rocm遥遥无期。
但是,迟到总好过缺席。
一年前flash attention2发布,nvidia用户马上就吃上了。多少提升amd用户也是不知道,能把应用跑起来就不错了。
过了一年再往回看,8个月前有好事者为stable diffusion发布了最小特性包:
https://github.com/Repeerc/flash-attention-v2-RDNA3-minimal
以及comfyUI的适配
https://github.com/Repeerc/ComfyUI-flash-attention-rdna3-win-zluda
过了这八个月,pytorch, comfyui, rocm的进展神速,Repeerc的**时了。
过去三天我把这个repo在最新的软件包基础上重新编译打包了一下,只支持7900xtx:
https://github.com/jiangfeng79/ComfyUI-flash-attention-rdna3-win-zluda
测试结果证明战未来有看头。sdxl 1024 x 1024提速终于过了 4it/s:
got prompt Select optimized attention: sub-quad sub-quad 100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 Prompt executed in 6.59 seconds
got prompt Select optimized attention: Flash-Attention-v2 Flash-Attention-v2 100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 Prompt executed in 5.64 seconds
可惜的是flux跑不起来,目前只适配sd和sdxl。
真不错
页:
[1]