埃律西昂 发表于 2023-8-22 08:40

AMD、英特尔显卡均收获Stable Diffusion AI作图性能重大提升,分别提升近9倍和54%

来源: AMD社区博客 Tom's Hardware


您知道可以在使用 Automatic1111(Xformer) 模型的Stable Diffusion时启用 Microsoft Olive ,从而通过 Windows 上的 Microsoft DirectML 获得显著的速度提升吗?微软和AMD一直在合作优化AMD硬件上的Olive路径,通过Microsoft DirectML平台API和AMD用户模式驱动程序的ML(机器学习)层对DirectML进行加速,使用户可以使用AMD GPU的AI(人工智能)功能。

https://community.amd.com/t5/image/serverpage/image-id/93574iEDAAB3EC387D2070/image-dimensions/1168x552?v=v2

Microsoft Olive 是一款 Python 工具,可用于转换、优化、量化和自动调整模型,以便通过 DirectML 等 ONNX Runtime 执行提供商获得最佳推理性能。Olive 通过提供单一的工具链来组合优化技术,从而大大简化了模型处理过程,这对于像 Stable Diffusion 这样对优化技术排序非常敏感的复杂模型尤为重要。用于 Stable Diffusion 的 DirectML 样本应用了以下技术:

[*]模型转换:将基础模型从 PyTorch 转换为 ONNX。
[*]转换器图优化:将子图融合到多头注意力算子中,消除转换中的低效现象。
[*]量化:将大多数层从 FP32 转换为 FP16,以减少模型的 GPU 内存占用并提高性能。

综合上述优化,DirectML 在使用稳定扩散等转换器模型进行推理时,可以利用 AMD GPU 大大提高性能。


由于集成了英特尔的 OpenVINO 工具包,Automatic1111 的 Stable Diffusion WebUI 现在可以在英特尔 GPU 硬件上运行。我们重新测试了最新发布的 Stable Diffusion,与之前的结果相比,英特尔 GPU 的运行速度提高了 40% 到 55%。

Stable Diffusion 是一个深度学习人工智能模型,用于根据文本描述生成图像。Stable Diffusion 的特别之处在于它能够在本地消费级硬件上运行。人工智能社区有很多项目,其中最受欢迎的是 Stable Diffusion WebUI。它提供了一个易于使用和实验的浏览器界面。

经过几个月的后台工作(我们已经听到这方面的传言有一段时间了),英特尔 Arc 用户现在可以使用最新更新,性能得到大幅提升。

以下是我们之前对 Stable Diffusion 的最新测试结果。在之前的测试中,我们使用了稍作调整的稳定扩散 OpenVINO,并使用 Automatic1111 webui 的分叉版和 OpenVINO 重新进行了测试。我们还使用 Nod.ai 基于 Shark 的稳定扩散的最新版本重新测试了 AMD 的几款 GPU。Nvidia 的结果尚未更新,不过我们会在不久的将来使用最新版本重新进行测试(完成后会更新稳定扩散基准测试的主要文章)。

需要注意的是,我们还更改了提示,这使得新结果的要求普遍更高。(新的提示是 "凌乱的房间",这往往会在图像中出现很多微小的细节,需要人工智能花费更多精力来生成)。不同运行之间存在差异,而且有一些注意事项特别适用于 Arc 目前的情况,但以下是运行前后的结果。

https://cdn.mos.cms.futurecdn.net/jcjFQX6zeoJmewMopH8NmG-970-80.png
2023年5月结果

https://cdn.mos.cms.futurecdn.net/6m4ST4yWjGHJdfXucffmVG-970-80.png
2023年8月结果

英特尔 ARC 和 AMD GPU 的性能都有所提高,其中大部分都有显著提升。Arc A770 16GB 提升了 54%,而 A750 在相同情况下提升了 40%。(请注意,我们使用英特尔 Arc A770 限量版显卡进行测试,该显卡现已停产,但宏碁、华擎、Sparkle 和 Gunnir 仍在提供 A770 显卡(包括 16GB 和 8GB 两种型号))。

Nod.ai 也没有坐以待毙。AMD 的 RX 6800、RX 6750 XT 和 RX 6700 10GB 显卡的速度都有所提升,尤其是 6800 和 6700 10GB 显卡的提升幅度更大。我们不清楚 6750 XT 为何表现不佳,但 RX 6800 的性能提升了 34%,而 RX 6700 10GB 的性能提升幅度更大,达到 76%。而 RX 6750 XT 出于某种原因仅提升了 9%,尽管这三款 AMD GPU 采用了相同的 RDNA2 架构。(我们将在不久的将来重新测试其他 GPU,包括 AMD 最新的 RX 7000 系列部件)。

同样,我们没有重新测试三块 Nvidia RTX 40 系列 GPU,因此两张图表的性能统计保持一致。即便如此,通过新的 OpenVINO 优化,英特尔的 Arc A750 和 A770 现在已经能够超越 RTX 4060,而 A770 16GB 则紧随 RTX 4060 Ti 之后。

总是感冒 发表于 2023-8-22 09:08

4070就是显存小了点。。。

谎言之神Cyric 发表于 2023-8-22 09:14

下面两个图怎么没有7900xtx和7900xt的数据[雷人]

赫敏 发表于 2023-8-22 11:47

大幅提升,指依然垫底

vindemiarrix 发表于 2023-8-22 15:19

A卡和I卡最大的问题是显存利用效率,512x512根本体现不出来的
估计用XL模型或者2倍插值就原形毕露了

lunchere 发表于 2023-8-23 09:33

vindemiarrix 发表于 2023-8-22 15:19
A卡和I卡最大的问题是显存利用效率,512x512根本体现不出来的
估计用XL模型或者2倍插值就原形毕露了 ...

现在大部分不都是跑512x512么,实际商业原画级别的设计一般不拿Stable Diffusion出吧。
页: [1]
查看完整版本: AMD、英特尔显卡均收获Stable Diffusion AI作图性能重大提升,分别提升近9倍和54%