Chiphell - 分享与交流用户体验

标题: 手上几张显卡的stable diffusion算图速度对比（个人向），仅供参考。 [打印本页]

作者: momoka 时间: 2025-6-8 17:30
标题: 手上几张显卡的stable diffusion算图速度对比（个人向），仅供参考。
本帖最后由 momoka 于 2025-6-8 17:37 编辑

使用webui，个人喜欢的设置和惯用的单张图和3*3=9张图下的算图速度，设置较为简单。和其他人的没有啥可比性，因此仅供参考。

测试的显卡分别是：华硕2080ti猛禽 11G，影驰3080星曜 10G，技嘉5080魔鹰，技嘉5090魔鹰。

测试设置如下：640*512分辨率，2倍放大（0.5权重），40步推理，附带一个IP-Adapter控制（0.5权重）
(, 下载次数: 0)

速度和设置结果如下
(, 下载次数: 0)

因为我是从5080换到5090的，所以还是有点关注提升幅度，总的来说在不爆显存的情况下，5090并没有体现出2倍规格的优势，倒是和3dmark之类的差距类似，可能是受到了功耗的限制。不过考虑到显存的翻倍，还是有相当的价值，在我的使用情况下，在算图的时候不用担心开其他渲染用的软件会爆显存之类的。

作者: psps3 时间: 2025-6-8 18:13
图不错

作者: beckcppes 时间: 2025-6-8 18:19

psps3 发表于 2025-6-8 18:13
图不错

你可以问莫老师要些顶级瑟图，撸个10管破下自己的记录。

作者: psps3 时间: 2025-6-8 18:20

beckcppes 发表于 2025-6-8 18:19
你可以问莫老师要些顶级瑟图，撸个10管破下自己的记录。

破不了，年纪大了，三次就很难受了

作者: beckcppes 时间: 2025-6-8 18:23
摸老师感觉是二刺螈女仆控，好几次发的图都是这个系列，老骚老骚了。

作者: deepseek 时间: 2025-6-8 18:27
stable diffusion这玩意不是早就停止更新了吗~不如测下别的~

作者: xsdianeht 时间: 2025-6-8 18:29

有工作流吗，我想在B580上跑一下

作者: momoka 时间: 2025-6-8 18:30
本帖最后由 momoka 于 2025-6-8 18:32 编辑

deepseek 发表于 2025-6-8 18:27
stable diffusion这玩意不是早就停止更新了吗~不如测下别的~

我只是想知道速度差别而已，无所谓了。

只是webui这个ui（就当是界面一样的东西）停止更新了。comfyui之类的还在更新啊。

作者: momoka 时间: 2025-6-8 18:32

xsdianeht 发表于 2025-6-8 18:29
有工作流吗，我想在B580上跑一下

webui没啥工作流，有工作流的是comfyui，自己搭喽。

作者: momo77989724 时间: 2025-6-8 18:34
SD就是看显存。。。显存大就是大哥。。。4060TI 16G 随便锤 12G的卡。。包括4070

作者: xsdianeht 时间: 2025-6-8 18:37

momoka 发表于 2025-6-8 18:32
webui没啥工作流，有工作流的是comfyui，自己搭喽。

。。没注意看以为是comfyui，本来想试一下B580的速度，我手上只有2060 12G，2060 12G用TensorRT都比B580慢三四倍

作者: xy. 时间: 2025-6-8 18:41
https://vladmandic.github.io/sd- ... ages/benchmark.html

作者: 银月 时间: 2025-6-8 18:42
我用rt跑图对比4090，5090d有150%

4090也比5080强一些，所以你这个175%左右是正常反应性能了

规模太大就是会遇到一些算力喂狗的情况，习惯就好

后续我打算弄两张5070ti跑图，估计效率跟一张5090d差不多

作者: a010301208 时间: 2025-6-8 18:42
好久不玩生图了，有5090嘛就因该玩玩自己训练视频LORA，打开新的大门，只能截这点了，下面少/儿不宜

(, 下载次数: 0)

作者: momoka 时间: 2025-6-8 18:56

银月发表于 2025-6-8 18:42
我用rt跑图对比4090，5090d有150%

4090也比5080强一些，所以你这个175%左右是正常反应性能了

两张性能可以叠加？还是开两个。。。。

作者: 银月 时间: 2025-6-8 19:00

momoka 发表于 2025-6-8 18:56
两张性能可以叠加？还是开两个。。。。

sd应该用不了双卡的，我记得启动只能选一个卡

作者: deepseek 时间: 2025-6-8 19:03

momoka 发表于 2025-6-8 18:30
我只是想知道速度差别而已，无所谓了。

只是webui这个ui（就当是界面一样的东西）停止更新了。comfyui之 ...

本质已经不是一个东西了~

作者: momoka 时间: 2025-6-8 19:04

xsdianeht 发表于 2025-6-8 18:37
。。没注意看以为是comfyui，本来想试一下B580的速度，我手上只有2060 12G，2060 12G用TensorRT都比B580 ...

不懂，B580这么强么，还是这个模式不适合N卡。

作者: deepseek 时间: 2025-6-8 19:07

a010301208 发表于 2025-6-8 18:42
好久不玩生图了，有5090嘛就因该玩玩自己训练视频LORA，打开新的大门，只能截这点了，下面少/儿不宜

...

大佬~这个视频lora能不能给我一份~我真的很喜欢云霄仙子~~

作者: deepseek 时间: 2025-6-8 19:20

a010301208 发表于 2025-6-8 19:17
不想惹麻烦，现在市面上的都太假，这种外面一看就能大概找到是我做到，我可不想在司xx这种地方看到你喜 ...

好的大佬~加你论坛好友了~通过下~

作者: momoka 时间: 2025-6-8 19:22

a010301208 发表于 2025-6-8 18:42
好久不玩生图了，有5090嘛就因该玩玩自己训练视频LORA，打开新的大门，只能截这点了，下面少/儿不宜

...

向你学习了，我是小白，暂时都是算些对我喜好或者对工作有点点帮助的参考图性质的，算是最简单的应用~

作者: momoka 时间: 2025-6-8 19:23
本帖最后由 momoka 于 2025-6-8 19:25 编辑

deepseek 发表于 2025-6-8 19:03
本质已经不是一个东西了~

都是基于stable diffusion囧。只是一个停滞了，一个在发展。

作者: deepseek 时间: 2025-6-8 19:25

momoka 发表于 2025-6-8 19:23
一个东西吧，都是基于stable diffusion囧。

comfyui加了好多乱七八糟的东西~~都能原生用~~

作者: a010301208 时间: 2025-6-8 19:25
本帖最后由 a010301208 于 2025-6-8 22:41 编辑

deepseek 发表于 2025-6-8 19:20
好的大佬~加你论坛好友了~通过下~

20楼的那回帖的视频图有点露，帖我删了，30楼补了一张

好友已经通过了

作者: a010301208 时间: 2025-6-8 19:29
本帖最后由 a010301208 于 2025-6-8 19:33 编辑

momoka 发表于 2025-6-8 19:22
向你学习了，我是小白，暂时都是算些对我喜好或者对工作有点点帮助的参考图性质的，算是最简单的应用~ ...

最开始我也玩SD生图的，后来感觉模型学习上限太低了，模型不够聪明所以效果不太满意，后来视频模型出来就玩视频了，其实也不复杂，主要是兴趣爱好，感兴趣的话也很快入门

作者: robles 时间: 2025-6-8 20:57
应该用2080ti 22g跟5080比比爆显存的项目。

作者: h4ckm310n 时间: 2025-6-8 21:12
512的分辨率，这是sd1.5吗，如果是sdxl的话用1024更好吧。顺便如果可以的话也想看看运行flux的性能如何

作者: keqikeqi 时间: 2025-6-8 21:14
显存、算力都非常重要。。。

作者: momoka 时间: 2025-6-8 21:23

h4ckm310n 发表于 2025-6-8 21:12
512的分辨率，这是sd1.5吗，如果是sdxl的话用1024更好吧。顺便如果可以的话也想看看运行flux的性能如何 ...

640*512再放大到1280*1024，适合大批量看效果用。sd1.5原生分辨率低。

webui不支持后面那些，等comfyui里搭好适合我的工作流再测试。顺便我是觉得换成其他的应该也不会有明显差别，当然只是想当然的猜测而已。

作者: a010301208 时间: 2025-6-8 22:05

deepseek 发表于 2025-6-8 19:20
好的大佬~加你论坛好友了~通过下~

突然发现刚才那楼那张安妙依的视频截图没截好有点漏了，我赶紧删了那楼

，以后公开还是发原本就穿衣服的算了。

补一张安妙依，懒得开FramePack加载LORA生成长视频了，直接COMFYUI出个原生LORA短的

(, 下载次数: 0)

作者: cloud 时间: 2025-6-8 22:11
(, 下载次数: 2)

sd早淘汰了吧我测试的1024x1024 30步的Flux

作者: michaelzxp 时间: 2025-6-8 22:15
炼丹终极是显存，其他都是浮云

作者: momoka 时间: 2025-6-8 22:19

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

谢提供资料。感觉fp8下的速度还是很符合的~

作者: deepseek 时间: 2025-6-8 22:22

a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了，我赶紧删了那楼，以后公开还是发原本就穿衣服的 ...

大佬~看下私信~

作者: cloud 时间: 2025-6-8 22:29

momoka 发表于 2025-6-8 22:19
谢提供资料。感觉fp8下的速度还是很符合的~

fp8和fp4标注反了

作者: h4ckm310n 时间: 2025-6-8 23:47

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

也不算淘汰，在二次元以及nsfw方面基于sdxl的pony或者illustrious这些现在也挺火的，而flux目前在这方面的生态还是不够好，只能说各有优劣

作者: 1lch2 时间: 2025-6-9 10:43

a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了，我赶紧删了那楼，以后公开还是发原本就穿衣服的 ...

用的Wan 2.1吗？好奇吃多少显存，之前跑部分量化到FP8的Wan 2.1，16G显存都快炸了，速度也非常慢，滚回去继续玩生图了

作者: a010301208 时间: 2025-6-9 11:53

1lch2 发表于 2025-6-9 10:43
用的Wan 2.1吗？好奇吃多少显存，之前跑部分量化到FP8的Wan 2.1，16G显存都快炸了，速度也非常慢，滚回去 ...

用的混元，混元的LORA训练人物更像，模型是多注意力机制，更适合多人运动

WAN2.1虽然画质细节更好，不过我用下来感觉更适合图片生成视频。

更关键的是FramePack那些修改版本可以使用LORA，只能用混元的LORA。

我32G显存跑的，不过你16G因该不至于炸了，因该是工作流没设置节点开启BlockSwap

作者: KimmyGLM 时间: 2025-6-9 13:04
艹了，这么多二刺猿.....

作者: 神性 时间: 2025-6-10 01:15

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

fp4出图效果如何，质量下降多少?

作者: Demir 时间: 2025-6-10 01:25
本帖最后由 Demir 于 2025-6-10 01:29 编辑

[quote]xsdianeht 发表于 2025-6-8 18:29
有工作流吗，我想在B580上跑一下[/quowte]

我也是b580，环境搭好了。改一下bat文件就行，跑出来的图很奇怪。

作者: 神性 时间: 2025-6-10 01:54

a010301208 发表于 2025-6-9 11:53
用的混元，混元的LORA训练人物更像，模型是多注意力机制，更适合多人运动WAN2.1虽然画质细节更好，不过我 ...

请问4090跑这个有压力吗?

作者: cloud 时间: 2025-6-10 08:19

神性发表于 2025-6-10 01:15
fp4出图效果如何，质量下降多少?

https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg

虽然不能说一样但也差不多其实主要问题是支持fp4的模型太少了

不过3.0 修复了lora和control.net的性能之前2.0 用lora和control.net大概要慢3倍现在用基模还是可以

作者: 1lch2 时间: 2025-6-10 09:33

a010301208 发表于 2025-6-9 11:53
用的混元，混元的LORA训练人物更像，模型是多注意力机制，更适合多人运动WAN2.1虽然画质细节更好，不过我 ...

感谢指点，回头试试framepack

作者: shaojp 时间: 2025-6-10 09:58

momoka 发表于 2025-6-8 19:23
都是基于stable diffusion囧。只是一个停滞了，一个在发展。

我前段时间学习webUI,学起来容易，comfyUI各个依赖冲突，问题很多，拿来的流程并不一定能用，用了可能其他流程不能用的。被折腾坏了，非常烦。

作者: 神性 时间: 2025-6-10 12:31

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

5080和4090差不多，看来有必要买50系列了。

作者: 神性 时间: 2025-6-10 12:34

cloud 发表于 2025-6-10 08:19
https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg

虽然不能说一样但也差不多其实主 ...

fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?

作者: cloud 时间: 2025-6-10 13:12

神性发表于 2025-6-10 12:34
fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?

大概2/3吧

作者: Leciel 时间: 2025-6-10 14:28
只有纵向对比性，没有横向。

upscaler用的是什么模型？2倍放大一般是4个tile。
IP-Adapter用的什么模型？从log看是SD。
用的是什么attention? Sage attention?

SD的标准512*512 Euler sampler在7900xtx zluda flash attention2 + cuDnn可以跑到20it/s，换成DPM++2M Karras会折损10%到15%，用上ip-adapter会折损40%-60%的效率，预估就5秒出一张640*512。upscaler就无从换算，就算8秒一张吧。大概13秒出一张图。

ip-adapter已死。高质量风格转换用flux redux。
SD的漫画风格已经被Illustrious模型全面替代。质量极高，也极涩。

7900xtx直接上Illustrious，1024x1024，Euler sampler，可以做到4.3it/s，25个循环，大概7秒出一张高质量的漫画图。

作者: a010301208 时间: 2025-6-10 15:32

神性发表于 2025-6-10 01:54
请问4090跑这个有压力吗?

4090跑视频没什么压力，5秒视频，分辨率如果设置非常高，那就每秒16帧，之后补帧就行，出视频还是比较快的。跑FramePack的话24G显存甚至有点浪费了。

训练有点压力，想用bf16用视频训练视频就别想了，开fp8，然后BlockSwap开到24，差不多能训练512X512的视频素材吧。用图片训练开bf16倒是没问题，BlockSwap依然开到24，用bf16训练1280X1280的图也没问题，bs保持1，用gradient accumulation steps开到4代替就行。

作者: 神性 时间: 2025-6-10 16:15

cloud 发表于 2025-6-10 13:12
大概2/3吧

了解了。

作者: 神性 时间: 2025-6-10 16:22

a010301208 发表于 2025-6-10 15:32
4090跑视频没什么压力，5秒视频，分辨率如果设置非常高，那就每秒16帧，之后补帧就行，出视频还是比较快 ...

我中午下载了那个fraepack，启动完以后他自己开始下载了几十g的模型

我又去c站下了个给人物脱衣服的lora模型

刚才进入网页图形页面后，我发现找不到地方加载这个模型，这是为什么?

作者: a010301208 时间: 2025-6-10 16:39

神性发表于 2025-6-10 16:22
我中午下载了那个fraepack，启动完以后他自己开始下载了几十g的模型

我又去c站下了个给人物脱衣服的lora ...

FramePack?官方原版只有一个图生视频的基础功能，要加载lora的话可以下载FramePack-eichi这种，一上来就玩脱衣

有前途

https://github.com/git-ai-code/F ... README/README_zh.md

作者: 神性 时间: 2025-6-10 16:58

a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能，要加载lora的话可以下载FramePack-eichi这种，一上来就 ...

学习了，晚上试试这个。

作者: 神性 时间: 2025-6-10 20:15

a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能，要加载lora的话可以下载FramePack-eichi这种，一上来就 ...

现在按你说的这个可以加载lora了。不过发现一个新问题。

找了个真人图片测试了下，按lora作者提供的语句格式输入，确实视频里她自己把衣服脱了，脸部和别的都很稳定，但是那个雷，看上去比穿着的时候大那么一点，是什么原因。

作者: natt 时间: 2025-6-10 20:41

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

5060TI好像也能用啊

作者: a010301208 时间: 2025-6-10 21:06

神性发表于 2025-6-10 20:15
现在按你说的这个可以加载lora了。不过发现一个新问题。

找了个真人图片测试了下，按lora作者提供的语句 ...

这个其实很好理解，你说的雷我没误解的话

，因为ai没见过你这个人物没穿衣服，所以脱掉以后注意力会更靠近你所使用的lora中人物没穿的样子大小形状

要解决其实很简单，把你要脱的人物训练成一个lora（素材越丰富越好，起码要有泳装照片），和你现在这个lora一起加载，人物权重多0.1，即使是图生视频，那么AI依然会更准确的控制视频生成中你人物的所有细节。

作者: 神性 时间: 2025-6-10 22:21

a010301208 发表于 2025-6-10 21:06
这个其实很好理解，你说的雷我没误解的话，因为ai没见过你这个人物没穿衣服，所以脱掉以后注意力会更靠近 ...

理解了。

那如果我想让雷晃动的更自然一些，要怎么操作，也是训练lora吗?

作者: a010301208 时间: 2025-6-10 23:41

神性发表于 2025-6-10 22:21
理解了。

那如果我想让雷晃动的更自然一些，要怎么操作，也是训练lora吗? ...

要达到你理想中的表现，确实只有训练lora，或者你能找到别人训练效果非常好的下载

其实这个属于很简单的动作lora训练了，你把你觉得满意的那个场景，剪辑成5秒一段的视频，有个10段就行了，给每段视频打标不要太复杂，因为你只需要AI学习xx在晃动，所以提示词这么写“某个学习代号，视频中是一对人类女人的XX，正在如何如何晃动”，就可以了，不要对视频中别的去描述，因为你不需要学别的，这样以后使用效果最佳

你剪辑的时候能保持画面中只有你想学的，那自然是更好

训练完i以后，之后不管什么图片，你只要加载这个lora，写描述时加入训练时的描述和你写的学习代号，视频中人物就会自然的物理晃动

，如果你想每次晃的都不同，那就在训练的时候加入不同人物类似的场景。

作者: 神性 时间: 2025-6-11 00:18

a010301208 发表于 2025-6-10 23:41
要达到你理想中的表现，确实只有训练lora，或者你能找到别人训练效果非常好的下载

其实这个属于很简单 ...

大概理解了，谢谢。

lora训练器我刚才搜索了下，有好几个，哪个比较好?

作者: a010301208 时间: 2025-6-11 00:34

神性发表于 2025-6-11 00:18
大概理解了，谢谢。

lora训练器我刚才搜索了下，有好几个，哪个比较好? ...

用diffusion-pipe，效果最好，win下面也可以在wsl中使用，你要用FramePack-eichi加载lora的话，那就训练配置里改成hunyuan video的模型，虽然你只是图生视频，但也用t2v模型训练就行了，别用混元的i2v

https://github.com/tdrussell/diffusion-pipe

作者: 神性 时间: 2025-6-11 00:43

a010301208 发表于 2025-6-11 00:34
用diffusion-pipe，效果最好，win下面也可以在wsl中使用，你要用FramePack-eichi加载lora的话，那就训练 ...

非常感谢!

我先去研究，不懂再来请教。

作者: a010301208 时间: 2025-6-11 01:37

神性发表于 2025-6-11 00:43
非常感谢!

我先去研究，不懂再来请教。

作者: 神性 时间: 2025-6-11 15:53

a010301208 发表于 2025-6-11 00:34
用diffusion-pipe，效果最好，win下面也可以在wsl中使用，你要用FramePack-eichi加载lora的话，那就训练 ...

再请教一下，已训练4小时，设置了1000轮，请问多少小时手动停?

作者: a010301208 时间: 2025-6-11 16:08

神性发表于 2025-6-11 15:53
再请教一下，已训练4小时，设置了1000轮，请问多少小时手动停?

训练多久结束和用了多少素材，训练的是动作，人物还是风格等有关系，不是以小时判断的，就按昨天说的那个来说，num repeats默认1没乱改的话，就按步数来初步计算，假设你bs1，gradient accumulation steps开2，那么每有1个5秒的视频就多训练80步，10个就先总共训练800步，然后先把lora导入，试试效果

diffusion pipe训练进度是会按你的设置时间来保存的，如果不满意可以继续训练。

作者: 神性 时间: 2025-6-11 16:17

a010301208 发表于 2025-6-11 16:08
训练多久结束和用了多少素材，训练的是动作，人物还是风格等有关系，不是以小时判断的，就按昨天说的那个 ...

一共60个视频，训练4800步吗

作者: a010301208 时间: 2025-6-11 16:24

神性发表于 2025-6-11 16:17
一共60个视频，训练4800步吗

你训练这种简单动作，其实视频素材不用这么多

，不过没事你先训练着

训练人物lora才需要海量素材，一个人物相似度要训练到95%以上，一开始要准备200张左右的图片素材

，然后把训练出来的lora，文生视频，生成海量的1秒视频，再把这些视频满意的帧数保存，再用这个合集素材加上你的原素材二次训练

作者: 神性 时间: 2025-6-11 16:28

a010301208 发表于 2025-6-11 16:24
你训练这种简单动作，其实视频素材不用这么多，不过没事你先训练着

训练人物lora才需要海量素材，一个人 ...

好我先试试，不懂再来请教。感谢。

作者: gdanmac 时间: 2025-6-11 17:44
3090 现在是废了吗？

欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/)