Chiphell - 分享与交流用户体验

标题: 手上几张显卡的stable diffusion算图速度对比(个人向),仅供参考。 [打印本页]

作者: momoka    时间: 2025-6-8 17:30
标题: 手上几张显卡的stable diffusion算图速度对比(个人向),仅供参考。
本帖最后由 momoka 于 2025-6-8 17:37 编辑

使用webui,个人喜欢的设置和惯用的单张图和3*3=9张图下的算图速度,设置较为简单。和其他人的没有啥可比性,因此仅供参考。


测试的显卡分别是:华硕2080ti猛禽 11G,影驰3080星曜 10G,技嘉5080魔鹰,技嘉5090魔鹰。

测试设置如下:640*512分辨率,2倍放大(0.5权重),40步推理,附带一个IP-Adapter控制(0.5权重)
(, 下载次数: 0)

速度和设置结果如下
(, 下载次数: 0)


因为我是从5080换到5090的,所以还是有点关注提升幅度,总的来说在不爆显存的情况下,5090并没有体现出2倍规格的优势,倒是和3dmark之类的差距类似,可能是受到了功耗的限制。不过考虑到显存的翻倍,还是有相当的价值,在我的使用情况下,在算图的时候不用担心开其他渲染用的软件会爆显存之类的。
作者: psps3    时间: 2025-6-8 18:13
图不错
作者: beckcppes    时间: 2025-6-8 18:19
psps3 发表于 2025-6-8 18:13
图不错

你可以问莫老师要些顶级瑟图,撸个10管破下自己的记录。
作者: psps3    时间: 2025-6-8 18:20
beckcppes 发表于 2025-6-8 18:19
你可以问莫老师要些顶级瑟图,撸个10管破下自己的记录。

破不了,年纪大了,三次就很难受了
作者: beckcppes    时间: 2025-6-8 18:23
摸老师感觉是二刺螈女仆控,好几次发的图都是这个系列,老骚老骚了。
作者: deepseek    时间: 2025-6-8 18:27
stable diffusion这玩意不是早就停止更新了吗~不如测下别的~
作者: xsdianeht    时间: 2025-6-8 18:29
有工作流吗,我想在B580上跑一下
作者: momoka    时间: 2025-6-8 18:30
本帖最后由 momoka 于 2025-6-8 18:32 编辑
deepseek 发表于 2025-6-8 18:27
stable diffusion这玩意不是早就停止更新了吗~不如测下别的~


我只是想知道速度差别而已,无所谓了。

只是webui这个ui(就当是界面一样的东西)停止更新了。comfyui之类的还在更新啊。
作者: momoka    时间: 2025-6-8 18:32
xsdianeht 发表于 2025-6-8 18:29
有工作流吗,我想在B580上跑一下

webui没啥工作流,有工作流的是comfyui,自己搭喽。
作者: momo77989724    时间: 2025-6-8 18:34
SD就是看显存。。。显存大就是大哥。。。4060TI 16G 随便锤 12G的卡。。包括4070
作者: xsdianeht    时间: 2025-6-8 18:37
momoka 发表于 2025-6-8 18:32
webui没啥工作流,有工作流的是comfyui,自己搭喽。

。。没注意看以为是comfyui,本来想试一下B580的速度,我手上只有2060 12G,2060 12G用TensorRT都比B580慢三四倍
作者: xy.    时间: 2025-6-8 18:41
https://vladmandic.github.io/sd- ... ages/benchmark.html
作者: 银月    时间: 2025-6-8 18:42
我用rt跑图对比4090,5090d有150%

4090也比5080强一些,所以你这个175%左右是正常反应性能了

规模太大就是会遇到一些算力喂狗的情况,习惯就好

后续我打算弄两张5070ti跑图,估计效率跟一张5090d差不多
作者: a010301208    时间: 2025-6-8 18:42
好久不玩生图了,有5090嘛就因该玩玩自己训练视频LORA,打开新的大门,只能截这点了,下面少/儿不宜

(, 下载次数: 0)
作者: momoka    时间: 2025-6-8 18:56
银月 发表于 2025-6-8 18:42
我用rt跑图对比4090,5090d有150%

4090也比5080强一些,所以你这个175%左右是正常反应性能了

两张性能可以叠加?还是开两个。。。。
作者: 银月    时间: 2025-6-8 19:00
momoka 发表于 2025-6-8 18:56
两张性能可以叠加?还是开两个。。。。

sd应该用不了双卡的,我记得启动只能选一个卡
作者: deepseek    时间: 2025-6-8 19:03
momoka 发表于 2025-6-8 18:30
我只是想知道速度差别而已,无所谓了。

只是webui这个ui(就当是界面一样的东西)停止更新了。comfyui之 ...

本质已经不是一个东西了~
作者: momoka    时间: 2025-6-8 19:04
xsdianeht 发表于 2025-6-8 18:37
。。没注意看以为是comfyui,本来想试一下B580的速度,我手上只有2060 12G,2060 12G用TensorRT都比B580 ...

不懂,B580这么强么,还是这个模式不适合N卡。
作者: deepseek    时间: 2025-6-8 19:07
a010301208 发表于 2025-6-8 18:42
好久不玩生图了,有5090嘛就因该玩玩自己训练视频LORA,打开新的大门,只能截这点了,下面少/儿不宜

...


大佬~这个视频lora能不能给我一份~我真的很喜欢云霄仙子~~
作者: deepseek    时间: 2025-6-8 19:20
a010301208 发表于 2025-6-8 19:17
不想惹麻烦,现在市面上的都太假,这种外面一看就能大概找到是我做到,我可不想在司xx这种地方看到 你喜 ...

好的大佬~加你论坛好友了~通过下~
作者: momoka    时间: 2025-6-8 19:22
a010301208 发表于 2025-6-8 18:42
好久不玩生图了,有5090嘛就因该玩玩自己训练视频LORA,打开新的大门,只能截这点了,下面少/儿不宜

...

向你学习了,我是小白,暂时都是算些对我喜好或者对工作有点点帮助的参考图性质的,算是最简单的应用~
作者: momoka    时间: 2025-6-8 19:23
本帖最后由 momoka 于 2025-6-8 19:25 编辑
deepseek 发表于 2025-6-8 19:03
本质已经不是一个东西了~


都是基于stable diffusion囧。只是一个停滞了,一个在发展。
作者: deepseek    时间: 2025-6-8 19:25
momoka 发表于 2025-6-8 19:23
一个东西吧,都是基于stable diffusion囧。

comfyui加了好多乱七八糟的东西~~都能原生用~~
作者: a010301208    时间: 2025-6-8 19:25
本帖最后由 a010301208 于 2025-6-8 22:41 编辑
deepseek 发表于 2025-6-8 19:20
好的大佬~加你论坛好友了~通过下~


20楼的那回帖的视频图有点露,帖我删了,30楼补了一张

好友已经通过了
作者: a010301208    时间: 2025-6-8 19:29
本帖最后由 a010301208 于 2025-6-8 19:33 编辑
momoka 发表于 2025-6-8 19:22
向你学习了,我是小白,暂时都是算些对我喜好或者对工作有点点帮助的参考图性质的,算是最简单的应用~ ...


最开始我也玩SD生图的,后来感觉模型学习上限太低了,模型不够聪明所以效果不太满意,后来视频模型出来就玩视频了,其实也不复杂,主要是兴趣爱好,感兴趣的话也很快入门
作者: robles    时间: 2025-6-8 20:57
应该用2080ti 22g跟5080比比爆显存的项目。
作者: h4ckm310n    时间: 2025-6-8 21:12
512的分辨率,这是sd1.5吗,如果是sdxl的话用1024更好吧。顺便如果可以的话也想看看运行flux的性能如何
作者: keqikeqi    时间: 2025-6-8 21:14
显存、算力都非常重要。。。
作者: momoka    时间: 2025-6-8 21:23
h4ckm310n 发表于 2025-6-8 21:12
512的分辨率,这是sd1.5吗,如果是sdxl的话用1024更好吧。顺便如果可以的话也想看看运行flux的性能如何 ...


640*512再放大到1280*1024,适合大批量看效果用。sd1.5原生分辨率低。

webui不支持后面那些,等comfyui里搭好适合我的工作流再测试。顺便我是觉得换成其他的应该也不会有明显差别,当然只是想当然的猜测而已。
作者: a010301208    时间: 2025-6-8 22:05
deepseek 发表于 2025-6-8 19:20
好的大佬~加你论坛好友了~通过下~

突然发现刚才那楼那张安妙依的视频截图没截好有点漏了,我赶紧删了那楼 ,以后公开还是发原本就穿衣服的算了。

补一张安妙依,懒得开FramePack加载LORA生成长视频了,直接COMFYUI出个原生LORA短的

(, 下载次数: 0)

作者: cloud    时间: 2025-6-8 22:11
(, 下载次数: 2)

sd早淘汰了吧 我测试的1024x1024 30步的Flux
作者: michaelzxp    时间: 2025-6-8 22:15
炼丹终极是显存,其他都是浮云
作者: momoka    时间: 2025-6-8 22:19
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

谢提供资料。感觉fp8下的速度还是很符合的~
作者: deepseek    时间: 2025-6-8 22:22
a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了,我赶紧删了那楼 ,以后公开还是发原本就穿衣服的 ...

大佬~看下私信~
作者: cloud    时间: 2025-6-8 22:29
momoka 发表于 2025-6-8 22:19
谢提供资料。感觉fp8下的速度还是很符合的~

fp8和fp4标注反了
作者: h4ckm310n    时间: 2025-6-8 23:47
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

也不算淘汰,在二次元以及nsfw方面基于sdxl的pony或者illustrious这些现在也挺火的,而flux目前在这方面的生态还是不够好,只能说各有优劣
作者: 1lch2    时间: 2025-6-9 10:43
a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了,我赶紧删了那楼 ,以后公开还是发原本就穿衣服的 ...

用的Wan 2.1吗?好奇吃多少显存,之前跑部分量化到FP8的Wan 2.1,16G显存都快炸了,速度也非常慢,滚回去继续玩生图了
作者: a010301208    时间: 2025-6-9 11:53
1lch2 发表于 2025-6-9 10:43
用的Wan 2.1吗?好奇吃多少显存,之前跑部分量化到FP8的Wan 2.1,16G显存都快炸了,速度也非常慢,滚回去 ...

用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动WAN2.1虽然画质细节更好,不过我用下来感觉更适合图片生成视频。

更关键的是FramePack那些修改版本可以使用LORA,只能用混元的LORA。

我32G显存跑的,不过你16G因该不至于炸了,因该是工作流没设置节点开启BlockSwap
作者: KimmyGLM    时间: 2025-6-9 13:04
艹了,这么多二刺猿.....
作者: 神性    时间: 2025-6-10 01:15
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

fp4出图效果如何,质量下降多少?
作者: Demir    时间: 2025-6-10 01:25
本帖最后由 Demir 于 2025-6-10 01:29 编辑

[quote]xsdianeht 发表于 2025-6-8 18:29
有工作流吗,我想在B580上跑一下[/quowte]

我也是b580,环境搭好了。改一下bat文件就行,跑出来的图很奇怪。
作者: 神性    时间: 2025-6-10 01:54
a010301208 发表于 2025-6-9 11:53
用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动WAN2.1虽然画质细节更好,不过我 ...

请问4090跑这个有压力吗?
作者: cloud    时间: 2025-6-10 08:19
神性 发表于 2025-6-10 01:15
fp4出图效果如何,质量下降多少?


https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg

虽然不能说一样 但也差不多 其实主要问题是支持fp4的模型太少了

不过3.0 修复了lora和control.net的性能 之前2.0 用lora和control.net大概要慢3倍  现在用基模还是可以
作者: 1lch2    时间: 2025-6-10 09:33
a010301208 发表于 2025-6-9 11:53
用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动WAN2.1虽然画质细节更好,不过我 ...

感谢指点,回头试试framepack
作者: shaojp    时间: 2025-6-10 09:58
momoka 发表于 2025-6-8 19:23
都是基于stable diffusion囧。只是一个停滞了,一个在发展。

我前段时间学习webUI,学起来容易,comfyUI各个依赖冲突,问题很多,拿来的流程并不一定能用,用了可能其他流程不能用的。被折腾坏了,非常烦。
作者: 神性    时间: 2025-6-10 12:31
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

5080和4090差不多,看来有必要买50系列了。
作者: 神性    时间: 2025-6-10 12:34
cloud 发表于 2025-6-10 08:19
https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg

虽然不能说一样 但也差不多 其实主 ...

fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?
作者: cloud    时间: 2025-6-10 13:12
神性 发表于 2025-6-10 12:34
fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?

大概2/3吧
作者: Leciel    时间: 2025-6-10 14:28
只有纵向对比性,没有横向。

upscaler用的是什么模型?2倍放大一般是4个tile。
IP-Adapter用的什么模型?从log看是SD。
用的是什么attention? Sage attention?

SD的标准512*512 Euler sampler在7900xtx zluda flash attention2 + cuDnn可以跑到20it/s,换成DPM++2M Karras会折损10%到15%,用上ip-adapter会折损40%-60%的效率,预估就5秒出一张640*512。upscaler就无从换算,就算8秒一张吧。大概13秒出一张图。

ip-adapter已死。高质量风格转换用flux redux。
SD的漫画风格已经被Illustrious模型全面替代。质量极高,也极涩。

7900xtx直接上Illustrious,1024x1024,Euler sampler,可以做到4.3it/s,25个循环,大概7秒出一张高质量的漫画图。
作者: a010301208    时间: 2025-6-10 15:32
神性 发表于 2025-6-10 01:54
请问4090跑这个有压力吗?


4090跑视频没什么压力,5秒视频,分辨率如果设置非常高,那就每秒16帧,之后补帧就行,出视频还是比较快的。跑FramePack的话24G显存甚至有点浪费了。

训练有点压力,想用bf16用视频训练视频就别想了,开fp8,然后BlockSwap开到24,差不多能训练512X512的视频素材吧。用图片训练开bf16倒是没问题,BlockSwap依然开到24,用bf16训练1280X1280的图也没问题,bs保持1,用gradient accumulation steps开到4代替就行。
作者: 神性    时间: 2025-6-10 16:15
cloud 发表于 2025-6-10 13:12
大概2/3吧

了解了。
作者: 神性    时间: 2025-6-10 16:22
a010301208 发表于 2025-6-10 15:32
4090跑视频没什么压力,5秒视频,分辨率如果设置非常高,那就每秒16帧,之后补帧就行,出视频还是比较快 ...


我中午下载了那个fraepack,启动完以后他自己开始下载了几十g的模型

我又去c站下了个给人物脱衣服的lora模型

刚才进入网页图形页面后,我发现找不到地方加载这个模型,这是为什么?
作者: a010301208    时间: 2025-6-10 16:39
神性 发表于 2025-6-10 16:22
我中午下载了那个fraepack,启动完以后他自己开始下载了几十g的模型

我又去c站下了个给人物脱衣服的lora ...


FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就玩脱衣有前途

https://github.com/git-ai-code/F ... README/README_zh.md



作者: 神性    时间: 2025-6-10 16:58
a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就 ...

学习了,晚上试试这个。
作者: 神性    时间: 2025-6-10 20:15
a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就 ...

现在按你说的这个可以加载lora了。不过发现一个新问题。

找了个真人图片测试了下,按lora作者提供的语句格式输入,确实视频里她自己把衣服脱了,脸部和别的都很稳定,但是那个雷,看上去比穿着的时候大那么一点,是什么原因。


作者: natt    时间: 2025-6-10 20:41
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

5060TI好像也能用啊
作者: a010301208    时间: 2025-6-10 21:06
神性 发表于 2025-6-10 20:15
现在按你说的这个可以加载lora了。不过发现一个新问题。

找了个真人图片测试了下,按lora作者提供的语句 ...

这个其实很好理解,你说的雷我没误解的话,因为ai没见过你这个人物没穿衣服,所以脱掉以后注意力会更靠近你所使用的lora中人物没穿的样子大小形状

要解决其实很简单,把你要脱的人物训练成一个lora(素材越丰富越好,起码要有泳装照片),和你现在这个lora一起加载,人物权重多0.1,即使是图生视频,那么AI依然会更准确的控制视频生成中你人物的所有细节。
作者: 神性    时间: 2025-6-10 22:21
a010301208 发表于 2025-6-10 21:06
这个其实很好理解,你说的雷我没误解的话,因为ai没见过你这个人物没穿衣服,所以脱掉以后注意力会更靠近 ...

理解了。

那如果我想让雷晃动的更自然一些,要怎么操作,也是训练lora吗?
作者: a010301208    时间: 2025-6-10 23:41
神性 发表于 2025-6-10 22:21
理解了。

那如果我想让雷晃动的更自然一些,要怎么操作,也是训练lora吗? ...



要达到你理想中的表现,确实只有训练lora,或者你能找到别人训练效果非常好的下载

其实这个属于很简单的动作lora训练了,你把你觉得满意的那个场景,剪辑成5秒一段的视频,有个10段就行了,给每段视频打标不要太复杂,因为你只需要AI学习xx在晃动,所以提示词这么写“某个学习代号,视频中是一对人类女人的XX,正在如何如何晃动”,就可以了,不要对视频中别的去描述,因为你不需要学别的,这样以后使用效果最佳你剪辑的时候能保持画面中只有你想学的,那自然是更好

训练完i以后,之后不管什么图片,你只要加载这个lora,写描述时加入训练时的描述和你写的学习代号,视频中人物就会自然的物理晃动,如果你想每次晃的都不同,那就在训练的时候加入不同人物类似的场景。
作者: 神性    时间: 2025-6-11 00:18
a010301208 发表于 2025-6-10 23:41
要达到你理想中的表现,确实只有训练lora,或者你能找到别人训练效果非常好的下载

其实这个属于很简单 ...

大概理解了,谢谢。

lora训练器我刚才搜索了下,有好几个,哪个比较好?
作者: a010301208    时间: 2025-6-11 00:34
神性 发表于 2025-6-11 00:18
大概理解了,谢谢。

lora训练器我刚才搜索了下,有好几个,哪个比较好? ...


用diffusion-pipe,效果最好,win下面也可以在wsl中使用,你要用FramePack-eichi加载lora的话,那就训练配置里改成hunyuan video的模型,虽然你只是图生视频,但也用t2v模型训练就行了,别用混元的i2v

https://github.com/tdrussell/diffusion-pipe
作者: 神性    时间: 2025-6-11 00:43
a010301208 发表于 2025-6-11 00:34
用diffusion-pipe,效果最好,win下面也可以在wsl中使用,你要用FramePack-eichi加载lora的话,那就训练 ...


非常感谢!

我先去研究,不懂再来请教。
作者: a010301208    时间: 2025-6-11 01:37
神性 发表于 2025-6-11 00:43
非常感谢!

我先去研究,不懂再来请教。


作者: 神性    时间: 2025-6-11 15:53
a010301208 发表于 2025-6-11 00:34
用diffusion-pipe,效果最好,win下面也可以在wsl中使用,你要用FramePack-eichi加载lora的话,那就训练 ...


再请教一下,已训练4小时,设置了1000轮,请问多少小时手动停?
作者: a010301208    时间: 2025-6-11 16:08
神性 发表于 2025-6-11 15:53
再请教一下,已训练4小时,设置了1000轮,请问多少小时手动停?


训练多久结束和用了多少素材,训练的是动作,人物还是风格等有关系,不是以小时判断的,就按昨天说的那个来说,num repeats默认1没乱改的话,就按步数来初步计算,假设你bs1,gradient accumulation steps开2,那么每有1个5秒的视频就多训练80步,10个就先总共训练800步,然后先把lora导入,试试效果

diffusion pipe训练进度是会按你的设置时间来保存的,如果不满意可以继续训练。
作者: 神性    时间: 2025-6-11 16:17
a010301208 发表于 2025-6-11 16:08
训练多久结束和用了多少素材,训练的是动作,人物还是风格等有关系,不是以小时判断的,就按昨天说的那个 ...

一共60个视频,训练4800步吗
作者: a010301208    时间: 2025-6-11 16:24
神性 发表于 2025-6-11 16:17
一共60个视频,训练4800步吗


你训练这种简单动作,其实视频素材不用这么多,不过没事你先训练着

训练人物lora才需要海量素材,一个人物相似度要训练到95%以上,一开始要准备200张左右的图片素材,然后把训练出来的lora,文生视频,生成海量的1秒视频,再把这些视频满意的帧数保存,再用这个合集素材加上你的原素材二次训练
作者: 神性    时间: 2025-6-11 16:28
a010301208 发表于 2025-6-11 16:24
你训练这种简单动作,其实视频素材不用这么多,不过没事你先训练着

训练人物lora才需要海量素材,一个人 ...

好我先试试,不懂再来请教。感谢。
作者: gdanmac    时间: 2025-6-11 17:44
3090 现在是废了吗?




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5