手上几张显卡的stable diffusion算图速度对比（个人向），仅供参考。 - 第2页 - 电脑讨论(新) - Chiphell - 分享与交流用户体验

michaelzxp 发表于 2025-6-8 22:15

炼丹终极是显存，其他都是浮云

momoka 发表于 2025-6-8 22:19

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

谢提供资料。感觉fp8下的速度还是很符合的~

deepseek 发表于 2025-6-8 22:22

a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了，我赶紧删了那楼，以后公开还是发原本就穿衣服的 ...

大佬~看下私信~

cloud 发表于 2025-6-8 22:29

momoka 发表于 2025-6-8 22:19
谢提供资料。感觉fp8下的速度还是很符合的~

fp8和fp4标注反了

h4ckm310n 发表于 2025-6-8 23:47

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

也不算淘汰，在二次元以及nsfw方面基于sdxl的pony或者illustrious这些现在也挺火的，而flux目前在这方面的生态还是不够好，只能说各有优劣

1lch2 发表于 2025-6-9 10:43

a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了，我赶紧删了那楼，以后公开还是发原本就穿衣服的 ...

用的Wan 2.1吗？好奇吃多少显存，之前跑部分量化到FP8的Wan 2.1，16G显存都快炸了，速度也非常慢，滚回去继续玩生图了

a010301208 发表于 2025-6-9 11:53

1lch2 发表于 2025-6-9 10:43
用的Wan 2.1吗？好奇吃多少显存，之前跑部分量化到FP8的Wan 2.1，16G显存都快炸了，速度也非常慢，滚回去 ...

用的混元，混元的LORA训练人物更像，模型是多注意力机制，更适合多人运动[偷笑]WAN2.1虽然画质细节更好，不过我用下来感觉更适合图片生成视频。

更关键的是FramePack那些修改版本可以使用LORA，只能用混元的LORA。

我32G显存跑的，不过你16G因该不至于炸了，因该是工作流没设置节点开启BlockSwap

KimmyGLM 发表于 2025-6-9 13:04

艹了，这么多二刺猿.....

神性发表于 2025-6-10 01:15

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

fp4出图效果如何，质量下降多少?

Demir 发表于 2025-6-10 01:25

本帖最后由 Demir 于 2025-6-10 01:29 编辑

xsdianeht 发表于 2025-6-8 18:29
有工作流吗，我想在B580上跑一下

我也是b580，环境搭好了。改一下bat文件就行，跑出来的图很奇怪。

神性发表于 2025-6-10 01:54

a010301208 发表于 2025-6-9 11:53
用的混元，混元的LORA训练人物更像，模型是多注意力机制，更适合多人运动WAN2.1虽然画质细节更好，不过我 ...

请问4090跑这个有压力吗?

cloud 发表于 2025-6-10 08:19

神性发表于 2025-6-10 01:15
fp4出图效果如何，质量下降多少?

https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg

虽然不能说一样但也差不多其实主要问题是支持fp4的模型太少了

不过3.0 修复了lora和control.net的性能之前2.0 用lora和control.net大概要慢3倍现在用基模还是可以

1lch2 发表于 2025-6-10 09:33

a010301208 发表于 2025-6-9 11:53
用的混元，混元的LORA训练人物更像，模型是多注意力机制，更适合多人运动WAN2.1虽然画质细节更好，不过我 ...

感谢指点，回头试试framepack

shaojp 发表于 2025-6-10 09:58

momoka 发表于 2025-6-8 19:23
都是基于stable diffusion囧。只是一个停滞了，一个在发展。

我前段时间学习webUI,学起来容易，comfyUI各个依赖冲突，问题很多，拿来的流程并不一定能用，用了可能其他流程不能用的。被折腾坏了，非常烦。

神性发表于 2025-6-10 12:31

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

5080和4090差不多，看来有必要买50系列了。

神性发表于 2025-6-10 12:34

cloud 发表于 2025-6-10 08:19
https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg

虽然不能说一样但也差不多其实主 ...

fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?

cloud 发表于 2025-6-10 13:12

神性发表于 2025-6-10 12:34
fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?

大概2/3吧

Leciel 发表于 2025-6-10 14:28

只有纵向对比性，没有横向。

upscaler用的是什么模型？2倍放大一般是4个tile。
IP-Adapter用的什么模型？从log看是SD。
用的是什么attention? Sage attention?

SD的标准512*512 Euler sampler在7900xtx zluda flash attention2 + cuDnn可以跑到20it/s，换成DPM++2M Karras会折损10%到15%，用上ip-adapter会折损40%-60%的效率，预估就5秒出一张640*512。upscaler就无从换算，就算8秒一张吧。大概13秒出一张图。

ip-adapter已死。高质量风格转换用flux redux。
SD的漫画风格已经被Illustrious模型全面替代。质量极高，也极涩。

7900xtx直接上Illustrious，1024x1024，Euler sampler，可以做到4.3it/s，25个循环，大概7秒出一张高质量的漫画图。

a010301208 发表于 2025-6-10 15:32

神性发表于 2025-6-10 01:54
请问4090跑这个有压力吗?

4090跑视频没什么压力，5秒视频，分辨率如果设置非常高，那就每秒16帧，之后补帧就行，出视频还是比较快的。跑FramePack的话24G显存甚至有点浪费了。

训练有点压力，想用bf16用视频训练视频就别想了，开fp8，然后BlockSwap开到24，差不多能训练512X512的视频素材吧。用图片训练开bf16倒是没问题，BlockSwap依然开到24，用bf16训练1280X1280的图也没问题，bs保持1，用gradient accumulation steps开到4代替就行。[偷笑]

神性发表于 2025-6-10 16:15

cloud 发表于 2025-6-10 13:12
大概2/3吧

了解了。

神性发表于 2025-6-10 16:22

a010301208 发表于 2025-6-10 15:32
4090跑视频没什么压力，5秒视频，分辨率如果设置非常高，那就每秒16帧，之后补帧就行，出视频还是比较快 ...

我中午下载了那个fraepack，启动完以后他自己开始下载了几十g的模型

我又去c站下了个给人物脱衣服的lora模型

刚才进入网页图形页面后，我发现找不到地方加载这个模型，这是为什么?

a010301208 发表于 2025-6-10 16:39

神性发表于 2025-6-10 16:22
我中午下载了那个fraepack，启动完以后他自己开始下载了几十g的模型

我又去c站下了个给人物脱衣服的lora ...

FramePack?官方原版只有一个图生视频的基础功能，要加载lora的话可以下载FramePack-eichi这种，一上来就玩脱衣[偷笑]有前途[偷笑]

https://github.com/git-ai-code/FramePack-eichi/blob/main/README/README_zh.md

神性发表于 2025-6-10 16:58

a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能，要加载lora的话可以下载FramePack-eichi这种，一上来就 ...

学习了，晚上试试这个。

神性发表于 2025-6-10 20:15

a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能，要加载lora的话可以下载FramePack-eichi这种，一上来就 ...

现在按你说的这个可以加载lora了。不过发现一个新问题。

找了个真人图片测试了下，按lora作者提供的语句格式输入，确实视频里她自己把衣服脱了，脸部和别的都很稳定，但是那个雷，看上去比穿着的时候大那么一点，是什么原因。

natt 发表于 2025-6-10 20:41

cloud 发表于 2025-6-8 22:11
sd早淘汰了吧我测试的1024x1024 30步的Flux

5060TI好像也能用啊[傻笑]

a010301208 发表于 2025-6-10 21:06

神性发表于 2025-6-10 20:15
现在按你说的这个可以加载lora了。不过发现一个新问题。

找了个真人图片测试了下，按lora作者提供的语句 ...

这个其实很好理解，你说的雷我没误解的话[偷笑]，因为ai没见过你这个人物没穿衣服，所以脱掉以后注意力会更靠近你所使用的lora中人物没穿的样子大小形状[偷笑]

要解决其实很简单，把你要脱的人物训练成一个lora（素材越丰富越好，起码要有泳装照片），和你现在这个lora一起加载，人物权重多0.1，即使是图生视频，那么AI依然会更准确的控制视频生成中你人物的所有细节。[偷笑]

神性发表于 2025-6-10 22:21

a010301208 发表于 2025-6-10 21:06
这个其实很好理解，你说的雷我没误解的话，因为ai没见过你这个人物没穿衣服，所以脱掉以后注意力会更靠近 ...

理解了。

那如果我想让雷晃动的更自然一些，要怎么操作，也是训练lora吗?

a010301208 发表于 2025-6-10 23:41

神性发表于 2025-6-10 22:21
理解了。

那如果我想让雷晃动的更自然一些，要怎么操作，也是训练lora吗? ...

[偷笑]

要达到你理想中的表现，确实只有训练lora，或者你能找到别人训练效果非常好的下载[偷笑]

其实这个属于很简单的动作lora训练了，你把你觉得满意的那个场景，剪辑成5秒一段的视频，有个10段就行了，给每段视频打标不要太复杂，因为你只需要AI学习xx在晃动，所以提示词这么写“某个学习代号，视频中是一对人类女人的XX，正在如何如何晃动”，就可以了，不要对视频中别的去描述，因为你不需要学别的，这样以后使用效果最佳[偷笑]你剪辑的时候能保持画面中只有你想学的，那自然是更好[偷笑]

训练完i以后，之后不管什么图片，你只要加载这个lora，写描述时加入训练时的描述和你写的学习代号，视频中人物就会自然的物理晃动[偷笑]，如果你想每次晃的都不同，那就在训练的时候加入不同人物类似的场景。[偷笑]

神性发表于 2025-6-11 00:18

a010301208 发表于 2025-6-10 23:41
要达到你理想中的表现，确实只有训练lora，或者你能找到别人训练效果非常好的下载

其实这个属于很简单 ...

大概理解了，谢谢。

lora训练器我刚才搜索了下，有好几个，哪个比较好?

a010301208 发表于 2025-6-11 00:34

神性发表于 2025-6-11 00:18
大概理解了，谢谢。

lora训练器我刚才搜索了下，有好几个，哪个比较好? ...

用diffusion-pipe，效果最好，win下面也可以在wsl中使用，你要用FramePack-eichi加载lora的话，那就训练配置里改成hunyuan video的模型，虽然你只是图生视频，但也用t2v模型训练就行了，别用混元的i2v[偷笑]

https://github.com/tdrussell/diffusion-pipe

页: 1 [2] 3

Chiphell - 分享与交流用户体验's Archiver