找回密码
 加入我们
搜索
      
楼主: momoka

[显卡] 手上几张显卡的stable diffusion算图速度对比(个人向),仅供参考。

[复制链接]
发表于 2025-6-8 22:11 | 显示全部楼层
ed674b47-a7b5-4955-912b-7506ff16829a.png

sd早淘汰了吧 我测试的1024x1024 30步的Flux
发表于 2025-6-8 22:15 | 显示全部楼层
炼丹终极是显存,其他都是浮云
 楼主| 发表于 2025-6-8 22:19 | 显示全部楼层
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

谢提供资料。感觉fp8下的速度还是很符合的~
发表于 2025-6-8 22:22 | 显示全部楼层
a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了,我赶紧删了那楼 ,以后公开还是发原本就穿衣服的 ...

大佬~看下私信~
发表于 2025-6-8 22:29 | 显示全部楼层
momoka 发表于 2025-6-8 22:19
谢提供资料。感觉fp8下的速度还是很符合的~

fp8和fp4标注反了

点评

额,那还是改过来的好  发表于 2025-6-8 22:42
发表于 2025-6-8 23:47 | 显示全部楼层
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

也不算淘汰,在二次元以及nsfw方面基于sdxl的pony或者illustrious这些现在也挺火的,而flux目前在这方面的生态还是不够好,只能说各有优劣
发表于 2025-6-9 10:43 | 显示全部楼层
a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了,我赶紧删了那楼 ,以后公开还是发原本就穿衣服的 ...

用的Wan 2.1吗?好奇吃多少显存,之前跑部分量化到FP8的Wan 2.1,16G显存都快炸了,速度也非常慢,滚回去继续玩生图了
发表于 2025-6-9 11:53 | 显示全部楼层
1lch2 发表于 2025-6-9 10:43
用的Wan 2.1吗?好奇吃多少显存,之前跑部分量化到FP8的Wan 2.1,16G显存都快炸了,速度也非常慢,滚回去 ...

用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动WAN2.1虽然画质细节更好,不过我用下来感觉更适合图片生成视频。

更关键的是FramePack那些修改版本可以使用LORA,只能用混元的LORA。

我32G显存跑的,不过你16G因该不至于炸了,因该是工作流没设置节点开启BlockSwap
发表于 2025-6-9 13:04 | 显示全部楼层
艹了,这么多二刺猿.....
发表于 2025-6-10 01:15 | 显示全部楼层
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

fp4出图效果如何,质量下降多少?
发表于 2025-6-10 01:25 | 显示全部楼层
本帖最后由 Demir 于 2025-6-10 01:29 编辑

[quote]xsdianeht 发表于 2025-6-8 18:29
有工作流吗,我想在B580上跑一下[/quowte]

我也是b580,环境搭好了。改一下bat文件就行,跑出来的图很奇怪。
发表于 2025-6-10 01:54 | 显示全部楼层
a010301208 发表于 2025-6-9 11:53
用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动WAN2.1虽然画质细节更好,不过我 ...

请问4090跑这个有压力吗?
发表于 2025-6-10 08:19 | 显示全部楼层
神性 发表于 2025-6-10 01:15
fp4出图效果如何,质量下降多少?


https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg

虽然不能说一样 但也差不多 其实主要问题是支持fp4的模型太少了

不过3.0 修复了lora和control.net的性能 之前2.0 用lora和control.net大概要慢3倍  现在用基模还是可以
发表于 2025-6-10 09:33 | 显示全部楼层
a010301208 发表于 2025-6-9 11:53
用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动WAN2.1虽然画质细节更好,不过我 ...

感谢指点,回头试试framepack
发表于 2025-6-10 09:58 | 显示全部楼层
momoka 发表于 2025-6-8 19:23
都是基于stable diffusion囧。只是一个停滞了,一个在发展。

我前段时间学习webUI,学起来容易,comfyUI各个依赖冲突,问题很多,拿来的流程并不一定能用,用了可能其他流程不能用的。被折腾坏了,非常烦。
发表于 2025-6-10 12:31 | 显示全部楼层
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

5080和4090差不多,看来有必要买50系列了。
发表于 2025-6-10 12:34 | 显示全部楼层
cloud 发表于 2025-6-10 08:19
https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg

虽然不能说一样 但也差不多 其实主 ...

fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?
发表于 2025-6-10 13:12 | 显示全部楼层
神性 发表于 2025-6-10 12:34
fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?

大概2/3吧
发表于 2025-6-10 14:28 | 显示全部楼层
只有纵向对比性,没有横向。

upscaler用的是什么模型?2倍放大一般是4个tile。
IP-Adapter用的什么模型?从log看是SD。
用的是什么attention? Sage attention?

SD的标准512*512 Euler sampler在7900xtx zluda flash attention2 + cuDnn可以跑到20it/s,换成DPM++2M Karras会折损10%到15%,用上ip-adapter会折损40%-60%的效率,预估就5秒出一张640*512。upscaler就无从换算,就算8秒一张吧。大概13秒出一张图。

ip-adapter已死。高质量风格转换用flux redux。
SD的漫画风格已经被Illustrious模型全面替代。质量极高,也极涩。

7900xtx直接上Illustrious,1024x1024,Euler sampler,可以做到4.3it/s,25个循环,大概7秒出一张高质量的漫画图。
发表于 2025-6-10 15:32 | 显示全部楼层
神性 发表于 2025-6-10 01:54
请问4090跑这个有压力吗?


4090跑视频没什么压力,5秒视频,分辨率如果设置非常高,那就每秒16帧,之后补帧就行,出视频还是比较快的。跑FramePack的话24G显存甚至有点浪费了。

训练有点压力,想用bf16用视频训练视频就别想了,开fp8,然后BlockSwap开到24,差不多能训练512X512的视频素材吧。用图片训练开bf16倒是没问题,BlockSwap依然开到24,用bf16训练1280X1280的图也没问题,bs保持1,用gradient accumulation steps开到4代替就行。
发表于 2025-6-10 16:15 | 显示全部楼层

了解了。
发表于 2025-6-10 16:22 | 显示全部楼层
a010301208 发表于 2025-6-10 15:32
4090跑视频没什么压力,5秒视频,分辨率如果设置非常高,那就每秒16帧,之后补帧就行,出视频还是比较快 ...


我中午下载了那个fraepack,启动完以后他自己开始下载了几十g的模型

我又去c站下了个给人物脱衣服的lora模型

刚才进入网页图形页面后,我发现找不到地方加载这个模型,这是为什么?
发表于 2025-6-10 16:39 | 显示全部楼层
神性 发表于 2025-6-10 16:22
我中午下载了那个fraepack,启动完以后他自己开始下载了几十g的模型

我又去c站下了个给人物脱衣服的lora ...


FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就玩脱衣有前途

https://github.com/git-ai-code/F ... README/README_zh.md


发表于 2025-6-10 16:58 | 显示全部楼层
a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就 ...

学习了,晚上试试这个。
发表于 2025-6-10 20:15 | 显示全部楼层
a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就 ...

现在按你说的这个可以加载lora了。不过发现一个新问题。

找了个真人图片测试了下,按lora作者提供的语句格式输入,确实视频里她自己把衣服脱了,脸部和别的都很稳定,但是那个雷,看上去比穿着的时候大那么一点,是什么原因。

发表于 2025-6-10 20:41 | 显示全部楼层
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux

5060TI好像也能用啊
发表于 2025-6-10 21:06 | 显示全部楼层
神性 发表于 2025-6-10 20:15
现在按你说的这个可以加载lora了。不过发现一个新问题。

找了个真人图片测试了下,按lora作者提供的语句 ...

这个其实很好理解,你说的雷我没误解的话,因为ai没见过你这个人物没穿衣服,所以脱掉以后注意力会更靠近你所使用的lora中人物没穿的样子大小形状

要解决其实很简单,把你要脱的人物训练成一个lora(素材越丰富越好,起码要有泳装照片),和你现在这个lora一起加载,人物权重多0.1,即使是图生视频,那么AI依然会更准确的控制视频生成中你人物的所有细节。
发表于 2025-6-10 22:21 | 显示全部楼层
a010301208 发表于 2025-6-10 21:06
这个其实很好理解,你说的雷我没误解的话,因为ai没见过你这个人物没穿衣服,所以脱掉以后注意力会更靠近 ...

理解了。

那如果我想让雷晃动的更自然一些,要怎么操作,也是训练lora吗?
发表于 2025-6-10 23:41 | 显示全部楼层
神性 发表于 2025-6-10 22:21
理解了。

那如果我想让雷晃动的更自然一些,要怎么操作,也是训练lora吗? ...



要达到你理想中的表现,确实只有训练lora,或者你能找到别人训练效果非常好的下载

其实这个属于很简单的动作lora训练了,你把你觉得满意的那个场景,剪辑成5秒一段的视频,有个10段就行了,给每段视频打标不要太复杂,因为你只需要AI学习xx在晃动,所以提示词这么写“某个学习代号,视频中是一对人类女人的XX,正在如何如何晃动”,就可以了,不要对视频中别的去描述,因为你不需要学别的,这样以后使用效果最佳你剪辑的时候能保持画面中只有你想学的,那自然是更好

训练完i以后,之后不管什么图片,你只要加载这个lora,写描述时加入训练时的描述和你写的学习代号,视频中人物就会自然的物理晃动,如果你想每次晃的都不同,那就在训练的时候加入不同人物类似的场景。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-6-11 00:01 , Processed in 0.012351 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表