michaelzxp
发表于 2025-6-8 22:15
炼丹终极是显存,其他都是浮云
momoka
发表于 2025-6-8 22:19
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux
谢提供资料。感觉fp8下的速度还是很符合的~
deepseek
发表于 2025-6-8 22:22
a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了,我赶紧删了那楼 ,以后公开还是发原本就穿衣服的 ...
大佬~看下私信~
cloud
发表于 2025-6-8 22:29
momoka 发表于 2025-6-8 22:19
谢提供资料。感觉fp8下的速度还是很符合的~
fp8和fp4标注反了
h4ckm310n
发表于 2025-6-8 23:47
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux
也不算淘汰,在二次元以及nsfw方面基于sdxl的pony或者illustrious这些现在也挺火的,而flux目前在这方面的生态还是不够好,只能说各有优劣
1lch2
发表于 2025-6-9 10:43
a010301208 发表于 2025-6-8 22:05
突然发现刚才那楼那张安妙依的视频截图没截好有点漏了,我赶紧删了那楼 ,以后公开还是发原本就穿衣服的 ...
用的Wan 2.1吗?好奇吃多少显存,之前跑部分量化到FP8的Wan 2.1,16G显存都快炸了,速度也非常慢,滚回去继续玩生图了
a010301208
发表于 2025-6-9 11:53
1lch2 发表于 2025-6-9 10:43
用的Wan 2.1吗?好奇吃多少显存,之前跑部分量化到FP8的Wan 2.1,16G显存都快炸了,速度也非常慢,滚回去 ...
用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动[偷笑]WAN2.1虽然画质细节更好,不过我用下来感觉更适合图片生成视频。
更关键的是FramePack那些修改版本可以使用LORA,只能用混元的LORA。
我32G显存跑的,不过你16G因该不至于炸了,因该是工作流没设置节点开启BlockSwap
KimmyGLM
发表于 2025-6-9 13:04
艹了,这么多二刺猿.....
神性
发表于 2025-6-10 01:15
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux
fp4出图效果如何,质量下降多少?
Demir
发表于 2025-6-10 01:25
本帖最后由 Demir 于 2025-6-10 01:29 编辑
xsdianeht 发表于 2025-6-8 18:29
有工作流吗,我想在B580上跑一下
我也是b580,环境搭好了。改一下bat文件就行,跑出来的图很奇怪。
神性
发表于 2025-6-10 01:54
a010301208 发表于 2025-6-9 11:53
用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动WAN2.1虽然画质细节更好,不过我 ...
请问4090跑这个有压力吗?
cloud
发表于 2025-6-10 08:19
神性 发表于 2025-6-10 01:15
fp4出图效果如何,质量下降多少?
https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg
虽然不能说一样 但也差不多 其实主要问题是支持fp4的模型太少了
不过3.0 修复了lora和control.net的性能 之前2.0 用lora和control.net大概要慢3倍现在用基模还是可以
1lch2
发表于 2025-6-10 09:33
a010301208 发表于 2025-6-9 11:53
用的混元,混元的LORA训练人物更像,模型是多注意力机制,更适合多人运动WAN2.1虽然画质细节更好,不过我 ...
感谢指点,回头试试framepack
shaojp
发表于 2025-6-10 09:58
momoka 发表于 2025-6-8 19:23
都是基于stable diffusion囧。只是一个停滞了,一个在发展。
我前段时间学习webUI,学起来容易,comfyUI各个依赖冲突,问题很多,拿来的流程并不一定能用,用了可能其他流程不能用的。被折腾坏了,非常烦。
神性
发表于 2025-6-10 12:31
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux
5080和4090差不多,看来有必要买50系列了。
神性
发表于 2025-6-10 12:34
cloud 发表于 2025-6-10 08:19
https://pica.zhimg.com/v2-087ea1449cc0cec6c5aec632bdfafa14_r.jpg
虽然不能说一样 但也差不多 其实主 ...
fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?
cloud
发表于 2025-6-10 13:12
神性 发表于 2025-6-10 12:34
fp4显存使用也减少了一半吗?4090实际上利用率都不如5080了?
大概2/3吧
Leciel
发表于 2025-6-10 14:28
只有纵向对比性,没有横向。
upscaler用的是什么模型?2倍放大一般是4个tile。
IP-Adapter用的什么模型?从log看是SD。
用的是什么attention? Sage attention?
SD的标准512*512 Euler sampler在7900xtx zluda flash attention2 + cuDnn可以跑到20it/s,换成DPM++2M Karras会折损10%到15%,用上ip-adapter会折损40%-60%的效率,预估就5秒出一张640*512。upscaler就无从换算,就算8秒一张吧。大概13秒出一张图。
ip-adapter已死。高质量风格转换用flux redux。
SD的漫画风格已经被Illustrious模型全面替代。质量极高,也极涩。
7900xtx直接上Illustrious,1024x1024,Euler sampler,可以做到4.3it/s,25个循环,大概7秒出一张高质量的漫画图。
a010301208
发表于 2025-6-10 15:32
神性 发表于 2025-6-10 01:54
请问4090跑这个有压力吗?
4090跑视频没什么压力,5秒视频,分辨率如果设置非常高,那就每秒16帧,之后补帧就行,出视频还是比较快的。跑FramePack的话24G显存甚至有点浪费了。
训练有点压力,想用bf16用视频训练视频就别想了,开fp8,然后BlockSwap开到24,差不多能训练512X512的视频素材吧。用图片训练开bf16倒是没问题,BlockSwap依然开到24,用bf16训练1280X1280的图也没问题,bs保持1,用gradient accumulation steps开到4代替就行。[偷笑]
神性
发表于 2025-6-10 16:15
cloud 发表于 2025-6-10 13:12
大概2/3吧
了解了。
神性
发表于 2025-6-10 16:22
a010301208 发表于 2025-6-10 15:32
4090跑视频没什么压力,5秒视频,分辨率如果设置非常高,那就每秒16帧,之后补帧就行,出视频还是比较快 ...
我中午下载了那个fraepack,启动完以后他自己开始下载了几十g的模型
我又去c站下了个给人物脱衣服的lora模型
刚才进入网页图形页面后,我发现找不到地方加载这个模型,这是为什么?
a010301208
发表于 2025-6-10 16:39
神性 发表于 2025-6-10 16:22
我中午下载了那个fraepack,启动完以后他自己开始下载了几十g的模型
我又去c站下了个给人物脱衣服的lora ...
FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就玩脱衣[偷笑]有前途[偷笑]
https://github.com/git-ai-code/FramePack-eichi/blob/main/README/README_zh.md
神性
发表于 2025-6-10 16:58
a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就 ...
学习了,晚上试试这个。
神性
发表于 2025-6-10 20:15
a010301208 发表于 2025-6-10 16:39
FramePack?官方原版只有一个图生视频的基础功能,要加载lora的话可以下载FramePack-eichi这种,一上来就 ...
现在按你说的这个可以加载lora了。不过发现一个新问题。
找了个真人图片测试了下,按lora作者提供的语句格式输入,确实视频里她自己把衣服脱了,脸部和别的都很稳定,但是那个雷,看上去比穿着的时候大那么一点,是什么原因。
natt
发表于 2025-6-10 20:41
cloud 发表于 2025-6-8 22:11
sd早淘汰了吧 我测试的1024x1024 30步的Flux
5060TI好像也能用啊[傻笑]
a010301208
发表于 2025-6-10 21:06
神性 发表于 2025-6-10 20:15
现在按你说的这个可以加载lora了。不过发现一个新问题。
找了个真人图片测试了下,按lora作者提供的语句 ...
这个其实很好理解,你说的雷我没误解的话[偷笑],因为ai没见过你这个人物没穿衣服,所以脱掉以后注意力会更靠近你所使用的lora中人物没穿的样子大小形状[偷笑]
要解决其实很简单,把你要脱的人物训练成一个lora(素材越丰富越好,起码要有泳装照片),和你现在这个lora一起加载,人物权重多0.1,即使是图生视频,那么AI依然会更准确的控制视频生成中你人物的所有细节。[偷笑]
神性
发表于 2025-6-10 22:21
a010301208 发表于 2025-6-10 21:06
这个其实很好理解,你说的雷我没误解的话,因为ai没见过你这个人物没穿衣服,所以脱掉以后注意力会更靠近 ...
理解了。
那如果我想让雷晃动的更自然一些,要怎么操作,也是训练lora吗?
a010301208
发表于 2025-6-10 23:41
神性 发表于 2025-6-10 22:21
理解了。
那如果我想让雷晃动的更自然一些,要怎么操作,也是训练lora吗? ...
[偷笑]
要达到你理想中的表现,确实只有训练lora,或者你能找到别人训练效果非常好的下载[偷笑]
其实这个属于很简单的动作lora训练了,你把你觉得满意的那个场景,剪辑成5秒一段的视频,有个10段就行了,给每段视频打标不要太复杂,因为你只需要AI学习xx在晃动,所以提示词这么写“某个学习代号,视频中是一对人类女人的XX,正在如何如何晃动”,就可以了,不要对视频中别的去描述,因为你不需要学别的,这样以后使用效果最佳[偷笑]你剪辑的时候能保持画面中只有你想学的,那自然是更好[偷笑]
训练完i以后,之后不管什么图片,你只要加载这个lora,写描述时加入训练时的描述和你写的学习代号,视频中人物就会自然的物理晃动[偷笑],如果你想每次晃的都不同,那就在训练的时候加入不同人物类似的场景。[偷笑]
神性
发表于 2025-6-11 00:18
a010301208 发表于 2025-6-10 23:41
要达到你理想中的表现,确实只有训练lora,或者你能找到别人训练效果非常好的下载
其实这个属于很简单 ...
大概理解了,谢谢。
lora训练器我刚才搜索了下,有好几个,哪个比较好?
a010301208
发表于 2025-6-11 00:34
神性 发表于 2025-6-11 00:18
大概理解了,谢谢。
lora训练器我刚才搜索了下,有好几个,哪个比较好? ...
用diffusion-pipe,效果最好,win下面也可以在wsl中使用,你要用FramePack-eichi加载lora的话,那就训练配置里改成hunyuan video的模型,虽然你只是图生视频,但也用t2v模型训练就行了,别用混元的i2v[偷笑]
https://github.com/tdrussell/diffusion-pipe