不同代显卡混用,来跑LLM 是否可行?
本帖最后由 KimmyGLM 于 2025-3-22 10:05 编辑实在买不起高大上的4090 , RTX 专业卡更是遥不可及,只能在市场经济示范区捡垃圾玩玩。
Ktransformers 已经跑通,但是受限于临时的4060ti 16g卡垃圾带宽,速度只有10.5token。而且显存占用在14G,稍微复杂长文推理就歇菜了。
参考了https://www.chiphell.com/thread-2623722-3-1.html的帖子,打算捡个2080ti 或者V100 16G组个扩充方案;
主卡因为要Flash_Attn 的Marlin 显存压缩/加速 因子,所以只能在30系往后选。
可能会买个5070ti,也能兼顾着玩玩游戏。
这种搭配拿来跑LLM (Moe 走KT 框架,小型 Dense 走纯显存跑),以及跑Flux / SDXL / comfyui 的话,是否可行?
张量并行或者流水线并行能成功吗?
主卡:5070ti or 其他16G N卡;
副卡:多张2080ti 22G or 多张V100 16G 理论上可以的,你去开发了就行 七月_鸢尾 发表于 2025-3-22 09:56
理论上可以的,你去开发了就行
上面水友的帖子里面 是2080ti 主卡+V100组合,跑110B 是可以的;
但是不知道跨这么多代,行不行 [偷笑]我试过用ollama,可以4060ti+2060s
comfyui没理通,该爆还是爆
本地部署ai,又给diyer这个小众到不能再小众的群体来了一下伪需求,开心就好。开心就好。我理解不了这个是我的错 KimmyGLM 发表于 2025-3-22 09:57
上面水友的帖子里面 是2080ti 主卡+V100组合,跑110B 是可以的;
但是不知道跨这么多代,行不行 ...
行的,你编程的时候分好层,指定设备就行了 是可以的,hugging face上也有类似的,比如https://github.com/huggingface/accelerate
但这其实对于推理,尤其是你个人用的场景,毫无意义,你可以类比为多网卡的链路聚合,会增加整体吞吐,但无法增加单个推理会话的速度,甚至,单个还会更慢。SD的话,应该不支持的,多卡互联在训练阶段才有意义,需要大量并行计算加速,推理阶段其实这用不着,用得上的话,我们可能现在连3060ti都买不到了。。。。 xukai_286 发表于 2025-3-22 12:54
是可以的,hugging face上也有类似的,比如https://github.com/huggingface/accelerate
但这其实对于推理 ...
我不指望混用能加速,只是想扩大显存,以免上下文一长就GG。dense这种小型32B,打算直接拿副卡群跑,主卡就不参与了 应该没有人会闲的给个人需求适配接口,以前的游戏 hybrid 显卡混合渲染最后也不了了之。除非lz自行上github fork 一个分支自己来[偷笑] deng198679 发表于 2025-3-22 13:39
应该没有人会闲的给个人需求适配接口,以前的游戏 hybrid 显卡混合渲染最后也不了了之。除非lz自行上github ...
KTransformer 就这么诞生了,清华另外一个项目“赤兔”也很热门,可以让非FP8显卡也能跑FP8格式的模型。 KimmyGLM 发表于 2025-3-22 13:58
KTransformer 就这么诞生了,清华另外一个项目“赤兔”也很热门,可以让非FP8显卡也能跑FP8格式的模型。 ...
这两个和你说的方向完全两码事,我前面说的意思就是就好比你想要网速更快,你的想法是多分到几块网卡上去传输一样,这种对于拆分计算就有巨大的交互数据成本,所以我说即使有还会更慢,这种场景只适合有大量并发的请求 省时间考虑3090。用5070ti这种的,驱动版本会很新,cuda版本同理,需要自己编译 5070ti就行了,900G的显存带宽 + PCIE5.0x16,不需要买旧卡。目前可能有点适配上的小问题,能自己调代码最好,不能的话等一等框架适配。 69xt加78xt是可以的 我輩樹である 发表于 2025-3-23 11:31
5070ti就行了,900G的显存带宽 + PCIE5.0x16,不需要买旧卡。目前可能有点适配上的小问题,能自己调代码最 ...
Dense 32B模型,fp16大约要66G一张,只一张卡不够。 KimmyGLM 发表于 2025-3-23 16:11
Dense 32B模型,fp16大约要66G一张,只一张卡不够。
现在没有任何意义再跑dense模型了,除非是跑视觉模型。 真要跑要么PCIe5组卡,要么买魔改的3080 20G组卡,不建议2080TI和V100,不支持FP8和BF16也不支持FlashAttention a010301208 发表于 2025-3-23 16:26
真要跑要么PCIe5组卡,要么买魔改的3080 20G组卡,不建议2080TI和V100,不支持FP8和BF16也不支持FlashAtten ...
3080 20G 是搬板实现的,成本高价格也不下不来;哎,最近的AI热度太高,导致一批老卡都在涨价,包括2080ti 22G。
无奈啊,要不也不会去捡V100 的垃圾 有个开源项目,exo lab,就是干这个事的,异构显卡、甚至只是和cpu共同工作来推理。
很多跑起来的例子,国外什么十几台mac mini连接跑模型的,基本都是用这个技术。
我实际用下来,苹果和NV之间协同比较好,和A卡配合的不太好。 当然可以,llamacpp和koboldcpp这种可以直接在gui里设置分层,根据显存设置分层比例就行。 a010301208 发表于 2025-3-23 16:26
真要跑要么PCIe5组卡,要么买魔改的3080 20G组卡,不建议2080TI和V100,不支持FP8和BF16也不支持FlashAtten ...
2080ti FA可以。 V100 架构太老了,推理框架支持起来很麻烦。最低买2080ti 22G,买4块可以用sglang(Docker方式运行的推理框架)+awq(量化),可以跑Mistral Large 123B了。跑72B和32B也是小菜一碟。这样跑123B,每秒可以输出17-19t;跑72B,每秒可以输出26-27t,跑32B就更快了。
页:
[1]