不同代显卡混用，来跑LLM 是否可行？

KimmyGLM · 发表于 2025-3-22 09:54

本帖最后由 KimmyGLM 于 2025-3-22 10:05 编辑

实在买不起高大上的4090 , RTX 专业卡更是遥不可及，只能在市场经济示范区捡垃圾玩玩。

Ktransformers 已经跑通，但是受限于临时的4060ti 16g卡垃圾带宽，速度只有10.5token。而且显存占用在14G，稍微复杂长文推理就歇菜了。

参考了https://www.chiphell.com/thread-2623722-3-1.html 的帖子，打算捡个2080ti 或者V100 16G组个扩充方案；

主卡因为要Flash_Attn 的Marlin 显存压缩/加速因子，所以只能在30系往后选。

可能会买个5070ti，也能兼顾着玩玩游戏。

这种搭配拿来跑LLM （Moe 走KT 框架，小型 Dense 走纯显存跑），以及跑Flux / SDXL / comfyui 的话，是否可行？

张量并行或者流水线并行能成功吗？

主卡：5070ti or 其他16G N卡；

副卡：多张2080ti 22G or 多张V100 16G

七月_鸢尾 · 发表于 2025-3-22 09:56

理论上可以的，你去开发了就行

KimmyGLM · 发表于 2025-3-22 09:57

七月_鸢尾发表于 2025-3-22 09:56
理论上可以的，你去开发了就行

上面水友的帖子里面是2080ti 主卡+V100组合，跑110B 是可以的；

但是不知道跨这么多代，行不行

mdeu · 发表于 2025-3-22 10:07

我试过用ollama，可以4060ti+2060s

comfyui没理通，该爆还是爆

beasy · 发表于 2025-3-22 10:13

本地部署ai，又给diyer这个小众到不能再小众的群体来了一下伪需求，开心就好。开心就好。我理解不了这个是我的错

七月_鸢尾 · 发表于 2025-3-22 10:18

KimmyGLM 发表于 2025-3-22 09:57
上面水友的帖子里面是2080ti 主卡+V100组合，跑110B 是可以的；

但是不知道跨这么多代，行不行 ...

行的，你编程的时候分好层，指定设备就行了

xukai_286 · 发表于 2025-3-22 12:54

是可以的，hugging face上也有类似的，比如https://github.com/huggingface/accelerate
但这其实对于推理，尤其是你个人用的场景，毫无意义，你可以类比为多网卡的链路聚合，会增加整体吞吐，但无法增加单个推理会话的速度，甚至，单个还会更慢。SD的话，应该不支持的，多卡互联在训练阶段才有意义，需要大量并行计算加速，推理阶段其实这用不着，用得上的话，我们可能现在连3060ti都买不到了。。。。

KimmyGLM · 发表于 2025-3-22 13:27

xukai_286 发表于 2025-3-22 12:54
是可以的，hugging face上也有类似的，比如https://github.com/huggingface/accelerate
但这其实对于推理 ...

我不指望混用能加速，只是想扩大显存，以免上下文一长就GG。dense这种小型32B，打算直接拿副卡群跑，主卡就不参与了

deng198679 · 发表于 2025-3-22 13:39

应该没有人会闲的给个人需求适配接口，以前的游戏 hybrid 显卡混合渲染最后也不了了之。除非lz自行上github fork 一个分支自己来

KimmyGLM · 发表于 2025-3-22 13:58

deng198679 发表于 2025-3-22 13:39
应该没有人会闲的给个人需求适配接口，以前的游戏 hybrid 显卡混合渲染最后也不了了之。除非lz自行上github ...

KTransformer 就这么诞生了，清华另外一个项目“赤兔”也很热门，可以让非FP8显卡也能跑FP8格式的模型。

xukai_286 · 发表于 2025-3-22 15:21

KimmyGLM 发表于 2025-3-22 13:58
KTransformer 就这么诞生了，清华另外一个项目“赤兔”也很热门，可以让非FP8显卡也能跑FP8格式的模型。 ...

这两个和你说的方向完全两码事，我前面说的意思就是就好比你想要网速更快，你的想法是多分到几块网卡上去传输一样，这种对于拆分计算就有巨大的交互数据成本，所以我说即使有还会更慢，这种场景只适合有大量并发的请求

LNT · 发表于 2025-3-23 10:44

省时间考虑3090。用5070ti这种的，驱动版本会很新，cuda版本同理，需要自己编译

我輩樹である · 发表于 2025-3-23 11:31

5070ti就行了，900G的显存带宽 + PCIE5.0x16，不需要买旧卡。目前可能有点适配上的小问题，能自己调代码最好，不能的话等一等框架适配。

LambdaDelta · 发表于 2025-3-23 11:34

69xt加78xt是可以的

KimmyGLM · 发表于 2025-3-23 16:11

我輩樹である发表于 2025-3-23 11:31
5070ti就行了，900G的显存带宽 + PCIE5.0x16，不需要买旧卡。目前可能有点适配上的小问题，能自己调代码最 ...

Dense 32B模型，fp16大约要66G一张，只一张卡不够。

我輩樹である · 发表于 2025-3-23 16:14

KimmyGLM 发表于 2025-3-23 16:11
Dense 32B模型，fp16大约要66G一张，只一张卡不够。

现在没有任何意义再跑dense模型了，除非是跑视觉模型。

a010301208 · 发表于 2025-3-23 16:26

真要跑要么PCIe5组卡，要么买魔改的3080 20G组卡，不建议2080TI和V100，不支持FP8和BF16也不支持FlashAttention

KimmyGLM · 发表于 2025-3-23 17:40

a010301208 发表于 2025-3-23 16:26
真要跑要么PCIe5组卡，要么买魔改的3080 20G组卡，不建议2080TI和V100，不支持FP8和BF16也不支持FlashAtten ...

3080 20G 是搬板实现的，成本高价格也不下不来；哎，最近的AI热度太高，导致一批老卡都在涨价，包括2080ti 22G。
无奈啊，要不也不会去捡V100 的垃圾

bacu · 发表于 2025-3-23 19:10

有个开源项目，exo lab，就是干这个事的，异构显卡、甚至只是和cpu共同工作来推理。

很多跑起来的例子，国外什么十几台mac mini连接跑模型的，基本都是用这个技术。
我实际用下来，苹果和NV之间协同比较好，和A卡配合的不太好。

自挂东南枝 · 发表于 2025-3-23 19:15

当然可以，llamacpp和koboldcpp这种可以直接在gui里设置分层，根据显存设置分层比例就行。

q3again0605 · 发表于 2025-3-23 20:54

a010301208 发表于 2025-3-23 16:26
真要跑要么PCIe5组卡，要么买魔改的3080 20G组卡，不建议2080TI和V100，不支持FP8和BF16也不支持FlashAtten ...

2080ti FA可以。

p4s2wd · 发表于 2025-3-23 21:44

V100 架构太老了，推理框架支持起来很麻烦。最低买2080ti 22G，买4块可以用sglang（Docker方式运行的推理框架）＋awq（量化)，可以跑Mistral Large 123B了。跑72B和32B也是小菜一碟。这样跑123B，每秒可以输出17-19t；跑72B，每秒可以输出26-27t，跑32B就更快了。

账号		自动登录	找回密码
密码			加入我们

[显卡] 不同代显卡混用，来跑LLM 是否可行？

浏览过的版块