找回密码
 加入我们
搜索
      
查看: 1811|回复: 21

[显卡] 不同代显卡混用,来跑LLM 是否可行?

[复制链接]
发表于 2025-3-22 09:54 | 显示全部楼层 |阅读模式
本帖最后由 KimmyGLM 于 2025-3-22 10:05 编辑

实在买不起高大上的4090 , RTX 专业卡更是遥不可及,只能在市场经济示范区捡垃圾玩玩。

Ktransformers 已经跑通,但是受限于临时的4060ti 16g卡垃圾带宽,速度只有10.5token。而且显存占用在14G,稍微复杂长文推理就歇菜了。

参考了https://www.chiphell.com/thread-2623722-3-1.html  的帖子,打算捡个2080ti 或者V100 16G组个扩充方案;

主卡因为要Flash_Attn 的Marlin 显存压缩/加速 因子,所以只能在30系往后选。

可能会买个5070ti,也能兼顾着玩玩游戏。

这种搭配拿来跑LLM (Moe 走KT 框架,小型 Dense 走纯显存跑),以及跑Flux / SDXL / comfyui 的话,是否可行?

张量并行或者流水线并行能成功吗?



主卡:5070ti or 其他16G N卡;

副卡:多张2080ti 22G or 多张V100 16G
发表于 2025-3-22 09:56 | 显示全部楼层
理论上可以的,你去开发了就行
 楼主| 发表于 2025-3-22 09:57 | 显示全部楼层
七月_鸢尾 发表于 2025-3-22 09:56
理论上可以的,你去开发了就行

上面水友的帖子里面 是2080ti 主卡+V100组合,跑110B 是可以的;

但是不知道跨这么多代,行不行
发表于 2025-3-22 10:07 | 显示全部楼层
我试过用ollama,可以4060ti+2060s

comfyui没理通,该爆还是爆

发表于 2025-3-22 10:13 | 显示全部楼层
本地部署ai,又给diyer这个小众到不能再小众的群体来了一下伪需求,开心就好。开心就好。我理解不了这个是我的错
发表于 2025-3-22 10:18 | 显示全部楼层
KimmyGLM 发表于 2025-3-22 09:57
上面水友的帖子里面 是2080ti 主卡+V100组合,跑110B 是可以的;

但是不知道跨这么多代,行不行 ...

行的,你编程的时候分好层,指定设备就行了
发表于 2025-3-22 12:54 | 显示全部楼层
是可以的,hugging face上也有类似的,比如https://github.com/huggingface/accelerate
但这其实对于推理,尤其是你个人用的场景,毫无意义,你可以类比为多网卡的链路聚合,会增加整体吞吐,但无法增加单个推理会话的速度,甚至,单个还会更慢。SD的话,应该不支持的,多卡互联在训练阶段才有意义,需要大量并行计算加速,推理阶段其实这用不着,用得上的话,我们可能现在连3060ti都买不到了。。。。
 楼主| 发表于 2025-3-22 13:27 来自手机 | 显示全部楼层
xukai_286 发表于 2025-3-22 12:54
是可以的,hugging face上也有类似的,比如https://github.com/huggingface/accelerate
但这其实对于推理 ...

我不指望混用能加速,只是想扩大显存,以免上下文一长就GG。dense这种小型32B,打算直接拿副卡群跑,主卡就不参与了
发表于 2025-3-22 13:39 | 显示全部楼层
应该没有人会闲的给个人需求适配接口,以前的游戏 hybrid 显卡混合渲染最后也不了了之。除非lz自行上github fork 一个分支自己来
 楼主| 发表于 2025-3-22 13:58 | 显示全部楼层
deng198679 发表于 2025-3-22 13:39
应该没有人会闲的给个人需求适配接口,以前的游戏 hybrid 显卡混合渲染最后也不了了之。除非lz自行上github ...

KTransformer 就这么诞生了,清华另外一个项目“赤兔”也很热门,可以让非FP8显卡也能跑FP8格式的模型。
发表于 2025-3-22 15:21 | 显示全部楼层
KimmyGLM 发表于 2025-3-22 13:58
KTransformer 就这么诞生了,清华另外一个项目“赤兔”也很热门,可以让非FP8显卡也能跑FP8格式的模型。 ...

这两个和你说的方向完全两码事,我前面说的意思就是就好比你想要网速更快,你的想法是多分到几块网卡上去传输一样,这种对于拆分计算就有巨大的交互数据成本,所以我说即使有还会更慢,这种场景只适合有大量并发的请求
发表于 2025-3-23 10:44 | 显示全部楼层
省时间考虑3090。用5070ti这种的,驱动版本会很新,cuda版本同理,需要自己编译
发表于 2025-3-23 11:31 | 显示全部楼层
5070ti就行了,900G的显存带宽 + PCIE5.0x16,不需要买旧卡。目前可能有点适配上的小问题,能自己调代码最好,不能的话等一等框架适配。
发表于 2025-3-23 11:34 来自手机 | 显示全部楼层
69xt加78xt是可以的
 楼主| 发表于 2025-3-23 16:11 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-3-23 11:31
5070ti就行了,900G的显存带宽 + PCIE5.0x16,不需要买旧卡。目前可能有点适配上的小问题,能自己调代码最 ...

Dense 32B模型,fp16大约要66G一张,只一张卡不够。
发表于 2025-3-23 16:14 | 显示全部楼层
KimmyGLM 发表于 2025-3-23 16:11
Dense 32B模型,fp16大约要66G一张,只一张卡不够。

现在没有任何意义再跑dense模型了,除非是跑视觉模型。
发表于 2025-3-23 16:26 | 显示全部楼层
真要跑要么PCIe5组卡,要么买魔改的3080 20G组卡,不建议2080TI和V100,不支持FP8和BF16也不支持FlashAttention
 楼主| 发表于 2025-3-23 17:40 | 显示全部楼层
a010301208 发表于 2025-3-23 16:26
真要跑要么PCIe5组卡,要么买魔改的3080 20G组卡,不建议2080TI和V100,不支持FP8和BF16也不支持FlashAtten ...

3080 20G 是搬板实现的,成本高价格也不下不来;哎,最近的AI热度太高,导致一批老卡都在涨价,包括2080ti 22G。
无奈啊,要不也不会去捡V100 的垃圾
发表于 2025-3-23 19:10 | 显示全部楼层
有个开源项目,exo lab,就是干这个事的,异构显卡、甚至只是和cpu共同工作来推理。

很多跑起来的例子,国外什么十几台mac mini连接跑模型的,基本都是用这个技术。
我实际用下来,苹果和NV之间协同比较好,和A卡配合的不太好。
发表于 2025-3-23 19:15 | 显示全部楼层
当然可以,llamacpp和koboldcpp这种可以直接在gui里设置分层,根据显存设置分层比例就行。
发表于 2025-3-23 20:54 | 显示全部楼层
a010301208 发表于 2025-3-23 16:26
真要跑要么PCIe5组卡,要么买魔改的3080 20G组卡,不建议2080TI和V100,不支持FP8和BF16也不支持FlashAtten ...

2080ti FA可以。
发表于 2025-3-23 21:44 | 显示全部楼层
V100 架构太老了,推理框架支持起来很麻烦。最低买2080ti 22G,买4块可以用sglang(Docker方式运行的推理框架)+awq(量化),可以跑Mistral Large 123B了。跑72B和32B也是小菜一碟。这样跑123B,每秒可以输出17-19t;跑72B,每秒可以输出26-27t,跑32B就更快了。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 15:32 , Processed in 0.011907 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表