[显卡] 不同代显卡混用，来跑LLM 是否可行？

发表于 2025-3-23 21:44 | 显示全部楼层

V100 架构太老了，推理框架支持起来很麻烦。最低买2080ti 22G，买4块可以用sglang（Docker方式运行的推理框架）＋awq（量化)，可以跑Mistral Large 123B了。跑72B和32B也是小菜一碟。这样跑123B，每秒可以输出17-19t；跑72B，每秒可以输出26-27t，跑32B就更快了。

返回列表发新帖

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )310112100042806

GMT+8, 2025-9-16 03:01 , Processed in 0.008554 second(s), 6 queries , Gzip On, Redis On.

账号		自动登录	找回密码
密码			加入我们

[显卡] 不同代显卡混用，来跑LLM 是否可行？

浏览过的版块