找回密码
 加入我们
搜索
      
查看: 4110|回复: 21

[显卡] 不同代显卡混用,来跑LLM 是否可行?

[复制链接]
发表于 2025-3-23 21:44 | 显示全部楼层
V100 架构太老了,推理框架支持起来很麻烦。最低买2080ti 22G,买4块可以用sglang(Docker方式运行的推理框架)+awq(量化),可以跑Mistral Large 123B了。跑72B和32B也是小菜一碟。这样跑123B,每秒可以输出17-19t;跑72B,每秒可以输出26-27t,跑32B就更快了。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-16 03:01 , Processed in 0.008554 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表