找回密码
 加入我们
搜索
      
查看: 871|回复: 18

[显卡] 现在本地部署LLM的话是不是性价比最高的是多卡5060Ti 16GB?

[复制链接]
发表于 2025-11-14 17:52 | 显示全部楼层 |阅读模式
考虑到5090D的极高售价,Dv2版显存还缩水了
除了AutoDL这种网站租卡之外,
16GB的5060Ti大概3000一块,是不是叠加2块或者4块,只要机箱和PCIE通道支持,就算是最性价比的玩法了?
有没有大佬给些建议?
发表于 2025-11-14 17:59 | 显示全部楼层
看你要什么速度, 多卡推理走内存很慢
发表于 2025-11-14 18:34 | 显示全部楼层
不推荐本地LLM,直接codex搞API,一个月20,量大上pro,根本用不完
发表于 2025-11-14 18:45 来自手机 | 显示全部楼层
铭瑄的intel b60 dual 48g,双槽涡轮卡,当然零售渠道目前没开卖,都被拿去做8卡整机了,5060ti主要是太占插槽了,一旦拿去改装,算上改装成本,立刻高于b60
发表于 2025-11-14 18:50 | 显示全部楼层
448 GB/S

这个带宽,双卡跑30B-FP8 模型吧

再大的模型速度就很慢,慢得没意义了

但双卡的拥有成本。。。。嗯,不推荐
发表于 2025-11-14 19:01 | 显示全部楼层
性价比高的现在还是4090 48G型号吧,其次可能是5090毕竟有FP4加持显存也是32G。
 楼主| 发表于 2025-11-14 19:11 | 显示全部楼层
StevenG 发表于 2025-11-14 18:45
铭瑄的intel b60 dual 48g,双槽涡轮卡,当然零售渠道目前没开卖,都被拿去做8卡整机了,5060ti主要是太占 ...

intel会有兼容性问题吗?感觉ROCM坑都不少,感觉intel生态更差
发表于 2025-11-14 19:26 | 显示全部楼层
本帖最后由 powerduke 于 2025-11-14 19:38 编辑

QwQ 32b Q_6_k,5060ti双卡输出 9.39 tps,30b a3b那就快了,输出大概60几tps,单发速度,个人用应该性价比比较高,6k可以两张卡搞到32g显存,装更多上下文,cuda生态不操心。

两卡还是三卡四卡,还是看用途吧,主要是长上下文有多大需求,会不会超显存,简单的测试方法是lmstudio里cpu加载模型,设定你要的上下文,看看右上角的预估资源占用,省着自己算了。

SNAG-0002.png
发表于 2025-11-14 19:28 来自手机 | 显示全部楼层
性价比最高不是v100吗。。买越多越便宜
发表于 2025-11-14 19:29 | 显示全部楼层
不能只考虑显卡成本,主板,电源都要考虑。
所以,马上要出的rtx pro 5000 72G性价比很高
发表于 2025-11-14 19:32 | 显示全部楼层
weindy 发表于 2025-11-14 19:28
性价比最高不是v100吗。。买越多越便宜

这个过时了,新的moe架构、数据格式都不支持了,都是锻炼过的,还是最新的50系有未来。
发表于 2025-11-14 19:33 来自手机 | 显示全部楼层
powerduke 发表于 2025-11-14 19:32
这个过时了,新的moe架构、数据格式都不支持了,都是锻炼过的,还是最新的50系有未来。 ...

这倒是,不过楼主说了只考虑性价比,干脆白嫖算了
发表于 2025-11-14 19:44 来自手机 | 显示全部楼层
1014982466 发表于 2025-11-14 19:11
intel会有兼容性问题吗?感觉ROCM坑都不少,感觉intel生态更差

看情况,你要是跑固定的模型,并且只是用来调用,那事先花点时间评估一下兼容性就可以。但你要是想微调,或者学习研究,那还是英伟达更适合。
发表于 2025-11-14 19:48 来自手机 | 显示全部楼层
weindy 发表于 2025-11-14 19:28
性价比最高不是v100吗。。买越多越便宜

v100但凡跟得上迭代,都不是现在这个价啦~
发表于 2025-11-14 19:52 | 显示全部楼层
im50 32g 3080 20g 2080ti 22g
 楼主| 发表于 2025-11-14 19:59 | 显示全部楼层
do0wmt1 发表于 2025-11-14 19:29
不能只考虑显卡成本,主板,电源都要考虑。
所以,马上要出的rtx pro 5000 72G性价比很高 ...

和显卡价格比起来,主板电源价格就是洒洒水感觉
 楼主| 发表于 2025-11-14 20:00 | 显示全部楼层
powerduke 发表于 2025-11-14 19:26
QwQ 32b Q_6_k,5060ti双卡输出 9.39 tps,30b a3b那就快了,输出大概60几tps,单发速度,个人用应该性价比 ...

请问大佬现在LLM能不能让两个显卡分担模型显存占用,比如一个卡存一半?
发表于 2025-11-14 20:37 | 显示全部楼层
本帖最后由 CraftDeadMRC 于 2025-11-14 20:38 编辑
1014982466 发表于 2025-11-14 20:00
请问大佬现在LLM能不能让两个显卡分担模型显存占用,比如一个卡存一半? ...


任意支持张量并行或流水线并行的推理框架都行(又或者llama.cp/ik_llama.cpp更详细分层也行),不急求新功能和新模型可以考虑双卡v100用lmdeploy,我自测Qwen3-30B-A3B-awq(是的,lmdeploy居然让它能用上awq量化的模型)是单请求90,比双卡a3000laptop低,但是并发数上来或者上下文拉大的话很强,带上nvlink的话预处理有很大提升否则反倒可能是减益。测试结果:64并发,输出2816,预处理12534,128k上下文情况,无nvlink输出6.3,预处理1789.3,有nvlink输出7.39,预处理2115.34
发表于 2025-11-15 00:41 | 显示全部楼层
本帖最后由 powerduke 于 2025-11-15 00:58 编辑
1014982466 发表于 2025-11-14 20:00
请问大佬现在LLM能不能让两个显卡分担模型显存占用,比如一个卡存一半? ...


地中多卡不就是为了凑大显存把模型和cache都装进去提高速度跑跑ai,模型拆分放到多个卡里是基本能力。

之前用3张intel的A770卡跑,发现了个算是个故意为之的限制bug,vulkan中的显存分配compute buffer size大于4G会出问题,带来的问题就是20G左右的模型,设置更长上下文例如70k以上时,推理一定会出错,爬网后的解释是,intel为了老游戏的兼容性,驱动在这个地方的内存分配指针是32位的,这个就无解了,不是vulkan api的问题。B系列的计算卡不清楚是否还有这个限制,但要省心,还是n卡吧,完全没有这个问题。

下图可以直观的看到llm几部分占用显存的多少,这个是26GB大小的模型,20k上下文,闪电注意力,在三张卡里的显存占用。

SNAG-0007.png
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-11-15 08:51 , Processed in 0.010811 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表