现在本地部署LLM的话是不是性价比最高的是多卡5060Ti 16GB?
考虑到5090D的极高售价,Dv2版显存还缩水了除了AutoDL这种网站租卡之外,
16GB的5060Ti大概3000一块,是不是叠加2块或者4块,只要机箱和PCIE通道支持,就算是最性价比的玩法了?
有没有大佬给些建议? 看你要什么速度, 多卡推理走内存很慢 不推荐本地LLM,直接codex搞API,一个月20,量大上pro,根本用不完 铭瑄的intel b60 dual 48g,双槽涡轮卡,当然零售渠道目前没开卖,都被拿去做8卡整机了,5060ti主要是太占插槽了,一旦拿去改装,算上改装成本,立刻高于b60 448 GB/S
这个带宽,双卡跑30B-FP8 模型吧
再大的模型速度就很慢,慢得没意义了
但双卡的拥有成本。。。。嗯,不推荐 性价比高的现在还是4090 48G型号吧,其次可能是5090毕竟有FP4加持显存也是32G。 StevenG 发表于 2025-11-14 18:45
铭瑄的intel b60 dual 48g,双槽涡轮卡,当然零售渠道目前没开卖,都被拿去做8卡整机了,5060ti主要是太占 ...
intel会有兼容性问题吗?感觉ROCM坑都不少,感觉intel生态更差 本帖最后由 powerduke 于 2025-11-14 19:38 编辑
QwQ 32b Q_6_k,5060ti双卡输出 9.39 tps,30b a3b那就快了,输出大概60几tps,单发速度,个人用应该性价比比较高,6k可以两张卡搞到32g显存,装更多上下文,cuda生态不操心。
两卡还是三卡四卡,还是看用途吧,主要是长上下文有多大需求,会不会超显存,简单的测试方法是lmstudio里cpu加载模型,设定你要的上下文,看看右上角的预估资源占用,省着自己算了。
性价比最高不是v100吗。。买越多越便宜[偷笑] 不能只考虑显卡成本,主板,电源都要考虑。
所以,马上要出的rtx pro 5000 72G性价比很高 weindy 发表于 2025-11-14 19:28
性价比最高不是v100吗。。买越多越便宜
这个过时了,新的moe架构、数据格式都不支持了,都是锻炼过的,还是最新的50系有未来。 powerduke 发表于 2025-11-14 19:32
这个过时了,新的moe架构、数据格式都不支持了,都是锻炼过的,还是最新的50系有未来。 ...
这倒是,不过楼主说了只考虑性价比,干脆白嫖算了 1014982466 发表于 2025-11-14 19:11
intel会有兼容性问题吗?感觉ROCM坑都不少,感觉intel生态更差
看情况,你要是跑固定的模型,并且只是用来调用,那事先花点时间评估一下兼容性就可以。但你要是想微调,或者学习研究,那还是英伟达更适合。 weindy 发表于 2025-11-14 19:28
性价比最高不是v100吗。。买越多越便宜
v100但凡跟得上迭代,都不是现在这个价啦~ im50 32g 3080 20g 2080ti 22g do0wmt1 发表于 2025-11-14 19:29
不能只考虑显卡成本,主板,电源都要考虑。
所以,马上要出的rtx pro 5000 72G性价比很高 ...
和显卡价格比起来,主板电源价格就是洒洒水感觉 powerduke 发表于 2025-11-14 19:26
QwQ 32b Q_6_k,5060ti双卡输出 9.39 tps,30b a3b那就快了,输出大概60几tps,单发速度,个人用应该性价比 ...
请问大佬现在LLM能不能让两个显卡分担模型显存占用,比如一个卡存一半? 本帖最后由 CraftDeadMRC 于 2025-11-14 20:38 编辑
1014982466 发表于 2025-11-14 20:00
请问大佬现在LLM能不能让两个显卡分担模型显存占用,比如一个卡存一半? ...
任意支持张量并行或流水线并行的推理框架都行(又或者llama.cp/ik_llama.cpp更详细分层也行),不急求新功能和新模型可以考虑双卡v100用lmdeploy,我自测Qwen3-30B-A3B-awq(是的,lmdeploy居然让它能用上awq量化的模型)是单请求90,比双卡a3000laptop低,但是并发数上来或者上下文拉大的话很强,带上nvlink的话预处理有很大提升否则反倒可能是减益。测试结果:64并发,输出2816,预处理12534,128k上下文情况,无nvlink输出6.3,预处理1789.3,有nvlink输出7.39,预处理2115.34 本帖最后由 powerduke 于 2025-11-15 00:58 编辑
1014982466 发表于 2025-11-14 20:00
请问大佬现在LLM能不能让两个显卡分担模型显存占用,比如一个卡存一半? ...
地中多卡不就是为了凑大显存把模型和cache都装进去提高速度跑跑ai,模型拆分放到多个卡里是基本能力。
之前用3张intel的A770卡跑,发现了个算是个故意为之的限制bug,vulkan中的显存分配compute buffer size大于4G会出问题,带来的问题就是20G左右的模型,设置更长上下文例如70k以上时,推理一定会出错,爬网后的解释是,intel为了老游戏的兼容性,驱动在这个地方的内存分配指针是32位的,这个就无解了,不是vulkan api的问题。B系列的计算卡不清楚是否还有这个限制,但要省心,还是n卡吧,完全没有这个问题。
下图可以直观的看到llm几部分占用显存的多少,这个是26GB大小的模型,20k上下文,闪电注意力,在三张卡里的显存占用。
页:
[1]