目前的情况，如果想本地部署一个和网络api水平近似的大模型满血版，成本大概多少？

YsHaNg · 发表于 2025-9-11 00:24

CraftDeadMRC 发表于 2025-9-10 16:05
四卡sxm2整两套，都用pg199，共256G显存，能跑int4的qwen3-235b-a22b（b站有人跑过Q8，超出一点点，int8体 ...

不知道lmdeploy怎么处理但是ollama上graph是在每一个加速卡上复制的上下文越大卡越多vram需求量几何级数的增加

YsHaNg · 发表于 2025-9-11 00:36

五年一装机发表于 2025-9-10 16:23
谢谢提醒关键角度，我这里确实会对上下文长度有需求，看起来……可能省不到哪去了 ...

新一点的模型比如使用mxfp4动态权重格式的**-oss 虽然权重参数kv占用vram小但是graph vram用量几乎是10倍的关系

enolc · 发表于 2025-9-11 00:42

YsHaNg 发表于 2025-9-10 23:59
咱在这提inference你拿个非思考回答没太大意思 unsloth的框架再蒸馏预训练的70b模型不成问题 vram并不是 ...

我的意思是具体配置要根据LZ的具体用途而定，自己曾经试过unsloth框架下的基于医疗deepseek模型微调，我还在不断学习中，看到你的建议也是受益匪浅。

我摸索的方向是医学，正在学习利用现有主流模型（LLama3，mistral等）输入各类医学影像图片，病理切片诊断报告，病患组织细胞样本的单细胞基因组分析，快速筛查和选出目前最佳的诊断和治疗方案，因为有保护隐私和数据安全的需求，如果可行，本地部署为最佳选择。目前是测试阶段，样本量和具体参数指标的规模还在起步阶段，试过一些所谓的本地部署配置，结果都不太让人满意（速度和准确度都未达标，基本无法实际使用）

CraftDeadMRC · 发表于 2025-9-11 01:18

YsHaNg 发表于 2025-9-11 00:24
不知道lmdeploy怎么处理但是ollama上graph是在每一个加速卡上复制的上下文越大卡越多vram需求量几何级数 ...

我提这个主要是其他推理框架都不能让v100用int4量化，这个可以。不过我自己测试确实lmdeploy支持的上下文比vllm部署的情况多10k（24G显存运行qwen3-30b-a3b-int4-awq的情况）

LNT · 发表于 2025-9-11 06:27

纯推理，双路9135(6000)+MZ73(7000)+48G*24(1150*24)+4090, 无忧化跑Deepseek-r1-0528原版fp8，速度是15tps，kimi-k2-instruct的fp8也是15tps。只跑deepseek内存容量还可以砍一砍，4090也可以砍成3090，影响不是很大

edgeskypay · 发表于 2025-9-11 08:21

考虑mac么？
Apple M3 Ultra 芯片 (32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)
512G内存，819GB/s 内存带宽。
1TB磁盘。
售价：RMB 74,249
额外的磁盘用雷电四外扩展，正价的15.36T的U.2也就15000块钱一张。扩展卡千把块钱忽略了可以。你可以去搜一下Mac Studio的方案。单机的话跑的话才几百瓦的功耗

KimmyGLM · 发表于 2025-9-11 08:42

PPXG 发表于 2025-9-10 23:15
你不在乎速度的话，洋垃圾服务器平台插满TB级别内存用CPU硬算也可以算部署成功的 ...

我玩过纯内存的xeon 5代，768G 跑KT的......
缺点有两个：不能关机，否则重新加载模型到内存，非常非常耗时；

再就是跨numa延迟的问题，总体不如纯GPU方案，EPYC 还得挑CCD 满血版本，否则内存带宽不够；

shadow404 · 发表于 2025-9-11 08:47

个人折腾，本地运行，这价格，够用多少年得 API

StevenG · 发表于 2025-9-11 09:47

个人用不考虑并发，那你就看看多少token和哪个规模的模型能接受，大多数人的阅读速度在10-20t/s
如果满血模型，基本上只能考虑kt框架跑moe模型，你搞个3090以上，epyc9004或至强5以上，800g ddr5以上内存，全套下来用不了10w
如果小规模量化版模型，就具体看你打算用哪个具体花多少钱了，没什么标准答案，常用的家用显卡如下
单卡 rtx6000 pro
单卡 4090 48
单卡 5090/5090d
单卡 7900xtx/2080ti 22
这些都能搞到非涡轮版本，适合家用

StevenG · 发表于 2025-9-11 09:53

上面的单卡，根据你的需求可以同型号扩展多卡，家用机箱一般最多4卡，再多就得买专门的机箱了

elktsp · 发表于 2025-9-11 09:58

瞎问一句，AMD的AI MAX 395+ 陪128G的mini机能达到什么效果？1.5万的样子

fhqddd7086 · 发表于 2025-9-11 10:06

API用个几年，然后你会发现，硬件价格就便宜了，模型性能提高了。到时候再手搓一台设备。

kingofgu · 发表于 2025-9-11 10:08

单张rtx pro 6000 Blackwell 配工作站主板内存 10W 可以跑openai 的 oss-120B 现在看也够用了

0xff2012 · 发表于 2025-9-11 10:20

部署一个7B的小模型就可以，如果再不行就1.5B

xbl919849900 · 发表于 2025-9-11 10:41

我用mac studio 128g内存的能跑到70b满血的

kesayi · 发表于 2025-9-11 10:48

冷静考虑好成本很高

PolyMorph · 发表于 2025-9-11 10:52

本帖最后由 PolyMorph 于 2025-9-11 10:58 编辑

对长上下文有要求，只有rtx Pro 6000，支持int4，fp4，未来主流是fp4，老架构都不支持fp4

Mathr · 发表于 2025-9-11 10:55

京东上有满血版DS的硬件配置。一套150W的样子。

wangzorro · 发表于 2025-9-11 11:37

你个人就买api，团队再考虑自搭

五年一装机 · 发表于 2025-9-11 12:42

StevenG 发表于 2025-9-11 09:47
个人用不考虑并发，那你就看看多少token和哪个规模的模型能接受，大多数人的阅读速度在10-20t/s
如果满血模 ...

嗯我现在有个5090，假如我打算用5090的方案，您觉的我再加多少张性价比最高？就是想尽量逼近api，如果考虑长上下文的需求，是不是32G还是不太够？

StevenG · 发表于 2025-9-11 13:11

五年一装机发表于 2025-9-11 12:42
嗯我现在有个5090，假如我打算用5090的方案，您觉的我再加多少张性价比最高？就是想尽量逼近api，如果考 ...

32g显存也就跑跑30b规模的，看你具体做什么，要是对ai的智商要求高，肯定不够，要是就让他帮你整机文本，足够用了。

满血版，可以走kt架构，你可以b站搜ktransformer，缺点的话，前面有人提了。看你预算，epyc9004还是Xeon5/6，区别在于intel的prefill能加速，简单点说就是第一个字吐出来前的准备时间比较短，但是至强cpu比较贵，多个2-3w，看你具体型号，内存方面，4800很便宜，5600还行，6400暂时比较贵，要是壕无人性，可以至强6+mrdimm内存，能8800频率 12通道，内存就不存在理论瓶颈了，虽然还是没显存快，但是配合5090，15+token/s还是能达成的

ahui · 发表于 2025-9-11 13:12

我是192G+5090 32G，跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右
qwen3-30这些30G以内的模型都是100+t/s

都是q4-km或以上，速度和模型文件大小有关系

StevenG · 发表于 2025-9-11 13:13

上面的方案，应该是在更小规模更聪明的模型出来前，最具性价比的方案了，前提是你对速度的需求，不那么高，就像我说的15t这个速度，也就刚刚处于阅读速度。。

StevenG · 发表于 2025-9-11 13:15

ahui 发表于 2025-9-11 13:12
我是192G+5090 32G，跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右

30g以内的，都是用的显存，超过的，都用内存了，速度上不去正常。。

StevenG · 发表于 2025-9-11 13:18

建议楼主先评估一下多大规模的模型能满足你需求，满血版只是听着霸气，为了最后那%5的效果，得多投入几倍的资金，到底值不值~~

8owd8wan · 发表于 2025-9-11 13:22

并发不超过4，速度打平元宝之类的，30万足够

ahui · 发表于 2025-9-11 13:23

StevenG 发表于 2025-9-11 13:15
30g以内的，都是用的显存，超过的，都用内存了，速度上不去正常。。

是的，楼主要达到较好的效果，得有400G左右的显存才行，运行GLM-4.5就不错了，这个模型目前开源第一仅比2个闭源差

10W的配置速度估计就慢了

我輩樹である · 发表于 2025-9-11 13:29

开源模型比闭源差远了，闭源的每天都在sft，开源只是过一段时间给个checkpoint，静态的。

而且现在闭源们玩的都是什么，agent，deep research，开源通通没有。这个算力需求上更加悬殊，比单次推理要高出50倍。

StevenG · 发表于 2025-9-11 13:32

ahui 发表于 2025-9-11 13:23
是的，楼主要达到较好的效果，得有400G左右的显存才行，运行GLM-4.5就不错了，这个模型目前开源第一仅比2 ...

其实感觉楼主这种心血来潮的，api折腾几次，然后再找个30b规模的用用，对比对比，可能就没这么上头了。。最早我还掏出来过1t的内存+5090准备kt满血版，后来用了一段时间api，又对比了一下30b的效果，发现满血版根本用不上，现在的我，随便淘了个22g 2080ti给lm studio，7900xtx打游戏，5090的包装都没拆。。。（一想到3万的显卡拿来打游戏，心疼。。。）

StevenG · 发表于 2025-9-11 13:37

我輩樹である发表于 2025-9-11 13:29
开源模型比闭源差远了，闭源的每天都在sft，开源只是过一段时间给个checkpoint，静态的。

而且现在闭源们 ...

确实比不了。。不过这不妨碍楼主有个专属的ai助理的梦想~~有些事情，得经历过才能放下，不然心里一直会痒痒的

账号		自动登录	找回密码
密码			加入我们

[软件] 目前的情况，如果想本地部署一个和网络api水平近似的大模型满血版，成本大概多少？

浏览过的版块