找回密码
 加入我们
搜索
      
查看: 2175|回复: 84

[软件] 目前的情况,如果想本地部署一个和网络api水平近似的大模型满血版,成本大概多少?

[复制链接]
发表于 2025-9-10 22:47 | 显示全部楼层 |阅读模式
本帖最后由 五年一装机 于 2025-9-11 22:31 编辑

这几天玩DS玩的心潮澎湃,这东西是真战未来,有没有AI部署大佬大概讲讲,我想把部署一台这种东西当成人生目标来搞
十万打的住么?(四张4090 48g?)二十万行么?(四张50系专业卡?)难道得百万?(只有H100那种计算卡才有可能?)
妈个鸡我是真想整一台,发自内心想整一台

PS:
给大佬们说一下,我的应用场景是coding和编剧助理(RA),要求聪明一点和上下文尽量长一些,生成速度要求没那么高,对质量有要求
手里目前有一台5090,可以利用好这个5090做点什么么,加几张5090够不够用?
发表于 2025-9-10 22:57 | 显示全部楼层
帮你问了一下DS,它这么说的:

轻量级推理/实验        1-2 张 NVIDIA A100 (80GB) 或 2-4 张 RTX 4090        $11,000 - $20,000 (约人民币 8-15万)        适用于参数较小的模型(如70亿参数)、原型验证或低并发场景。
标准级部署        4-8 张 NVIDIA A100 (80GB)        $45,000 - $90,000 (约人民币 32-65万)        适用于中等规模模型(如数百亿参数),能处理一定的并发请求,平衡性能与成本。
高性能/千亿参数        16+ 张 NVIDIA A100/H100 (80GB)        $170,000+ (约人民币 120万元以上)        适用于千亿参数的全量模型、高并发或低延迟要求的商业场景,需组建计算集群。
发表于 2025-9-10 23:02 | 显示全部楼层
当初我也有这样的想法,建议LZ先冷静几天再说
发表于 2025-9-10 23:03 | 显示全部楼层
H100 80GB x10 = USD 300000
或者
A100 80GB x10 = USD 200000


发表于 2025-9-10 23:06 | 显示全部楼层
如果非要装,不如先搞两块NVIDIA RTX PRO 6000 Blackwell 并联(显存规模96x2,流畅7B模型基本没问题),2块GPU总功耗大约1200W,加上其他主板等部件,整机总功率可以控制在1600-2000w左右,组装一台家用AI工作站还是可行的,目测总费用大约20-30万左右(具体取决于各部件的品牌和定位)
发表于 2025-9-10 23:13 | 显示全部楼层
其实用不到多少,几个w就基本可以了,用ftllm cpu+gpu混合推理的方案,epyc9005配12*48gddr5 6400内存,显卡上个3090就够用了,跑deepseekr1至少有10t
发表于 2025-9-10 23:14 | 显示全部楼层
wliked 发表于 2025-9-10 23:13
其实用不到多少,几个w就基本可以了,用ftllm cpu+gpu混合推理的方案,epyc9005配12*48gddr5 6400内存,显 ...

如果跑不量化的fp8模型就得换单条64g的内存,不过即便是amx量化的也足够用了
发表于 2025-9-10 23:15 来自手机 | 显示全部楼层
你不在乎速度的话,洋垃圾服务器平台插满TB级别内存用CPU硬算也可以算部署成功的
 楼主| 发表于 2025-9-10 23:15 | 显示全部楼层
enolc 发表于 2025-9-10 23:06
如果非要装,不如先搞两块NVIDIA RTX PRO 6000 Blackwell 并联(显存规模96x2,流畅7B模型基本没问题),2 ...

谢谢,那就是50系专业卡x2,这个方案感觉靠的住,挤一挤能挤出来,就是我在琢磨接近api水平这样就够了,还是得像楼上那个方案用10张专业卡……
发表于 2025-9-10 23:15 | 显示全部楼层
wliked 发表于 2025-9-10 23:14
如果跑不量化的fp8模型就得换单条64g的内存,不过即便是amx量化的也足够用了 ...

或者部署qwen3 235b 2507那个预算更低,最低1.5w就完全可以用了
 楼主| 发表于 2025-9-10 23:17 | 显示全部楼层
PPXG 发表于 2025-9-10 23:15
你不在乎速度的话,洋垃圾服务器平台插满TB级别内存用CPU硬算也可以算部署成功的 ...

就是在乎速度嘛,要是比网络api慢好多质量低好多那这个部署就不太有意思,还不如给api充钱
发表于 2025-9-10 23:18 | 显示全部楼层
五年一装机 发表于 2025-9-10 23:15
谢谢,那就是50系专业卡x2,这个方案感觉靠的住,挤一挤能挤出来,就是我在琢磨接近api水平这样就够了, ...

10张+卡设置的电源,主板和其他部件配置陈本和安装复杂度基本呈指数级增加.......除非你要商用,家用的话除非王校长这样的家底
 楼主| 发表于 2025-9-10 23:19 | 显示全部楼层
wliked 发表于 2025-9-10 23:13
其实用不到多少,几个w就基本可以了,用ftllm cpu+gpu混合推理的方案,epyc9005配12*48gddr5 6400内存,显 ...

诶这个方案成本好低啊,但是兄弟我是很想要接近满血版的体验,如果最终质量只能凑合那不如用这几万充api的,这方案有说法么?10t够不够用?
 楼主| 发表于 2025-9-10 23:22 | 显示全部楼层
本帖最后由 五年一装机 于 2025-9-10 23:24 编辑
enolc 发表于 2025-9-10 23:18
10张+卡设置的电源,主板和其他部件配置陈本和安装复杂度基本呈指数级增加.......除非你要商用,家用的话 ...


不商用不商用,说实话就是我一个人用,这东西能帮我这种独立开发者省好多文字上的人力成本,我是真想整一个,就是希望速度质量别差太多
多跟兄弟说一句:我是真觉的这东西有点变态的,用来干活跟开挂一样……
发表于 2025-9-10 23:24 | 显示全部楼层
五年一装机 发表于 2025-9-10 23:19
诶这个方案成本好低啊,但是兄弟我是很想要接近满血版的体验,如果最终质量只能凑合那不如用这几万充api ...

质量一样的,10t一般来说肯定是够了的,不够还能组双路
 楼主| 发表于 2025-9-10 23:26 | 显示全部楼层
wliked 发表于 2025-9-10 23:24
质量一样的,10t一般来说肯定是够了的,不够还能组双路

哇谢谢哥们了,感谢感谢!!!!要是这方案够用那我现在都能下单组起来了,我再了解了解部署的细节,谢谢谢谢
发表于 2025-9-10 23:29 | 显示全部楼层
五年一装机 发表于 2025-9-10 23:19
诶这个方案成本好低啊,但是兄弟我是很想要接近满血版的体验,如果最终质量只能凑合那不如用这几万充api ...

我就用这方案组了一台,用的同泰怡t2seep epyc9334qs 5060ti 16g 8通道ddr5内存在虚拟化环境下跑qwen3 235b速度大概8-9t,价格就1w多
发表于 2025-9-10 23:30 | 显示全部楼层
五年一装机 发表于 2025-9-10 23:26
哇谢谢哥们了,感谢感谢!!!!要是这方案够用那我现在都能下单组起来了,我再了解了解部署的细节,谢谢 ...

这个在github上有项目你可以去看看
发表于 2025-9-10 23:35 | 显示全部楼层
wliked 发表于 2025-9-10 23:29
我就用这方案组了一台,用的同泰怡t2seep epyc9334qs 5060ti 16g 8通道ddr5内存在虚拟化环境下跑qwen3 23 ...

10t左右的体验还是差了一点,个人感官最低要求15-20t才相对好很多,我试过10t左右,还是觉得有点膈应
发表于 2025-9-10 23:35 来自手机 | 显示全部楼层
五年一装机 发表于 2025-9-10 15:19
诶这个方案成本好低啊,但是兄弟我是很想要接近满血版的体验,如果最终质量只能凑合那不如用这几万充api ...

那你肯定没法和云厂商比 首先你只能接触到开源模型 你看自己也仅接触了deepseek 市场上已经有很多超越v3.1的模型 所谓的满血版近期而言还会遵守scaling law 大的接下来qwen3-max会有1t参数量 相似的还有kimi k2 fp32你自己去抱抱脸看多大 速度而言推理框架才是你需要多折腾的 新人友好的ollama/lm studio性能扩展性都挺差的 同时也要微调才能跑 你想大力出奇迹就是花比云厂商更高的成本 transformers/vllm你自己看能不能搞定 厂商是能多并发超卖压低成本的 你自部署的优势只有无惧token量无限拉长思考时间 但又比不了人家nvlink多节点的效率
发表于 2025-9-10 23:37 | 显示全部楼层
除非有较大程度的隐私需求和安全考量,相对于本地部署,目前还是API更简单实用,也靠谱
 楼主| 发表于 2025-9-10 23:41 | 显示全部楼层
YsHaNg 发表于 2025-9-10 23:35
那你肯定没法和云厂商比 首先你只能接触到开源模型 你看自己也仅接触了deepseek 市场上已经有很多超越v3. ...

谢谢专业回复,我也是在犹豫这个问题,看来这就是最大阻碍了
我是这么想的,如果10万以下的成本就能组一台随时随地可以回复的,不会出服务器错误耽误事的,质量能接近一点的本地平台,那这也是有用的,但如果像您说的差距特别大,那我就得犹豫好多
我知道现在第一的是gemini,DS3.1排第7,但是DS3.1在我这很够用很够用了,gemini总报服务器错误,限制还多,烦的慌,我就寻思如果能做本地的话会不会好一些,能解决很多问题
发表于 2025-9-10 23:42 来自手机 | 显示全部楼层
enolc 发表于 2025-9-10 15:06
如果非要装,不如先搞两块NVIDIA RTX PRO 6000 Blackwell 并联(显存规模96x2,流畅7B模型基本没问题),2 ...

192g vram何止7b模型 个人常用q4量化qwen3:235b 140g 同时激活22b参数已经overshot了 你搞动态gpu offload 只放common激活层到gpu理论而言激活参数量100b的moe模型都能搞定 差不多是没现身的llama4 behemoth一半的水平 也就是总参数量1t
发表于 2025-9-10 23:47 | 显示全部楼层
本帖最后由 enolc 于 2025-9-10 23:49 编辑
YsHaNg 发表于 2025-9-10 23:42
192g vram何止7b模型 个人常用q4量化qwen3:235b 140g 同时激活22b参数已经overshot了 你搞动态gpu offloa ...


确实如此!192GB VRAM上可以微调650亿参数的模型了,但是有点过于乐观。做为比较,我知道有人已经在单个 80 GB A100 上训练了一个 13B 模型的适配器,序列长度为 6k 个 tokens,全程使用了大约 75 GB 的 VRAM。
发表于 2025-9-10 23:53 来自手机 | 显示全部楼层
五年一装机 发表于 2025-9-10 15:41
谢谢专业回复,我也是在犹豫这个问题,看来这就是最大阻碍了
我是这么想的,如果10万以下的成本就能组一 ...

那还是有意义的 我就在用 因为公司不允许使用商业api 我自部署了小的qwen3-coder来辅助debug和写脚本 比较轻量 docker跑ollama暴露端口 vscode接入cline/roo 你的活如果正好能被解决那就很适合 像前端/devops之类 我干的事情想要解决得上pro深度思考所以也没太多现实意义 就像前面说的 目前开源闭源都还在scaling up 不如不考虑一步到位 先都玩玩 像是百炼刚上线qwen3-max 你就先前端ide里调用试试整个workflow 以后再考虑打通自有后端部署 甚至应该先弄个n8n dify之类的中间件接api 最后再考虑完全依赖自部署推理引擎
发表于 2025-9-10 23:58 | 显示全部楼层
本地部署是为了隐私和合规,在乎速度应该去用 API,还便宜很多。
 楼主| 发表于 2025-9-10 23:58 | 显示全部楼层
YsHaNg 发表于 2025-9-10 23:53
那还是有意义的 我就在用 因为公司不允许使用商业api 我自部署了小的qwen3-coder来辅助debug和写脚本 比 ...

谢谢大佬回复,实在太专业了,谢谢您半夜教我这么多,有一些名词我还不太明白,我先分别研究研究,真是很好的入门讲解
发表于 2025-9-10 23:59 来自手机 | 显示全部楼层
enolc 发表于 2025-9-10 15:47
确实如此!192GB VRAM上可以微调650亿参数的模型了,但是有点过于乐观。做为比较,我知道有人已经在单个  ...

咱在这提inference你拿个非思考回答没太大意思 unsloth的框架再蒸馏预训练的70b模型不成问题 vram并不是制约因素 微调有很多种 你在模型卡里改几个超参数也可以 压根就是runtime的东西
发表于 2025-9-11 00:05 | 显示全部楼层
本帖最后由 CraftDeadMRC 于 2025-9-11 00:14 编辑

四卡sxm2整两套,都用pg199,共256G显存,能跑int4的qwen3-235b-a22b(b站有人跑过Q8,超出一点点,int8体积差不多),存在一定损失,又或是选择v100 32G版然后用lmdeploy部署。本地最大的问题是长上下文,超过32k上下文如果是cpu+gpu混合推理的话就要很久了,而且上下文一长,需要更多的显存。
 楼主| 发表于 2025-9-11 00:23 | 显示全部楼层
CraftDeadMRC 发表于 2025-9-11 00:05
四卡sxm2整两套,都用pg199,共256G显存,能跑int4的qwen3-235b-a22b(b站有人跑过Q8,超出一点点,int8体 ...

谢谢提醒关键角度,我这里确实会对上下文长度有需求,看起来……可能省不到哪去了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-12 03:47 , Processed in 0.011373 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表