找回密码
 加入我们
搜索
      
查看: 11255|回复: 128

[软件] 目前的情况,如果想本地部署一个和网络api水平近似的大模型满血版,成本大概多少?

[复制链接]
发表于 2025-9-10 23:35 来自手机 | 显示全部楼层
五年一装机 发表于 2025-9-10 15:19
诶这个方案成本好低啊,但是兄弟我是很想要接近满血版的体验,如果最终质量只能凑合那不如用这几万充api ...

那你肯定没法和云厂商比 首先你只能接触到开源模型 你看自己也仅接触了deepseek 市场上已经有很多超越v3.1的模型 所谓的满血版近期而言还会遵守scaling law 大的接下来qwen3-max会有1t参数量 相似的还有kimi k2 fp32你自己去抱抱脸看多大 速度而言推理框架才是你需要多折腾的 新人友好的ollama/lm studio性能扩展性都挺差的 同时也要微调才能跑 你想大力出奇迹就是花比云厂商更高的成本 transformers/vllm你自己看能不能搞定 厂商是能多并发超卖压低成本的 你自部署的优势只有无惧token量无限拉长思考时间 但又比不了人家nvlink多节点的效率
发表于 2025-9-10 23:42 来自手机 | 显示全部楼层
enolc 发表于 2025-9-10 15:06
如果非要装,不如先搞两块NVIDIA RTX PRO 6000 Blackwell 并联(显存规模96x2,流畅7B模型基本没问题),2 ...

192g vram何止7b模型 个人常用q4量化qwen3:235b 140g 同时激活22b参数已经overshot了 你搞动态gpu offload 只放common激活层到gpu理论而言激活参数量100b的moe模型都能搞定 差不多是没现身的llama4 behemoth一半的水平 也就是总参数量1t
发表于 2025-9-10 23:53 来自手机 | 显示全部楼层
五年一装机 发表于 2025-9-10 15:41
谢谢专业回复,我也是在犹豫这个问题,看来这就是最大阻碍了
我是这么想的,如果10万以下的成本就能组一 ...

那还是有意义的 我就在用 因为公司不允许使用商业api 我自部署了小的qwen3-coder来辅助debug和写脚本 比较轻量 docker跑ollama暴露端口 vscode接入cline/roo 你的活如果正好能被解决那就很适合 像前端/devops之类 我干的事情想要解决得上pro深度思考所以也没太多现实意义 就像前面说的 目前开源闭源都还在scaling up 不如不考虑一步到位 先都玩玩 像是百炼刚上线qwen3-max 你就先前端ide里调用试试整个workflow 以后再考虑打通自有后端部署 甚至应该先弄个n8n dify之类的中间件接api 最后再考虑完全依赖自部署推理引擎
发表于 2025-9-10 23:59 来自手机 | 显示全部楼层
enolc 发表于 2025-9-10 15:47
确实如此!192GB VRAM上可以微调650亿参数的模型了,但是有点过于乐观。做为比较,我知道有人已经在单个  ...

咱在这提inference你拿个非思考回答没太大意思 unsloth的框架再蒸馏预训练的70b模型不成问题 vram并不是制约因素 微调有很多种 你在模型卡里改几个超参数也可以 压根就是runtime的东西
发表于 2025-9-11 00:24 来自手机 | 显示全部楼层
CraftDeadMRC 发表于 2025-9-10 16:05
四卡sxm2整两套,都用pg199,共256G显存,能跑int4的qwen3-235b-a22b(b站有人跑过Q8,超出一点点,int8体 ...

不知道lmdeploy怎么处理但是ollama上graph是在每一个加速卡上复制的 上下文越大卡越多vram需求量几何级数的增加
发表于 2025-9-11 00:36 来自手机 | 显示全部楼层
五年一装机 发表于 2025-9-10 16:23
谢谢提醒关键角度,我这里确实会对上下文长度有需求,看起来……可能省不到哪去了 ...

新一点的模型比如使用mxfp4动态权重格式的**-oss 虽然权重参数kv占用vram小 但是graph vram用量几乎是10倍的关系
发表于 2025-9-11 17:48 | 显示全部楼层
ihe 发表于 2025-9-11 09:10
想起之前看过一个视频,用的是mac  mini(studio)集群,性价比超高,可以在b站搜索看看,如:欢迎来到桌面 ...

mac gpu其实很差 到m5才会加上gemm加速单元 对比n卡老早就有tensor core
发表于 2025-9-11 17:50 | 显示全部楼层
StevenG 发表于 2025-9-11 05:15
30g以内的,都是用的显存,超过的,都用内存了,速度上不去正常。。

用llama.cpp可以自行offload common层 动态offload激活参数量在显存范围内基本可以不用cpu
发表于 2025-9-11 17:53 | 显示全部楼层
五年一装机 发表于 2025-9-11 06:35
谢谢哥们这么细致的信息,可行性很高,做方案备选了,感谢感谢,我这里对吐字速度要求不高就是希望聪明一 ...

自行参考长上下文对显存要求 https://github.com/ollama/ollama/issues/11939#:~:text=It's%20not%20the%20size%20of%20the%20model%20that%20matters%2C%20it's%20the%20size%20of%20the%20memory%20graph.
发表于 2025-9-12 16:30 | 显示全部楼层
keqikeqi 发表于 2025-9-12 07:42
我这边4090 48G,也是跑了几个,发现qwen3-30b-a3b-2507比qwen3-coder-30b好了不少。vscode + cline本地 ...

哎奇怪了 我是发现coder比instruct表现要好
发表于 2025-9-12 16:36 | 显示全部楼层
reekyboy 发表于 2025-9-12 06:47
本文来自AI回答(供参考):
我帮你拆开来看,你说的“DS”我理解是 大模型(LLM)的本地推理/微调/私有部 ...

幻觉体现的非常明显
llama3.1在llm里算上古模型了 我的inference infra包括所有别的服务跑在一块512g sm951上
发表于 2025-9-12 23:10 来自手机 | 显示全部楼层
reekyboy 发表于 2025-9-12 15:00
我也准备学习,目前看的最多的就是deepseek 本地部署。但是我还不知道用来干嘛。哈哈
然后他就推荐我搞一 ...

人间一天llm 1年 deepzeek-r1 1月到现在已经有太多更新了 上周都有新研究微软rStar2-Agent-14B超越671B DeepSeek-R1 垃圾佬拿个树莓派都一样跑 正好跟home assistant放一块弄个钢铁侠Javis
发表于 2025-9-12 23:22 来自手机 | 显示全部楼层
reekyboy 发表于 2025-9-12 15:13
等我办公室弄好,我得好好研究你说的star/agent。不知道我还能不能学进去。明天去把空调网络搞定就要开始 ...

像我这种玩模型微调的就可以从部署新手友好的ollama开始 https://ollama.com/search 这里面的都一个个试一遍
发表于 2025-9-13 18:20 来自手机 | 显示全部楼层
constansino 发表于 2025-9-13 07:38
我的看法有点不一样

我认为模型是赢者通吃的市场,甚至说ds现阶段都完全没有意义,只需要用最好用的就行

现在的话qwen3-next:80b-a3b就能超过gemini2.5flash 80b参数量大概40g内存 我只知道transformers可以自己选择公用层进入vram 加上动态offload 基本保证3b参数始终在显存 速度质量都非常高 https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
发表于 2025-9-13 18:36 来自手机 | 显示全部楼层
本帖最后由 YsHaNg 于 2025-9-13 10:39 编辑
五年一装机 发表于 2025-9-13 08:16
认可,我现在也是在探索有没有低速回复但是能尽可能质量接近的部署办法,理论上ddr5 6400应该不会那么差 ...


那我感觉就是用高量化moe模型混合推理 用n8n dify一类框架配置workflow让它自个跑一晚上你起来再看 硬件很无所谓 不追求速度就是把内存往大堆 p40 24g现在应该1200左右 fp16甚至fp32的量化用不上5090那些int8 int4数据格式优化 大半夜跑完了对你而言也没太大帮助 不如配制成你每一个休息间隔时间内什么硬件能完成你的工作流最有性价比
发表于 2025-9-13 23:05 来自手机 | 显示全部楼层
scpe 发表于 2025-9-13 11:13
你对上下文有要求大一点的话5090不够,不如等等看下半年mac pro怎么样。

而且还得记得得是a19底子的m5 soc 今年才刚加上gpu gemm单元
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-11-5 04:04 , Processed in 0.010025 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表