找回密码
 加入我们
搜索
      
楼主: 五年一装机

[软件] 目前的情况,如果想本地部署一个和网络api水平近似的大模型满血版,成本大概多少?

[复制链接]
发表于 2025-9-11 00:24 来自手机 | 显示全部楼层
CraftDeadMRC 发表于 2025-9-10 16:05
四卡sxm2整两套,都用pg199,共256G显存,能跑int4的qwen3-235b-a22b(b站有人跑过Q8,超出一点点,int8体 ...

不知道lmdeploy怎么处理但是ollama上graph是在每一个加速卡上复制的 上下文越大卡越多vram需求量几何级数的增加
发表于 2025-9-11 00:36 来自手机 | 显示全部楼层
五年一装机 发表于 2025-9-10 16:23
谢谢提醒关键角度,我这里确实会对上下文长度有需求,看起来……可能省不到哪去了 ...

新一点的模型比如使用mxfp4动态权重格式的**-oss 虽然权重参数kv占用vram小 但是graph vram用量几乎是10倍的关系
发表于 2025-9-11 00:42 | 显示全部楼层
YsHaNg 发表于 2025-9-10 23:59
咱在这提inference你拿个非思考回答没太大意思 unsloth的框架再蒸馏预训练的70b模型不成问题 vram并不是 ...

我的意思是具体配置要根据LZ的具体用途而定,自己曾经试过unsloth框架下的基于医疗deepseek模型微调,我还在不断学习中,看到你的建议也是受益匪浅。

我摸索的方向是医学,正在学习利用现有主流模型(LLama3,mistral等)输入各类医学影像图片,病理切片诊断报告,病患组织细胞样本的单细胞基因组分析,快速筛查和选出目前最佳的诊断和治疗方案,因为有保护隐私和数据安全的需求,如果可行,本地部署为最佳选择。目前是测试阶段,样本量和具体参数指标的规模还在起步阶段,试过一些所谓的本地部署配置,结果都不太让人满意(速度和准确度都未达标,基本无法实际使用)
发表于 2025-9-11 01:18 | 显示全部楼层
YsHaNg 发表于 2025-9-11 00:24
不知道lmdeploy怎么处理但是ollama上graph是在每一个加速卡上复制的 上下文越大卡越多vram需求量几何级数 ...

我提这个主要是其他推理框架都不能让v100用int4量化,这个可以。不过我自己测试确实lmdeploy支持的上下文比vllm部署的情况多10k(24G显存运行qwen3-30b-a3b-int4-awq的情况)
发表于 2025-9-11 06:27 | 显示全部楼层
纯推理,双路9135(6000)+MZ73(7000)+48G*24(1150*24)+4090, 无忧化跑Deepseek-r1-0528原版fp8,速度是15tps,kimi-k2-instruct的fp8也是15tps。只跑deepseek内存容量还可以砍一砍,4090也可以砍成3090,影响不是很大
发表于 2025-9-11 08:21 | 显示全部楼层
考虑mac么?
Apple M3 Ultra 芯片 (32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)
512G内存,819GB/s 内存带宽。
1TB磁盘。
售价:RMB 74,249
额外的磁盘用雷电四外扩展,正价的15.36T的U.2也就15000块钱一张。扩展卡千把块钱忽略了可以。你可以去搜一下Mac Studio的方案。单机的话跑的话才几百瓦的功耗
发表于 2025-9-11 08:42 | 显示全部楼层
PPXG 发表于 2025-9-10 23:15
你不在乎速度的话,洋垃圾服务器平台插满TB级别内存用CPU硬算也可以算部署成功的 ...

我玩过纯内存的xeon 5代,768G 跑KT的......
缺点有两个:不能关机,否则重新加载模型到内存,非常非常耗时;

再就是跨numa延迟的问题,总体不如纯GPU方案,EPYC 还得挑CCD 满血版本,否则内存带宽不够;
发表于 2025-9-11 08:47 | 显示全部楼层
个人折腾,本地运行,这价格,够用多少年得 API
发表于 2025-9-11 09:47 来自手机 | 显示全部楼层
个人用不考虑并发,那你就看看多少token和哪个规模的模型能接受,大多数人的阅读速度在10-20t/s
如果满血模型,基本上只能考虑kt框架跑moe模型,你搞个3090以上,epyc9004或至强5以上,800g ddr5以上内存,全套下来用不了10w
如果小规模量化版模型,就具体看你打算用哪个具体花多少钱了,没什么标准答案,常用的家用显卡如下
单卡 rtx6000 pro
单卡 4090 48
单卡 5090/5090d
单卡 7900xtx/2080ti 22
这些都能搞到非涡轮版本,适合家用
发表于 2025-9-11 09:53 来自手机 | 显示全部楼层
上面的单卡,根据你的需求可以同型号扩展多卡,家用机箱一般最多4卡,再多就得买专门的机箱了
发表于 2025-9-11 09:58 | 显示全部楼层
瞎问一句,AMD的AI MAX 395+ 陪128G的mini机能达到什么效果?1.5万的样子
发表于 2025-9-11 10:06 | 显示全部楼层
API用个几年,然后你会发现,硬件价格就便宜了,模型性能提高了。到时候再手搓一台设备。
发表于 2025-9-11 10:08 | 显示全部楼层
单张rtx pro 6000 Blackwell 配工作站主板内存 10W 可以跑openai 的 oss-120B 现在看也够用了
发表于 2025-9-11 10:20 | 显示全部楼层
部署一个7B的小模型就可以 ,如果再不行就1.5B
发表于 2025-9-11 10:41 | 显示全部楼层
我用mac studio 128g内存的能跑到70b满血的
发表于 2025-9-11 10:48 | 显示全部楼层
冷静  考虑好 成本很高
发表于 2025-9-11 10:52 | 显示全部楼层
本帖最后由 PolyMorph 于 2025-9-11 10:58 编辑

对长上下文有要求,只有rtx Pro 6000,支持int4,fp4,未来主流是fp4,老架构都不支持fp4
发表于 2025-9-11 10:55 | 显示全部楼层
京东上有满血版DS的硬件配置。一套150W的样子。
发表于 2025-9-11 11:37 | 显示全部楼层
你个人就买api,团队再考虑自搭
 楼主| 发表于 2025-9-11 12:42 | 显示全部楼层
StevenG 发表于 2025-9-11 09:47
个人用不考虑并发,那你就看看多少token和哪个规模的模型能接受,大多数人的阅读速度在10-20t/s
如果满血模 ...

嗯我现在有个5090,假如我打算用5090的方案,您觉的我再加多少张性价比最高?就是想尽量逼近api,如果考虑长上下文的需求,是不是32G还是不太够?
发表于 2025-9-11 13:11 来自手机 | 显示全部楼层
五年一装机 发表于 2025-9-11 12:42
嗯我现在有个5090,假如我打算用5090的方案,您觉的我再加多少张性价比最高?就是想尽量逼近api,如果考 ...

32g显存也就跑跑30b规模的,看你具体做什么,要是对ai的智商要求高,肯定不够,要是就让他帮你整机文本,足够用了。

满血版,可以走kt架构,你可以b站搜ktransformer,缺点的话,前面有人提了。看你预算,epyc9004还是Xeon5/6,区别在于intel的prefill能加速,简单点说就是第一个字吐出来前的准备时间比较短,但是至强cpu比较贵,多个2-3w,看你具体型号,内存方面,4800很便宜,5600还行,6400暂时比较贵,要是壕无人性,可以至强6+mrdimm内存,能8800频率 12通道,内存就不存在理论瓶颈了,虽然还是没显存快,但是配合5090,15+token/s还是能达成的
发表于 2025-9-11 13:12 来自手机 | 显示全部楼层
我是192G+5090 32G,跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右
qwen3-30这些30G以内的模型都是100+t/s

都是q4-km或以上,速度和模型文件大小有关系
发表于 2025-9-11 13:13 来自手机 | 显示全部楼层
上面的方案,应该是在更小规模更聪明的模型出来前,最具性价比的方案了,前提是你对速度的需求,不那么高,就像我说的15t这个速度,也就刚刚处于阅读速度。。
发表于 2025-9-11 13:15 来自手机 | 显示全部楼层
ahui 发表于 2025-9-11 13:12
我是192G+5090 32G,跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右

30g以内的,都是用的显存,超过的,都用内存了,速度上不去正常。。
发表于 2025-9-11 13:18 来自手机 | 显示全部楼层
建议楼主先评估一下多大规模的模型能满足你需求,满血版只是听着霸气,为了最后那%5的效果,得多投入几倍的资金,到底值不值~~
发表于 2025-9-11 13:22 | 显示全部楼层
并发不超过4,速度打平元宝之类的,30万足够
发表于 2025-9-11 13:23 来自手机 | 显示全部楼层
StevenG 发表于 2025-9-11 13:15
30g以内的,都是用的显存,超过的,都用内存了,速度上不去正常。。

是的,楼主要达到较好的效果,得有400G左右的显存才行,运行GLM-4.5就不错了,这个模型目前开源第一仅比2个闭源差

10W的配置速度估计就慢了
发表于 2025-9-11 13:29 | 显示全部楼层
开源模型比闭源差远了,闭源的每天都在sft,开源只是过一段时间给个checkpoint,静态的。

而且现在闭源们玩的都是什么,agent,deep research,开源通通没有。这个算力需求上更加悬殊,比单次推理要高出50倍。
发表于 2025-9-11 13:32 来自手机 | 显示全部楼层
ahui 发表于 2025-9-11 13:23
是的,楼主要达到较好的效果,得有400G左右的显存才行,运行GLM-4.5就不错了,这个模型目前开源第一仅比2 ...

其实感觉楼主这种心血来潮的,api折腾几次,然后再找个30b规模的用用,对比对比,可能就没这么上头了。。最早我还掏出来过1t的内存+5090准备kt满血版,后来用了一段时间api,又对比了一下30b的效果,发现满血版根本用不上,现在的我,随便淘了个22g 2080ti给lm studio,7900xtx打游戏,5090的包装都没拆。。。(一想到3万的显卡拿来打游戏,心疼。。。)
发表于 2025-9-11 13:37 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-9-11 13:29
开源模型比闭源差远了,闭源的每天都在sft,开源只是过一段时间给个checkpoint,静态的。

而且现在闭源们 ...

确实比不了。。不过这不妨碍楼主有个专属的ai助理的梦想~~有些事情,得经历过才能放下,不然心里一直会痒痒的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-13 06:59 , Processed in 0.011555 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表