YsHaNg 发表于 2025-9-11 00:24

CraftDeadMRC 发表于 2025-9-10 16:05
四卡sxm2整两套,都用pg199,共256G显存,能跑int4的qwen3-235b-a22b(b站有人跑过Q8,超出一点点,int8体 ...

不知道lmdeploy怎么处理但是ollama上graph是在每一个加速卡上复制的 上下文越大卡越多vram需求量几何级数的增加

YsHaNg 发表于 2025-9-11 00:36

五年一装机 发表于 2025-9-10 16:23
谢谢提醒关键角度,我这里确实会对上下文长度有需求,看起来……可能省不到哪去了 ...

新一点的模型比如使用mxfp4动态权重格式的**-oss 虽然权重参数kv占用vram小 但是graph vram用量几乎是10倍的关系

enolc 发表于 2025-9-11 00:42

YsHaNg 发表于 2025-9-10 23:59
咱在这提inference你拿个非思考回答没太大意思 unsloth的框架再蒸馏预训练的70b模型不成问题 vram并不是 ...

我的意思是具体配置要根据LZ的具体用途而定,自己曾经试过unsloth框架下的基于医疗deepseek模型微调,我还在不断学习中,看到你的建议也是受益匪浅。

我摸索的方向是医学,正在学习利用现有主流模型(LLama3,mistral等)输入各类医学影像图片,病理切片诊断报告,病患组织细胞样本的单细胞基因组分析,快速筛查和选出目前最佳的诊断和治疗方案,因为有保护隐私和数据安全的需求,如果可行,本地部署为最佳选择。目前是测试阶段,样本量和具体参数指标的规模还在起步阶段,试过一些所谓的本地部署配置,结果都不太让人满意(速度和准确度都未达标,基本无法实际使用)

CraftDeadMRC 发表于 2025-9-11 01:18

YsHaNg 发表于 2025-9-11 00:24
不知道lmdeploy怎么处理但是ollama上graph是在每一个加速卡上复制的 上下文越大卡越多vram需求量几何级数 ...

我提这个主要是其他推理框架都不能让v100用int4量化,这个可以。不过我自己测试确实lmdeploy支持的上下文比vllm部署的情况多10k(24G显存运行qwen3-30b-a3b-int4-awq的情况)

LNT 发表于 2025-9-11 06:27

纯推理,双路9135(6000)+MZ73(7000)+48G*24(1150*24)+4090, 无忧化跑Deepseek-r1-0528原版fp8,速度是15tps,kimi-k2-instruct的fp8也是15tps。只跑deepseek内存容量还可以砍一砍,4090也可以砍成3090,影响不是很大

edgeskypay 发表于 2025-9-11 08:21

考虑mac么?
Apple M3 Ultra 芯片 (32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)
512G内存,819GB/s 内存带宽。
1TB磁盘。
售价:RMB 74,249
额外的磁盘用雷电四外扩展,正价的15.36T的U.2也就15000块钱一张。扩展卡千把块钱忽略了可以。你可以去搜一下Mac Studio的方案。单机的话跑的话才几百瓦的功耗[偷笑][偷笑][偷笑]

KimmyGLM 发表于 2025-9-11 08:42

PPXG 发表于 2025-9-10 23:15
你不在乎速度的话,洋垃圾服务器平台插满TB级别内存用CPU硬算也可以算部署成功的 ...

我玩过纯内存的xeon 5代,768G 跑KT的......
缺点有两个:不能关机,否则重新加载模型到内存,非常非常耗时;

再就是跨numa延迟的问题,总体不如纯GPU方案,EPYC 还得挑CCD 满血版本,否则内存带宽不够;

shadow404 发表于 2025-9-11 08:47

个人折腾,本地运行,这价格,够用多少年得 API [震惊]

StevenG 发表于 2025-9-11 09:47

个人用不考虑并发,那你就看看多少token和哪个规模的模型能接受,大多数人的阅读速度在10-20t/s
如果满血模型,基本上只能考虑kt框架跑moe模型,你搞个3090以上,epyc9004或至强5以上,800g ddr5以上内存,全套下来用不了10w
如果小规模量化版模型,就具体看你打算用哪个具体花多少钱了,没什么标准答案,常用的家用显卡如下
单卡 rtx6000 pro
单卡 4090 48
单卡 5090/5090d
单卡 7900xtx/2080ti 22
这些都能搞到非涡轮版本,适合家用

StevenG 发表于 2025-9-11 09:53

上面的单卡,根据你的需求可以同型号扩展多卡,家用机箱一般最多4卡,再多就得买专门的机箱了

elktsp 发表于 2025-9-11 09:58

瞎问一句,AMD的AI MAX 395+ 陪128G的mini机能达到什么效果?1.5万的样子

fhqddd7086 发表于 2025-9-11 10:06

API用个几年,然后你会发现,硬件价格就便宜了,模型性能提高了。到时候再手搓一台设备。

kingofgu 发表于 2025-9-11 10:08

单张rtx pro 6000 Blackwell 配工作站主板内存 10W 可以跑openai 的 oss-120B 现在看也够用了

0xff2012 发表于 2025-9-11 10:20

部署一个7B的小模型就可以 ,如果再不行就1.5B

xbl919849900 发表于 2025-9-11 10:41

我用mac studio 128g内存的能跑到70b满血的

kesayi 发表于 2025-9-11 10:48

冷静考虑好 成本很高

PolyMorph 发表于 2025-9-11 10:52

本帖最后由 PolyMorph 于 2025-9-11 10:58 编辑

对长上下文有要求,只有rtx Pro 6000,支持int4,fp4,未来主流是fp4,老架构都不支持fp4

Mathr 发表于 2025-9-11 10:55

京东上有满血版DS的硬件配置。一套150W的样子。

wangzorro 发表于 2025-9-11 11:37

你个人就买api,团队再考虑自搭

五年一装机 发表于 2025-9-11 12:42

StevenG 发表于 2025-9-11 09:47
个人用不考虑并发,那你就看看多少token和哪个规模的模型能接受,大多数人的阅读速度在10-20t/s
如果满血模 ...

嗯我现在有个5090,假如我打算用5090的方案,您觉的我再加多少张性价比最高?就是想尽量逼近api,如果考虑长上下文的需求,是不是32G还是不太够?

StevenG 发表于 2025-9-11 13:11

五年一装机 发表于 2025-9-11 12:42
嗯我现在有个5090,假如我打算用5090的方案,您觉的我再加多少张性价比最高?就是想尽量逼近api,如果考 ...

32g显存也就跑跑30b规模的,看你具体做什么,要是对ai的智商要求高,肯定不够,要是就让他帮你整机文本,足够用了。

满血版,可以走kt架构,你可以b站搜ktransformer,缺点的话,前面有人提了。看你预算,epyc9004还是Xeon5/6,区别在于intel的prefill能加速,简单点说就是第一个字吐出来前的准备时间比较短,但是至强cpu比较贵,多个2-3w,看你具体型号,内存方面,4800很便宜,5600还行,6400暂时比较贵,要是壕无人性,可以至强6+mrdimm内存,能8800频率 12通道,内存就不存在理论瓶颈了,虽然还是没显存快,但是配合5090,15+token/s还是能达成的

ahui 发表于 2025-9-11 13:12

我是192G+5090 32G,跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右
qwen3-30这些30G以内的模型都是100+t/s

都是q4-km或以上,速度和模型文件大小有关系

StevenG 发表于 2025-9-11 13:13

上面的方案,应该是在更小规模更聪明的模型出来前,最具性价比的方案了,前提是你对速度的需求,不那么高,就像我说的15t这个速度,也就刚刚处于阅读速度。。

StevenG 发表于 2025-9-11 13:15

ahui 发表于 2025-9-11 13:12
我是192G+5090 32G,跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右


30g以内的,都是用的显存,超过的,都用内存了,速度上不去正常。。

StevenG 发表于 2025-9-11 13:18

建议楼主先评估一下多大规模的模型能满足你需求,满血版只是听着霸气,为了最后那%5的效果,得多投入几倍的资金,到底值不值~~

8owd8wan 发表于 2025-9-11 13:22

并发不超过4,速度打平元宝之类的,30万足够

ahui 发表于 2025-9-11 13:23

StevenG 发表于 2025-9-11 13:15
30g以内的,都是用的显存,超过的,都用内存了,速度上不去正常。。

是的,楼主要达到较好的效果,得有400G左右的显存才行,运行GLM-4.5就不错了,这个模型目前开源第一仅比2个闭源差

10W的配置速度估计就慢了

我輩樹である 发表于 2025-9-11 13:29

开源模型比闭源差远了,闭源的每天都在sft,开源只是过一段时间给个checkpoint,静态的。

而且现在闭源们玩的都是什么,agent,deep research,开源通通没有。这个算力需求上更加悬殊,比单次推理要高出50倍。

StevenG 发表于 2025-9-11 13:32

ahui 发表于 2025-9-11 13:23
是的,楼主要达到较好的效果,得有400G左右的显存才行,运行GLM-4.5就不错了,这个模型目前开源第一仅比2 ...

其实感觉楼主这种心血来潮的,api折腾几次,然后再找个30b规模的用用,对比对比,可能就没这么上头了。。最早我还掏出来过1t的内存+5090准备kt满血版,后来用了一段时间api,又对比了一下30b的效果,发现满血版根本用不上,现在的我,随便淘了个22g 2080ti给lm studio,7900xtx打游戏,5090的包装都没拆。。。(一想到3万的显卡拿来打游戏,心疼。。。)

StevenG 发表于 2025-9-11 13:37

我輩樹である 发表于 2025-9-11 13:29
开源模型比闭源差远了,闭源的每天都在sft,开源只是过一段时间给个checkpoint,静态的。

而且现在闭源们 ...

确实比不了。。不过这不妨碍楼主有个专属的ai助理的梦想~~有些事情,得经历过才能放下,不然心里一直会痒痒的[偷笑]
页: 1 [2] 3 4 5
查看完整版本: 目前的情况,如果想本地部署一个和网络api水平近似的大模型满血版,成本大概多少?