目前的情况，如果想本地部署一个和网络api水平近似的大模型满血版，成本大概多少？

YsHaNg · 发表于 2025-9-13 23:05

scpe 发表于 2025-9-13 11:13
你对上下文有要求大一点的话5090不够，不如等等看下半年mac pro怎么样。

而且还得记得得是a19底子的m5 soc 今年才刚加上gpu gemm单元

猪圈 · 发表于 2025-9-14 00:20

五年一装机发表于 2025-9-13 09:00
隐约感觉应该是最好的办法，因为我对生成速度没那么高要求，那内存慢点就慢点呗 ...

9004搭配12通道的768G内存，应该4W以内能跑起来，D4平台双路成本更低，但是速度更慢一点，你找找论坛有大佬用9004跑起来了满血版的

tozofly · 发表于 2025-9-14 02:09

enolc 发表于 2025-9-10 23:18
10张+卡设置的电源，主板和其他部件配置陈本和安装复杂度基本呈指数级增加.......除非你要商用，家用的话 ...

王校长已经没多少家底了...

Miner · 发表于 2025-9-14 11:57

ahui 发表于 2025-9-11 13:12
我是192G+5090 32G，跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右

qwen3-235-a22b-2507 这个是如何量化的？如何部署的？

5t/s 似乎偏低？

ahui · 发表于 2025-9-14 12:05

Miner 发表于 2025-9-14 11:57
qwen3-235-a22b-2507 这个是如何量化的？如何部署的？

5t/s 似乎偏低？

这个模型Q4_K_M量化文件有140G左右，只有小部分能载入到GPU显存，大部分在内存，所以很慢
我也不清楚这个配置5t/s左右是否正常，不知道应该是多少才合理

ahui · 发表于 2025-9-14 12:10

用LM studio可以直接下载各种量化的版本

Miner · 发表于 2025-9-14 19:12

ahui 发表于 2025-9-14 12:05
这个模型Q4_K_M量化文件有140G左右，只有小部分能载入到GPU显存，大部分在内存，所以很慢
我也不清楚这个 ...

192G 内存，假定是DDR5 6000，带宽96GB

Q4 量化，实际激活参数 11GB

96/11=8.73

实际性能再打个7折，也应该有6t/s吧

而且 5090 的 32g 显存看起来完全没能利用

那个什么技术来着，我记不住名字，intel 在那个基础上有个 ipex-llm，理论上尽量把上下文和共享层以及激活专家放在显存里来优化性能，32G显存足够放下Q4的激活专家和上下文，理论上，不是频繁切换专家的话，应该比纯内存跑要快不少

但是这个我也没试过……

chrome132 · 发表于 2025-9-14 19:36

网络 api 水平的机器是两台 8 卡 h20，月租五万

屏幕截图 2025-09-14 193541.png

空桑 · 发表于 2025-9-17 10:04

说真的，最简单的方式很明显吧。买AI MAX395的小主机啊，128G的显存，完全可以部署QWEN3-NEXT 80B和**-OSS-120B，而且有余力支持长上下文

大模型现在最重要的应用不是本地部署了模型，而是无价的创意。我建议现在先去找便宜的API商凑合用，然后统计一下调用量和预期开销。等明确了开销到底是多少之后让大模型帮你算一下到底需要多少钱

账号		自动登录	找回密码
密码			加入我们

[软件] 目前的情况，如果想本地部署一个和网络api水平近似的大模型满血版，成本大概多少？

浏览过的版块