找回密码
 加入我们
搜索
      
楼主: 五年一装机

[软件] 目前的情况,如果想本地部署一个和网络api水平近似的大模型满血版,成本大概多少?

[复制链接]
发表于 2025-9-13 23:05 来自手机 | 显示全部楼层
scpe 发表于 2025-9-13 11:13
你对上下文有要求大一点的话5090不够,不如等等看下半年mac pro怎么样。

而且还得记得得是a19底子的m5 soc 今年才刚加上gpu gemm单元
发表于 2025-9-14 00:20 | 显示全部楼层
五年一装机 发表于 2025-9-13 09:00
隐约感觉应该是最好的办法,因为我对生成速度没那么高要求,那内存慢点就慢点呗 ...

9004搭配12通道的768G内存,应该4W以内能跑起来,D4平台双路成本更低,但是速度更慢一点,你找找论坛有大佬用9004跑起来了满血版的
发表于 2025-9-14 02:09 | 显示全部楼层
enolc 发表于 2025-9-10 23:18
10张+卡设置的电源,主板和其他部件配置陈本和安装复杂度基本呈指数级增加.......除非你要商用,家用的话 ...

王校长已经没多少家底了...
发表于 2025-9-14 11:57 | 显示全部楼层
ahui 发表于 2025-9-11 13:12
我是192G+5090 32G,跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右

qwen3-235-a22b-2507 这个是如何量化的?如何部署的?

5t/s 似乎偏低?
发表于 2025-9-14 12:05 | 显示全部楼层
Miner 发表于 2025-9-14 11:57
qwen3-235-a22b-2507 这个是如何量化的?如何部署的?

5t/s 似乎偏低?

这个模型Q4_K_M量化文件有140G左右,只有小部分能载入到GPU显存,大部分在内存,所以很慢
我也不清楚这个配置5t/s左右是否正常,不知道应该是多少才合理
发表于 2025-9-14 12:10 | 显示全部楼层
用LM studio可以直接下载各种量化的版本
发表于 2025-9-14 19:12 | 显示全部楼层
ahui 发表于 2025-9-14 12:05
这个模型Q4_K_M量化文件有140G左右,只有小部分能载入到GPU显存,大部分在内存,所以很慢
我也不清楚这个 ...

192G 内存,假定是DDR5 6000,带宽96GB

Q4 量化,实际激活参数 11GB

96/11=8.73

实际性能再打个7折,也应该有6t/s吧

而且 5090 的 32g 显存看起来完全没能利用

那个什么技术来着,我记不住名字,intel 在那个基础上有个 ipex-llm,理论上尽量把上下文和共享层以及激活专家放在显存里来优化性能,32G显存足够放下Q4的激活专家和上下文,理论上,不是频繁切换专家的话,应该比纯内存跑要快不少

但是这个我也没试过……

发表于 2025-9-14 19:36 | 显示全部楼层
网络 api 水平的机器是两台 8 卡 h20,月租五万

屏幕截图 2025-09-14 193541.png
发表于 2025-9-17 10:04 | 显示全部楼层
说真的,最简单的方式很明显吧。买AI MAX395的小主机啊,128G的显存,完全可以部署QWEN3-NEXT 80B和**-OSS-120B,而且有余力支持长上下文

大模型现在最重要的应用不是本地部署了模型,而是无价的创意。我建议现在先去找便宜的API商凑合用,然后统计一下调用量和预期开销。等明确了开销到底是多少之后让大模型帮你算一下到底需要多少钱
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-19 09:24 , Processed in 0.008233 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表