YsHaNg
发表于 2025-9-13 23:05
scpe 发表于 2025-9-13 11:13
你对上下文有要求大一点的话5090不够,不如等等看下半年mac pro怎么样。
而且还得记得得是a19底子的m5 soc 今年才刚加上gpu gemm单元
猪圈
发表于 2025-9-14 00:20
五年一装机 发表于 2025-9-13 09:00
隐约感觉应该是最好的办法,因为我对生成速度没那么高要求,那内存慢点就慢点呗 ...
9004搭配12通道的768G内存,应该4W以内能跑起来,D4平台双路成本更低,但是速度更慢一点,你找找论坛有大佬用9004跑起来了满血版的
tozofly
发表于 2025-9-14 02:09
enolc 发表于 2025-9-10 23:18
10张+卡设置的电源,主板和其他部件配置陈本和安装复杂度基本呈指数级增加.......除非你要商用,家用的话 ...
王校长已经没多少家底了...
Miner
发表于 2025-9-14 11:57
ahui 发表于 2025-9-11 13:12
我是192G+5090 32G,跑**-OSS-120大概15t/s
qwen3-235-a22b-2507只有5t/s
GLM-4.5-Air好像有10t/s左右
qwen3-235-a22b-2507 这个是如何量化的?如何部署的?
5t/s 似乎偏低?
ahui
发表于 2025-9-14 12:05
Miner 发表于 2025-9-14 11:57
qwen3-235-a22b-2507 这个是如何量化的?如何部署的?
5t/s 似乎偏低?
这个模型Q4_K_M量化文件有140G左右,只有小部分能载入到GPU显存,大部分在内存,所以很慢
我也不清楚这个配置5t/s左右是否正常,不知道应该是多少才合理
ahui
发表于 2025-9-14 12:10
用LM studio可以直接下载各种量化的版本
Miner
发表于 2025-9-14 19:12
ahui 发表于 2025-9-14 12:05
这个模型Q4_K_M量化文件有140G左右,只有小部分能载入到GPU显存,大部分在内存,所以很慢
我也不清楚这个 ...
192G 内存,假定是DDR5 6000,带宽96GB
Q4 量化,实际激活参数 11GB
96/11=8.73
实际性能再打个7折,也应该有6t/s吧
而且 5090 的 32g 显存看起来完全没能利用
那个什么技术来着,我记不住名字,intel 在那个基础上有个 ipex-llm,理论上尽量把上下文和共享层以及激活专家放在显存里来优化性能,32G显存足够放下Q4的激活专家和上下文,理论上,不是频繁切换专家的话,应该比纯内存跑要快不少
但是这个我也没试过……
chrome132
发表于 2025-9-14 19:36
网络 api 水平的机器是两台 8 卡 h20,月租五万
空桑
发表于 2025-9-17 10:04
说真的,最简单的方式很明显吧。买AI MAX395的小主机啊,128G的显存,完全可以部署QWEN3-NEXT 80B和**-OSS-120B,而且有余力支持长上下文
大模型现在最重要的应用不是本地部署了模型,而是无价的创意。我建议现在先去找便宜的API商凑合用,然后统计一下调用量和预期开销。等明确了开销到底是多少之后让大模型帮你算一下到底需要多少钱