求教如何选购本地AI部署的硬件系统（超级私人秘书），5090或者Mac Studio Ultra3等

la814273 · 发表于 2025-7-31 00:11

港城钢铁侠发表于 2025-7-30 23:57
只是推理的话可以用mac，如果考虑训练，微调模型，还是直接RTX Pro 6000吧。苹果那边基本上只能跑MLX的模型 ...

用下来基本是ik_llama.cpp最好用，fastllm长时间用工具调用不是特别稳定，作者说后面可能会优化，而且fastllm的快其实是moe层用int4量化换来的，精度损失会更大点，实际一般gguf的q4量化都不会用纯int4。如果是fastllm跑int4g128的话速度跟ik和kt比也没啥优势，三个基本都差不多

港城钢铁侠 · 发表于 2025-7-31 00:18

la814273 发表于 2025-7-31 00:11
用下来基本是ik_llama.cpp最好用，fastllm长时间用工具调用不是特别稳定，作者说后面可能会优化，而且fas ...

fastllm这周支持gguf了，到时候可以跑同一个模型做对比了。目前同模型ik大幅度领先kt，不过玩了一圈混合推理我又想玩纯GPU方案了，最近出的几个小模型感觉都还可以，4卡方案跑的话应该还不错。

用户 · 发表于 2025-7-31 05:51

la814273 发表于 2025-7-31 00:11
用下来基本是ik_llama.cpp最好用，fastllm长时间用工具调用不是特别稳定，作者说后面可能会优化，而且fas ...

精度损失太大就没意义了。本来本地llm需求就不高，用的时候求精不求多。

powerduke · 发表于 2025-7-31 13:11

la814273 发表于 2025-7-30 23:44
智谱的前天才出，llama.cpp还没优化好，估计还得三四天才有完整环境

近期试了下qwen3-30b-a3b-2507，moe这种确实可以让模型的显存占用大大减少，多出来的显存可以把上下文长度设置的更大，生成速度也能保证几十个tps（双A770），所以很想试试12b这种moe模型如何

la814273 · 发表于 2025-7-31 13:36

powerduke 发表于 2025-7-31 13:11
近期试了下qwen3-30b-a3b-2507，moe这种确实可以让模型的显存占用大大减少，多出来的显存可以把上下文长 ...

混元80b-a13b q4在我机器上(8通道3200内存)输出速度是20token/s，显卡是5070ti，按这样算一般d5双通道6400的话应该有10出头，双通道能超到8800应该有15左右，智谱4.5air速度应该跟混元a13b类似，毕竟参数也类似

powerduke · 发表于 2025-7-31 13:57

la814273 发表于 2025-7-31 13:36
混元80b-a13b q4在我机器上(8通道3200内存)输出速度是20token/s，显卡是5070ti，按这样算一般d5双通道640 ...

刚看到lm studio上已经有hunyuan-a13b了，q4-k-m的要49G，正在下，两台电脑都可以试试，至少主力机96G+5070ti应该和你的能达到差不多速度咯

la814273 · 发表于 2025-7-31 21:45

本帖最后由 la814273 于 2025-7-31 21:47 编辑

powerduke 发表于 2025-7-31 13:57
刚看到lm studio上已经有hunyuan-a13b了，q4-k-m的要49G，正在下，两台电脑都可以试试，至少主力机96G+50 ...

lmstudio上大概率跑不到这个速度，可能只有一半左右(可能最近优化好点了会稍微多点)，全速得linux下ik_llama.cpp
阿里昨天更新的30b 2507非常强，可以试试，而且非常快，我双5070ti上能跑到最高130每秒

wliked · 发表于 2025-7-31 22:01

本地部署量化蒸馏模型没啥意义，智商太低了，可以试试使用cpu+gpu混合推理

CraftDeadMRC · 发表于 2025-7-31 23:23

检索直接考虑qwen3 8b的embedding和reranker建个知识库就行，但70B不一定有32B好（假如你指的是DS蒸馏llama的那个的话）
如果联系的知识太长那还得加卡。
我自己测大概就是qwen3 235B thinking>qwen3 235B non-thinking>qwen3 30B thinking>qwen3 30B non-thinking>Hunyuan 80B A13B>KATv1 40B
（如果带上2507，我也测了，排序依旧差不多，但需要注意2507把模型分开了，此外32B的水准大概和30B差不多，我懒得多次跑然后取平均）
测试集是百度Xuanyuan用的然后我改了改测试脚本，实际上有概率误判，理想情况是由另外一个llm判断结果（之前有人测试过好像是qwen2.5 72B就能做到几乎0误判，但太费时间了）
推理框架是lmdeploy，双卡A3000laptop 12G现在能单请求100token/s，64并发大概1300~1400，总吞吐5000
vllm则是总吞吐过于离谱（它的缓存命中到测试后面都来到90%+以至于吞吐快9000……），提升并发数的单请求输出速度提升太慢，输出极限大概在lmdeploy的八成左右
fastllm的输出极限是前面两个的零头，吞吐勉强2200左右，超过一定程度开始倒挂
ik_llama并发和llama.cpp差不多弱，性能倒挂

千万不要考虑cpu+gpu，我测个股票分红问题能跑接近两个小时（32768总长度的话），是235B IQ4用ik_llama跑的，速度大概10~12（虽然最后都掉到了5还是3来着）

但有了性能，你更需要的是实现功能的软件或者借助现有工具实现的工作流，此外知识库也得想办法整理

账号		自动登录	找回密码
密码			加入我们

[装机] 求教如何选购本地AI部署的硬件系统（超级私人秘书），5090或者Mac Studio Ultra3等