找回密码
 加入我们
搜索
      
楼主: enolc

[装机] 求教如何选购本地AI部署的硬件系统(超级私人秘书),5090或者Mac Studio Ultra3等

[复制链接]
发表于 2025-7-31 00:11 | 显示全部楼层
港城钢铁侠 发表于 2025-7-30 23:57
只是推理的话可以用mac,如果考虑训练,微调模型,还是直接RTX Pro 6000吧。苹果那边基本上只能跑MLX的模型 ...


用下来基本是ik_llama.cpp最好用,fastllm长时间用工具调用不是特别稳定,作者说后面可能会优化,而且fastllm的快其实是moe层用int4量化换来的,精度损失会更大点,实际一般gguf的q4量化都不会用纯int4。如果是fastllm跑int4g128的话速度跟ik和kt比也没啥优势,三个基本都差不多
发表于 2025-7-31 00:18 来自手机 | 显示全部楼层
la814273 发表于 2025-7-31 00:11
用下来基本是ik_llama.cpp最好用,fastllm长时间用工具调用不是特别稳定,作者说后面可能会优化,而且fas ...

fastllm这周支持gguf了,到时候可以跑同一个模型做对比了。目前同模型ik大幅度领先kt,不过玩了一圈混合推理我又想玩纯GPU方案了,最近出的几个小模型感觉都还可以,4卡方案跑的话应该还不错。
发表于 2025-7-31 05:51 来自手机 | 显示全部楼层
la814273 发表于 2025-7-31 00:11
用下来基本是ik_llama.cpp最好用,fastllm长时间用工具调用不是特别稳定,作者说后面可能会优化,而且fas ...

精度损失太大就没意义了。本来本地llm需求就不高,用的时候求精不求多。
发表于 2025-7-31 13:11 | 显示全部楼层
la814273 发表于 2025-7-30 23:44
智谱的前天才出,llama.cpp还没优化好,估计还得三四天才有完整环境

近期试了下qwen3-30b-a3b-2507,moe这种确实可以让模型的显存占用大大减少,多出来的显存可以把上下文长度设置的更大,生成速度也能保证几十个tps(双A770),所以很想试试12b这种moe模型如何
发表于 2025-7-31 13:36 | 显示全部楼层
powerduke 发表于 2025-7-31 13:11
近期试了下qwen3-30b-a3b-2507,moe这种确实可以让模型的显存占用大大减少,多出来的显存可以把上下文长 ...

混元80b-a13b q4在我机器上(8通道3200内存)输出速度是20token/s,显卡是5070ti,按这样算一般d5双通道6400的话应该有10出头,双通道能超到8800应该有15左右,智谱4.5air速度应该跟混元a13b类似,毕竟参数也类似
发表于 2025-7-31 13:57 | 显示全部楼层
la814273 发表于 2025-7-31 13:36
混元80b-a13b q4在我机器上(8通道3200内存)输出速度是20token/s,显卡是5070ti,按这样算一般d5双通道640 ...

刚看到lm studio上已经有hunyuan-a13b了,q4-k-m的要49G,正在下,两台电脑都可以试试,至少主力机96G+5070ti应该和你的能达到差不多速度咯
发表于 2025-7-31 21:45 | 显示全部楼层
本帖最后由 la814273 于 2025-7-31 21:47 编辑
powerduke 发表于 2025-7-31 13:57
刚看到lm studio上已经有hunyuan-a13b了,q4-k-m的要49G,正在下,两台电脑都可以试试,至少主力机96G+50 ...


lmstudio上大概率跑不到这个速度,可能只有一半左右(可能最近优化好点了会稍微多点),全速得linux下ik_llama.cpp
阿里昨天更新的30b 2507非常强,可以试试,而且非常快,我双5070ti上能跑到最高130每秒
发表于 2025-7-31 22:01 | 显示全部楼层
本地部署量化蒸馏模型没啥意义,智商太低了,可以试试使用cpu+gpu混合推理
发表于 2025-7-31 23:23 | 显示全部楼层
检索直接考虑qwen3 8b的embedding和reranker建个知识库就行,但70B不一定有32B好(假如你指的是DS蒸馏llama的那个的话)
如果联系的知识太长那还得加卡。
我自己测大概就是qwen3 235B thinking>qwen3 235B non-thinking>qwen3 30B thinking>qwen3 30B non-thinking>Hunyuan 80B A13B>KATv1 40B
(如果带上2507,我也测了,排序依旧差不多,但需要注意2507把模型分开了,此外32B的水准大概和30B差不多,我懒得多次跑然后取平均)
测试集是百度Xuanyuan用的然后我改了改测试脚本,实际上有概率误判,理想情况是由另外一个llm判断结果(之前有人测试过好像是qwen2.5 72B就能做到几乎0误判,但太费时间了)
推理框架是lmdeploy,双卡A3000laptop 12G现在能单请求100token/s,64并发大概1300~1400,总吞吐5000
vllm则是总吞吐过于离谱(它的缓存命中到测试后面都来到90%+以至于吞吐快9000……),提升并发数的单请求输出速度提升太慢,输出极限大概在lmdeploy的八成左右
fastllm的输出极限是前面两个的零头,吞吐勉强2200左右,超过一定程度开始倒挂
ik_llama并发和llama.cpp差不多弱,性能倒挂

千万不要考虑cpu+gpu,我测个股票分红问题能跑接近两个小时(32768总长度的话),是235B IQ4用ik_llama跑的,速度大概10~12(虽然最后都掉到了5还是3来着)

但有了性能,你更需要的是实现功能的软件或者借助现有工具实现的工作流,此外知识库也得想办法整理
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-8-2 15:43 , Processed in 0.008586 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表