找回密码
 加入我们
搜索
      
查看: 5197|回复: 38

[装机] 求教如何选购本地AI部署的硬件系统(超级私人秘书),5090或者Mac Studio Ultra3等

[复制链接]
发表于 2025-7-31 23:23 | 显示全部楼层
检索直接考虑qwen3 8b的embedding和reranker建个知识库就行,但70B不一定有32B好(假如你指的是DS蒸馏llama的那个的话)
如果联系的知识太长那还得加卡。
我自己测大概就是qwen3 235B thinking>qwen3 235B non-thinking>qwen3 30B thinking>qwen3 30B non-thinking>Hunyuan 80B A13B>KATv1 40B
(如果带上2507,我也测了,排序依旧差不多,但需要注意2507把模型分开了,此外32B的水准大概和30B差不多,我懒得多次跑然后取平均)
测试集是百度Xuanyuan用的然后我改了改测试脚本,实际上有概率误判,理想情况是由另外一个llm判断结果(之前有人测试过好像是qwen2.5 72B就能做到几乎0误判,但太费时间了)
推理框架是lmdeploy,双卡A3000laptop 12G现在能单请求100token/s,64并发大概1300~1400,总吞吐5000
vllm则是总吞吐过于离谱(它的缓存命中到测试后面都来到90%+以至于吞吐快9000……),提升并发数的单请求输出速度提升太慢,输出极限大概在lmdeploy的八成左右
fastllm的输出极限是前面两个的零头,吞吐勉强2200左右,超过一定程度开始倒挂
ik_llama并发和llama.cpp差不多弱,性能倒挂

千万不要考虑cpu+gpu,我测个股票分红问题能跑接近两个小时(32768总长度的话),是235B IQ4用ik_llama跑的,速度大概10~12(虽然最后都掉到了5还是3来着)

但有了性能,你更需要的是实现功能的软件或者借助现有工具实现的工作流,此外知识库也得想办法整理
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-10-13 03:16 , Processed in 0.007544 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表