只是推理的话可以用mac,如果考虑训练,微调模型,还是直接RTX Pro 6000吧。苹果那边基本上只能跑MLX的模型 ...
用下来基本是ik_llama.cpp最好用,fastllm长时间用工具调用不是特别稳定,作者说后面可能会优化,而且fastllm的快其实是moe层用int4量化换来的,精度损失会更大点,实际一般gguf的q4量化都不会用纯int4。如果是fastllm跑int4g128的话速度跟ik和kt比也没啥优势,三个基本都差不多 la814273 发表于 2025-7-31 00:11
用下来基本是ik_llama.cpp最好用,fastllm长时间用工具调用不是特别稳定,作者说后面可能会优化,而且fas ...
fastllm这周支持gguf了,到时候可以跑同一个模型做对比了。目前同模型ik大幅度领先kt,不过玩了一圈混合推理我又想玩纯GPU方案了,最近出的几个小模型感觉都还可以,4卡方案跑的话应该还不错。 la814273 发表于 2025-7-31 00:11
用下来基本是ik_llama.cpp最好用,fastllm长时间用工具调用不是特别稳定,作者说后面可能会优化,而且fas ...
精度损失太大就没意义了。本来本地llm需求就不高,用的时候求精不求多。 la814273 发表于 2025-7-30 23:44
智谱的前天才出,llama.cpp还没优化好,估计还得三四天才有完整环境
近期试了下qwen3-30b-a3b-2507,moe这种确实可以让模型的显存占用大大减少,多出来的显存可以把上下文长度设置的更大,生成速度也能保证几十个tps(双A770),所以很想试试12b这种moe模型如何 powerduke 发表于 2025-7-31 13:11
近期试了下qwen3-30b-a3b-2507,moe这种确实可以让模型的显存占用大大减少,多出来的显存可以把上下文长 ...
混元80b-a13b q4在我机器上(8通道3200内存)输出速度是20token/s,显卡是5070ti,按这样算一般d5双通道6400的话应该有10出头,双通道能超到8800应该有15左右,智谱4.5air速度应该跟混元a13b类似,毕竟参数也类似 la814273 发表于 2025-7-31 13:36
混元80b-a13b q4在我机器上(8通道3200内存)输出速度是20token/s,显卡是5070ti,按这样算一般d5双通道640 ...
刚看到lm studio上已经有hunyuan-a13b了,q4-k-m的要49G,正在下,两台电脑都可以试试,至少主力机96G+5070ti应该和你的能达到差不多速度咯[音乐] 本帖最后由 la814273 于 2025-7-31 21:47 编辑
powerduke 发表于 2025-7-31 13:57
刚看到lm studio上已经有hunyuan-a13b了,q4-k-m的要49G,正在下,两台电脑都可以试试,至少主力机96G+50 ...
lmstudio上大概率跑不到这个速度,可能只有一半左右(可能最近优化好点了会稍微多点),全速得linux下ik_llama.cpp
阿里昨天更新的30b 2507非常强,可以试试,而且非常快,我双5070ti上能跑到最高130每秒 本地部署量化蒸馏模型没啥意义,智商太低了,可以试试使用cpu+gpu混合推理 检索直接考虑qwen3 8b的embedding和reranker建个知识库就行,但70B不一定有32B好(假如你指的是DS蒸馏llama的那个的话)
如果联系的知识太长那还得加卡。
我自己测大概就是qwen3 235B thinking>qwen3 235B non-thinking>qwen3 30B thinking>qwen3 30B non-thinking>Hunyuan 80B A13B>KATv1 40B
(如果带上2507,我也测了,排序依旧差不多,但需要注意2507把模型分开了,此外32B的水准大概和30B差不多,我懒得多次跑然后取平均)
测试集是百度Xuanyuan用的然后我改了改测试脚本,实际上有概率误判,理想情况是由另外一个llm判断结果(之前有人测试过好像是qwen2.5 72B就能做到几乎0误判,但太费时间了)
推理框架是lmdeploy,双卡A3000laptop 12G现在能单请求100token/s,64并发大概1300~1400,总吞吐5000
vllm则是总吞吐过于离谱(它的缓存命中到测试后面都来到90%+以至于吞吐快9000……),提升并发数的单请求输出速度提升太慢,输出极限大概在lmdeploy的八成左右
fastllm的输出极限是前面两个的零头,吞吐勉强2200左右,超过一定程度开始倒挂
ik_llama并发和llama.cpp差不多弱,性能倒挂
千万不要考虑cpu+gpu,我测个股票分红问题能跑接近两个小时(32768总长度的话),是235B IQ4用ik_llama跑的,速度大概10~12(虽然最后都掉到了5还是3来着)
但有了性能,你更需要的是实现功能的软件或者借助现有工具实现的工作流,此外知识库也得想办法整理
页:
1
[2]