求教如何选购本地AI部署的硬件系统（超级私人秘书），5090或者Mac Studio Ultra3等

powerduke · 发表于 2025-7-30 17:33

la814273 发表于 2025-7-30 11:10
别用70b，类似尺寸有腾讯的混元80ba13b和智谱的106ba12b，比之前dense的70b能力强很多还快很多，ds蒸馏的70 ...

下来试试看

powerduke · 发表于 2025-7-31 13:11

la814273 发表于 2025-7-30 23:44
智谱的前天才出，llama.cpp还没优化好，估计还得三四天才有完整环境

近期试了下qwen3-30b-a3b-2507，moe这种确实可以让模型的显存占用大大减少，多出来的显存可以把上下文长度设置的更大，生成速度也能保证几十个tps（双A770），所以很想试试12b这种moe模型如何

powerduke · 发表于 2025-7-31 13:57

la814273 发表于 2025-7-31 13:36
混元80b-a13b q4在我机器上(8通道3200内存)输出速度是20token/s，显卡是5070ti，按这样算一般d5双通道640 ...

刚看到lm studio上已经有hunyuan-a13b了，q4-k-m的要49G，正在下，两台电脑都可以试试，至少主力机96G+5070ti应该和你的能达到差不多速度咯

账号		自动登录	找回密码
密码			加入我们

[装机] 求教如何选购本地AI部署的硬件系统（超级私人秘书），5090或者Mac Studio Ultra3等