|  | 
| 本帖最后由 zhuifeng88 于 2024-1-11 18:43 编辑 
 
 效率很一般, 性价比取决于你能接受的方案以及用途
 稍微有点早的llama.cpp性能测定参考 (23年11月) https://github.com/ggerganov/llama.cpp/discussions/4167
 
 用于bs1生成:
 1. 16g单卡能跑的比较小的模型:
 a. 比较新的超低bpw量化方案的34B模型
 b. 传统一点的4/5/6bit awq/k-quant量化的13B模型
 c. fp16的7B模型(context不能大)
 2. 愿意16g多卡跑
 3. 愿意用矿渣多卡P40
 
 满足这3种任意一种情况(上述多卡包括m.2延长线外接跑pcie3.0x4之类的一切方案, pcie带宽影响对bs1 tg而言非常小), n卡性能和性价比都高得多
 不满足的话, server平台cpu推理性价比也能勉强比果子高(高出不是特别多, 除非你能接受ES之类的)
 你不能接受上面那些力大砖飞傻大黑粗的话, 那就只能果子了
 
 用于微调/大bs文章总结之类的:
 还是n卡多卡吧, 无论是性价比还是单说性能, 4060ti 16g多卡哪怕在3.0x4走pch这种法国互联下prefill都比m2ultra快
 | 
 |