SkyGZO 发表于 2025-2-27 19:47
写一下Q几吧,方便详细对比
YsHaNg 发表于 2025-2-27 19:56
要不换llama.cpp吧 ollama太拉了
秦南瓜 发表于 2025-2-27 12:00
主要还是傻瓜
llamacpp 速度有差异不?
YsHaNg 发表于 2025-2-27 20:06
有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层 ...
秦南瓜 发表于 2025-2-27 12:19
学习了,那。。lm studio咋样呢?
YsHaNg 发表于 2025-2-27 20:31
lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://g ...
LNT 发表于 2025-2-27 20:56
双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s
秦南瓜 发表于 2025-2-27 20:58
是的。就叠个显存。。嗯?那岂不是4090+3090也行??
DoubleWood 发表于 2025-2-27 21:22
你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为 ...
秦南瓜 发表于 2025-2-27 20:00
主要还是傻瓜
llamacpp 速度有差异不?
enolc 发表于 2025-2-27 21:21
X299的CPU是啥?
欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) | Powered by Discuz! X3.5 |