Chiphell - 分享与交流用户体验

标题: 新手本地LLM折腾分享 第二弹 [打印本页]

作者: 秦南瓜    时间: 2025-2-27 19:45
标题: 新手本地LLM折腾分享 第二弹
本帖最后由 秦南瓜 于 2025-2-27 19:50 编辑

前情提要:https://www.chiphell.com/thread-2671875-1-1.html

俩2080ti很快就出掉了,因为我发现44G显存装不下70B Q4,实际推理速度就7~8token/s
这次搞了俩cpu方案和一个双4090(D)方案,看看效果
(, 下载次数: 94)
(, 下载次数: 69)


测试模型&问题:
ollama huihui_deepseek r1  70B Q4 43GB,32B Q4 20GB,  14B Q4 9GB,
1,你是谁
2,人生十大建议


测试对象&数据:

1,9600x pbo+200  6c12t 64G 6000c30 无显卡  
文字生成时的cpu频率:5.5-5.55Ghz

70b
你是谁1.61 token/s
人生十大建议1.57 token/s

32b
你是谁3.37 token/s
人生十大建议3.27 token/s

14b
你是谁7.82 token/s
人生十大建议7.5 token/s


2,9800x3d pbo +200 8c16t 64G 6000c30 40 40 104 从这个测试可见,消费级x3d在这种工况下没啥卵用,甚至多出来的2c4t都没卵用
文字生成频率5.4-5.45

70b
你是谁1.61 token/s
人生十大建议1.57 token/s

32b
你是谁3.48 token/s
人生十大建议3.4 token/s

14b
你是谁7.77 token/s
人生十大建议7.53 token/s

3,9800x3d pbo +200 8c16t 64G 6000c28 36 36 36  这个测试是对比不同时序,时序收紧确实能提升推理速度
文字生成时的cpu频率:5.4-5.45Ghz

70b
你是谁1.63 token/s
人生十大建议1.59 token/s

32b
你是谁3.50 token/s
人生十大建议3.41 token/s

14b
你是谁7.8 token/s
人生十大建议7.57 token/s

4,X299 4090+4090D 48G GDDR6X(PCIE3.0,4090D主卡推理,因为调换位置机箱塞不下 )双卡显存OC+1500  要速度还得是GPU

70b
你是谁 21.01 token/s
人生十大建议20.44 token/s

32b
你是谁43.03 token/s
人生十大建议42.54 token/s

14b
你是谁78.58 token/s
人生十大建议77.89 token/s



以上,仅供参考

作者: SkyGZO    时间: 2025-2-27 19:47
写一下Q几吧,方便详细对比
作者: 秦南瓜    时间: 2025-2-27 19:50
SkyGZO 发表于 2025-2-27 19:47
写一下Q几吧,方便详细对比

更新了,都是Q4
作者: YsHaNg    时间: 2025-2-27 19:56
要不换llama.cpp吧 ollama太拉了
作者: os39000    时间: 2025-2-27 19:57
速度好快
作者: 秦南瓜    时间: 2025-2-27 20:00
YsHaNg 发表于 2025-2-27 19:56
要不换llama.cpp吧 ollama太拉了

主要还是傻瓜

llamacpp 速度有差异不?
作者: YsHaNg    时间: 2025-2-27 20:06
秦南瓜 发表于 2025-2-27 12:00
主要还是傻瓜

llamacpp 速度有差异不?

有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层优化 项目本身也是几个不太懂c的人开的坑 现在open webui社区都在尽量摆脱ollama 期待实现direct llama.cpp api
作者: 秦南瓜    时间: 2025-2-27 20:19
YsHaNg 发表于 2025-2-27 20:06
有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层 ...

学习了,那。。lm studio咋样呢?
作者: YsHaNg    时间: 2025-2-27 20:31
秦南瓜 发表于 2025-2-27 12:19
学习了,那。。lm studio咋样呢?

lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://github.com/CherryHQ/cherry-studio
我比较喜欢http+pwa的实现 再加上open webui生态好 docker一键拉全在服务器上 用户端有个浏览器就能用
当然追求生产部署开源后端推理框架都是草履虫 也就vllm transformers能看一些 等社区消化deepseek这5天的产出吧
作者: 秦南瓜    时间: 2025-2-27 20:33
YsHaNg 发表于 2025-2-27 20:31
lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://g ...

感谢大佬!我就等等整合包吧哈哈哈
作者: longyuyan    时间: 2025-2-27 20:33
学习了,买不起显卡折腾
作者: LNT    时间: 2025-2-27 20:56
双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s
作者: 秦南瓜    时间: 2025-2-27 20:58
LNT 发表于 2025-2-27 20:56
双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s

是的。就叠个显存。。嗯?那岂不是4090+3090也行??
作者: LNT    时间: 2025-2-27 21:10
秦南瓜 发表于 2025-2-27 20:58
是的。就叠个显存。。嗯?那岂不是4090+3090也行??

双3090也有16个tokens/s...结合部署难度,主板需求,电源需求。。。还是单4090 48G吧。。。70b跑一下还剩3~4G的显存,一般的上下文也够了
作者: enolc    时间: 2025-2-27 21:21
X299的CPU是啥?
作者: DoubleWood    时间: 2025-2-27 21:22
你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为啥要用至强、epyc,还要组双路?
作者: 秦南瓜    时间: 2025-2-27 21:43
DoubleWood 发表于 2025-2-27 21:22
你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为 ...

拜托看贴看全。。。。。这是对比9800x3d和9600x,说的是3d缓存这个工况没卵用
作者: testmepro    时间: 2025-2-27 21:43
本帖最后由 testmepro 于 2025-2-27 21:55 编辑
秦南瓜 发表于 2025-2-27 20:00
主要还是傻瓜

llamacpp 速度有差异不?


我记着我好像说过..此条作废
作者: 秦南瓜    时间: 2025-2-27 21:43
enolc 发表于 2025-2-27 21:21
X299的CPU是啥?

10900X ES QSTZ 全核心4.9




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5