新手本地LLM折腾分享

testmepro · 发表于 2025-2-13 17:24

秦南瓜发表于 2025-2-13 17:20
是的。。新手嘛，先玩傻瓜的

我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型推理服务器.

秦南瓜 · 发表于 2025-2-13 17:25

testmepro 发表于 2025-2-13 17:24
我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型 ...

哈哈，这添置装备的理由很强劲！！

williamqh · 发表于 2025-2-13 17:26

uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s，70B模型大一倍，不太可能到20t/s。

...

我m3max 128g跑r1 q8 32b也才8t/s。m4max快那么多我是不信的。

YsHaNg · 发表于 2025-2-13 17:28

威廉第三发表于 2025-2-13 03:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存，如果能实现张量并行，也许能突破10t/s ...

应该可以提升很多 ollama优化很拉和它上游llama.cpp差几十个commits 在vllm/transformer面前都是草履虫

YsHaNg · 发表于 2025-2-13 17:32

nagashinn 发表于 2025-2-13 03:55
训练的代码难度高么，我们研发说要自己训练，不知道是不是忽悠老板，拖。
训练的硬件显存就翻好几倍，给硬 ...

只做蒸馏还行 https://github.com/huggingface/open-r1 说8 H100 80G GPU takes about 3 hours

YsHaNg · 发表于 2025-2-13 17:34

nagashinn 发表于 2025-2-13 03:59
我现在是质疑研发的能力啊

都是开源的框架脚本都在那工业流水线生产只是你卡不够多不够好就只能出来个apple intelligence

YsHaNg · 发表于 2025-2-13 18:32

Oxyer 发表于 2025-2-13 05:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...

LM Studio的lms是个大前端整个js写的引擎应该默认用的是苹果mlx 别的runtime可以自己下载 llama.cpp甚至rocm

testmepro · 发表于 2025-2-27 21:45

感谢楼主无私分享,给我们准备入坑的打了个样

LY文库 · 发表于 2025-5-14 21:58

感谢楼主无私分享

q3again0605 · 发表于 2025-5-14 22:44

关于cpu还有负载的问题，第一看看gpu offload是否打满了所有层数，然后在hardware选项里你找一下Guardrails防溢出，然后选择off看看。LM studio

l泰然处之01 · 发表于 2025-5-15 05:15

首先是 Ollama 速度慢的问题，可以设置使用 NEW ENGINE，有一定的提升
另外跑模型只能是 1，2，4，8，16 这样的卡数，不然没法切分，大概多卡 TP 极限每张卡有单卡 80% 的性能
Ollama 主要是带了一个模型管理，vLLM、SGLANG 是纯粹的推理模型，极限性能很强，但都需要自己配置
现在自己玩性价比比较高的卡是 4070 Ti SUPER 16G 或者 4060 Ti 16G
如果追求性能或者有出图需求，4090 48G 最合适，4090D 48G 可能性价比会高一点
Ollama 最近一次更新后，优化了运行 Qwen3 的性能，实测双4090 48G推理 Qwen3 30B的 MoE 模型，性能提升到接近 128tokens 每秒
推理其实看内存带宽，苹果的推理差距基本和带宽成比例

l0stc0mpass · 发表于 2025-5-15 05:40

要说ai笔记本那肯定是MacBook max 级别的最有性价比啊，配合lm studio 爽的不行，lm还能轻松上传个文件简单跑下rag。要是跑mlx的那就更爽了。

账号		自动登录	找回密码
密码			加入我们

[显卡] 新手本地LLM折腾分享

浏览过的版块