Chiphell - 分享与交流用户体验

标题: 新手本地LLM折腾分享 [打印本页]

作者: 秦南瓜 时间: 2025-2-13 10:46
标题: 新手本地LLM折腾分享
本帖最后由秦南瓜于 2025-2-13 10:50 编辑

前情提要 https://www.chiphell.com/thread-2669938-1-1.html

我先买了2080ti 22G *2 试试水，只玩推理，不考虑训练。
先前我有两个搜索不到答案的疑问，折腾下来都有了答案。
可能在专业人士看来是常识，作为小白真的搜不到也问不到，所以还是发出来吧，方便新手们

我目前就用了windows下ollama和lm studio两种相对而言比较傻瓜的方式玩，还没整其他环境。

1，deepseek r1 70b q4量化版本，模型大小40G，我寻思2080ti 22g*2，44g，能塞下吧？总不会溢出到内存了吧。
然后ollama跑的时候，还是会有一小部分溢出到内存，导致cpu也参与了7%的运算（如下图 ollama ps命令，不知道为啥模型这边显示46g。。正常情况下显存足够的话gpu是100%，cpu是0%）
这个情况下，双2080ti 22g，实际速度只有7.5token/s左右，到达不了tu102的满速10+ token/s，
不开nvlink的话，只有单卡gpu参与推理。插上nvlink桥，两张卡的gpu都能参与推理。但实际速度也没啥差别。都是7~8token/s。
肯定是不如张量并行，这个我接下来玩玩vllm再试试~
(, 下载次数: 72)
然后再到lm studio里面，gpu offload拉满，ollama ps下看，cpu4%，gpu96%，相比ollama稍微好点。速度能到8.3token/s，但仍未达到RTX8000（TU102 48GvRam）的10+ token/s

2，我尝试了4090+2080ti 22g组合，解答了我先前一个疑问：
【是否可以不同型号的显卡插在同一个机器上一起跑LLM推理？如果可以的话，其中性能较低的卡是否会造成瓶颈？】
果然没便宜可占。。。4090+2080ti，就算推理在4090上跑，速度也仍然只有10token/s。这边速度卡着tu102的10token/s（24+22g比上面44g大了2g，模型就不溢出到内存了。速度也就正常了。草）说明瓶颈还是在更弱的卡上面。所以拿4090跑推理，插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭
(, 下载次数: 62) 。
(, 下载次数: 58)

作者: KimmyGLM 时间: 2025-2-13 10:54
所以最快的办法还是4090 48G，保证不要溢出到内存里即可；
便宜的下位替代还有W7900 48G

作者: 秦南瓜 时间: 2025-2-13 10:58
本帖最后由秦南瓜于 2025-2-13 11:02 编辑

KimmyGLM 发表于 2025-2-13 10:54
所以最快的办法还是4090 48G，保证不要溢出到内存里即可；
便宜的下位替代还有W7900 48G ...

409048g确实可，但目前价格&性能平衡的比较好的应该是双3090方案，推理速度相比双4090弱了不到20%，价格就双4090或者409048G的30~40%

w7900我之前搜到一篇文章，那个老哥双w7900，但在prompt processing阶段。。。被4090啥的倍杀。性价比也还不错

https://blog.hjc.im/dual-w7900ds-llm-preliminary-experience.html

作者: KimmyGLM 时间: 2025-2-13 11:01

秦南瓜发表于 2025-2-13 10:58
409048g确实可，但目前价格&性能平衡的比较好的应该是双3090方案，推理速度相比双4090弱了不到20%，价格 ...

惨，显存方案跑LLM，目前哪家都不便宜，而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧

作者: 秦南瓜 时间: 2025-2-13 11:02

KimmyGLM 发表于 2025-2-13 11:01
惨，显存方案跑LLM，目前哪家都不便宜，而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧 ...

我刚看了下文章，编辑了。text generation阶段w7900表现可以的，

作者: agrant 时间: 2025-2-13 11:03
没在命令行看，在任务管理器看，不知道准不准
同样是32B，LM Studio全部放的进显存，3t/s左右
ollama不知道算不算溢出到内存，4t/s左右
下载途径不同，两个32B的模型应该不完全一样
还有LM Studio稍微调过一些设置，ollama默认设置

(, 下载次数: 59)
(, 下载次数: 43)

作者: manwomans 时间: 2025-2-13 11:08
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了

作者: 李吃吃 时间: 2025-2-13 11:09
这个有点高端了

作者: 秦南瓜 时间: 2025-2-13 11:10
本帖最后由秦南瓜于 2025-2-13 11:11 编辑

agrant 发表于 2025-2-13 11:03
没在命令行看，在任务管理器看，不知道准不准
同样是32B，LM Studio全部放的进显存，3t/s左右
ollama不知道 ...

32B Q4量化会吃21g显存，Q5量化会吃23G显存

你这个 3~4token/s太慢了，很显然是cpu在跑。。gpu只吃了显存，核心没怎么参与跑推理

A4000 16G显存玩14B性能表现会很好，虽然14b会笨不少，但32b也没聪明多少哈哈哈

作者: 秦南瓜 时间: 2025-2-13 11:10

manwomans 发表于 2025-2-13 11:08
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了 ...

是的。。。还是得加卡！！！！

作者: 港城钢铁侠 时间: 2025-2-13 11:18
据说满血m4 max跑70b速度很快，毕竟带宽500多GB/s

，价格3个W

作者: agrant 时间: 2025-2-13 11:19

秦南瓜发表于 2025-2-13 11:10
32B Q4量化会吃21g显存，Q5量化会吃23G显存

你这个 3~4token/s太慢了，很显然是cpu在跑。。gpu只吃了显 ...

嗯嗯，试试向上够不够得着跑32B，仅仅能跑，但是太慢，估计只能退一步跑14B了
图个折腾

作者: 秦南瓜 时间: 2025-2-13 11:21

agrant 发表于 2025-2-13 11:19
嗯嗯，试试向上够不够得着跑32B，仅仅能跑，但是太慢，估计只能退一步跑14B了
图个折腾 ...

折腾才是乐趣，越狱模型花样不少的

作者: 威廉第三 时间: 2025-2-13 11:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存，如果能实现张量并行，也许能突破10t/s

作者: 秦南瓜 时间: 2025-2-13 11:23

威廉第三发表于 2025-2-13 11:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存，如果能实现张量并行，也许能突破10t/s ...

可能有机会。。。待我再摸索摸索。
张量并行两张都跑满那必然是远超10t/s

作者: 秦南瓜 时间: 2025-2-13 11:25

港城钢铁侠发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快，毕竟带宽500多GB/s，价格3个W

下一步换双3090了。四分之一价格达到17token/s，自己玩玩嘎嘎够了

作者: 港城钢铁侠 时间: 2025-2-13 11:29

秦南瓜发表于 2025-2-13 11:25
下一步换双3090了。四分之一价格达到17token/s，自己玩玩嘎嘎够了

别忘了功耗也起飞了，说实话，真要自己部署并且7*24小时开着我肯定选苹果

作者: 秦南瓜 时间: 2025-2-13 11:30

港城钢铁侠发表于 2025-2-13 11:29
别忘了功耗也起飞了，说实话，真要自己部署并且7*24小时开着我肯定选苹果 ...

功耗问题不大。不太在意。。

家里空调365*24的，电脑洒洒水啦

作者: 港城钢铁侠 时间: 2025-2-13 11:46

秦南瓜发表于 2025-2-13 11:30
功耗问题不大。不太在意。。

家里空调365*24的，电脑洒洒水啦

活捉大土豪。正常家里这两个设备的7*24开机的话电费差距每年几千块了

作者: nagashinn 时间: 2025-2-13 11:55
训练的代码难度高么，我们研发说要自己训练，不知道是不是忽悠老板，拖。
训练的硬件显存就翻好几倍，给硬件的找事啊

作者: 秦南瓜 时间: 2025-2-13 11:56

nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么，我们研发说要自己训练，不知道是不是忽悠老板，拖。
训练的硬件显存就翻好几倍，给硬 ...

企业业务训练需求的话。租云算力呗。搞硬件实在是不划算

作者: nagashinn 时间: 2025-2-13 11:59

秦南瓜发表于 2025-2-13 11:56
企业业务训练需求的话。租云算力呗。搞硬件实在是不划算

我现在是质疑研发的能力啊

作者: uprit 时间: 2025-2-13 12:13

港城钢铁侠发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快，毕竟带宽500多GB/s，价格3个W

快个鸡毛，最多也就10t/s的水平

作者: 港城钢铁侠 时间: 2025-2-13 12:44

uprit 发表于 2025-2-13 12:13
快个鸡毛，最多也就10t/s的水平

【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffzQ
B站up自己测的20Token/s怎么说？

作者: 秦南瓜 时间: 2025-2-13 12:47

港城钢铁侠发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

卧槽。能到20t/s？！！！心动了

作者: 秦南瓜 时间: 2025-2-13 12:53

港城钢铁侠发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

Q8量化6.76token/s
Q4量化10token/s

(, 下载次数: 72) (, 下载次数: 58)

作者: uprit 时间: 2025-2-13 12:57

港城钢铁侠发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s，70B模型大一倍，不太可能到20t/s。

作者: dikuf001 时间: 2025-2-13 12:57
这么折腾，不如去腾讯云注册一个用户，花很少的钱就能跑满血的deepseek r1

作者: 秦南瓜 时间: 2025-2-13 12:58

dikuf001 发表于 2025-2-13 12:57
这么折腾，不如去腾讯云注册一个用户，花很少的钱就能跑满血的deepseek r1

越狱模型，涩涩

作者: 港城钢铁侠 时间: 2025-2-13 13:00

秦南瓜发表于 2025-2-13 12:53
Q8量化6.76token/s
Q4量化10token/s

看来就是10t/s了，那个Up主乱报数据了。不过10t/s个人用也还行了

作者: 港城钢铁侠 时间: 2025-2-13 13:01

uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s，70B模型大一倍，不太可能到20t/s。

...

确实是10，楼主问了闲鱼卖家。。。看来B站Up主乱说了

作者: 秦南瓜 时间: 2025-2-13 13:01

港城钢铁侠发表于 2025-2-13 13:00
看来就是10t/s了，那个Up主乱报数据了。不过10t/s个人用也还行了

强就强在便携了。这玩意属于有需求就是质变

作者: 港城钢铁侠 时间: 2025-2-13 13:03

秦南瓜发表于 2025-2-13 13:01
强就强在便携了。这玩意属于有需求就是质变

等一波M4 ultra mac studio看看内存带宽有惊喜

作者: 秦南瓜 时间: 2025-2-13 13:05

港城钢铁侠发表于 2025-2-13 13:03
等一波M4 ultra mac studio看看内存带宽有惊喜

容量带宽起飞必然有惊喜。就是价格感人。。。三路四路4090 48G的开销了

作者: ScjMitsui 时间: 2025-2-13 13:09

nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么，我们研发说要自己训练，不知道是不是忽悠老板，拖。
训练的硬件显存就翻好几倍，给硬 ...

几位数预算啊就想训练。。

作者: Oxyer 时间: 2025-2-13 13:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢

作者: 秦南瓜 时间: 2025-2-13 13:25

Oxyer 发表于 2025-2-13 13:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...

额，为啥？这玩意还有快乐表的嘛。。。

作者: Oxyer 时间: 2025-2-13 13:46

秦南瓜发表于 2025-2-13 13:25
额，为啥？这玩意还有快乐表的嘛。。。

不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

作者: 秦南瓜 时间: 2025-2-13 13:48

Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

显示速度都一样，体感有差别？还是说实际跑的速度就不一样的。。

作者: Oxyer 时间: 2025-2-13 13:48

秦南瓜发表于 2025-2-13 13:48
显示速度都一样，体感有差别？还是说实际跑的速度就不一样的。。

实际跑的速度能明显感觉出来

作者: 秦南瓜 时间: 2025-2-13 13:50

Oxyer 发表于 2025-2-13 13:48
实际跑的速度能明显感觉出来

你说的llm是lm studio吗，应该是设置问题

作者: Oxyer 时间: 2025-2-13 13:55

秦南瓜发表于 2025-2-13 13:50
你说的llm是lm studio吗，应该是设置问题

是的

作者: 秦南瓜 时间: 2025-2-13 13:58

Oxyer 发表于 2025-2-13 13:55
是的

lm studio上下文你设置多少，这玩意设置大的话，显存占用很爆炸的，会影响速度，还有就是gpu offload记得拉满

作者: Oxyer 时间: 2025-2-13 14:01

秦南瓜发表于 2025-2-13 13:58
lm studio上下文你设置多少，这玩意设置大的话，显存占用很爆炸的，会影响速度，还有就是gpu offload记得 ...

4096默认值,温度0.6-0.8,其他不动

作者: 秦南瓜 时间: 2025-2-13 14:02

Oxyer 发表于 2025-2-13 14:01
4096默认值,温度0.6-0.8,其他不动

设置差异了。 ollama我下载下来就没整webui设置，全默认用。。

作者: Oxyer 时间: 2025-2-13 14:05

秦南瓜发表于 2025-2-13 14:02
设置差异了。 ollama我下载下来就没整webui设置，全默认用。。

这么说,也有可能..

作者: 21PENNY 时间: 2025-2-13 15:59
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理，插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭”
前几天搜了篇文章看：
https://blog.csdn.net/qq_29788741/article/details/135411259

没有多卡互联DMA P2P的话，推理效率也起不来，不同卡的显存之间数据搬运总是要有CPU去参与cudaMemcpy（组织数据）。Geforce系列，最后支持PCIe P2P的是10系，个人测过两张1060和两张1080，在intel desktop测过300系、400系、500系、600系不支持，AMD desktop测过x300、x400、x500支持，测过PCIe switch PEX8747支持；而最后支持nvlink的是30系。

作者: 秦南瓜 时间: 2025-2-13 16:10

21PENNY 发表于 2025-2-13 15:59
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理，插多张便宜2080ti当显存池的想法也破产了。更高级别的卡 ...

但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再测

作者: uprit 时间: 2025-2-13 16:21

Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

就是上下文的影响。上下文越长，显存占用越大，推理速度越慢。ollama默认只有2k上下文。

作者: liolio 时间: 2025-2-13 16:25
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。

作者: li77leprince 时间: 2025-2-13 16:26
支持土豪楼主的探索精神！最近也在想弄两张魔改4090 48GB本地跑70B，关注楼主的后续动态~

作者: 秦南瓜 时间: 2025-2-13 16:30

liolio 发表于 2025-2-13 16:25
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。

期待评测，近期解禁

作者: momoka 时间: 2025-2-13 16:31
我不懂，只能问它自己了。。。

根据您提供的硬件配置（双2080 Ti 22GB显存，总44GB显存），运行40G的DeepSeek-R1-70B-Q4量化模型需要注意以下几点：

1. 模型显存占用估算
参数存储：Q4量化后参数体积约 35-40GB（700亿参数 × 4bit ≈ 35GB）。
推理显存需求：除了参数本身，还需为以下内容预留空间：
中间激活值（尤其长序列输入时可能占用10-20GB）
框架开销（如PyTorch的上下文管理、缓存等）
结论：
单卡22GB显存无法加载，但通过双卡模型并行（如device_map="auto"或手动分片），44GB显存理论上可以容纳模型参数，但需严格控制批次大小（batch_size=1）和序列长度（如512 tokens以内）。

2. 关键配置建议
框架选择：使用支持多卡并行的库：
# Hugging Face Transformers + Accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4")
优化策略：
启用Flash Attention：减少中间激活值占用。
限制输入长度：如max_length=512。
关闭梯度计算：推理时设置torch.no_grad()。
3. 溢出风险与应对
显存不足的表现：若显存超限，框架（如PyTorch）会尝试将部分数据交换到内存，导致推理速度大幅下降（10倍以上延迟）。
监控工具：
nvidia-smi # 实时查看显存占用
watch -n 1 "nvidia-smi | grep -A 1 Processes" # 每秒刷新显存使用
4. 性能预期
推理速度：双2080 Ti预计生成速度约 3-5 tokens/秒（取决于序列长度）。
对比建议：若需更高吞吐量，可考虑云端A100/H100实例（但成本显著增加）。
总结
可行但需谨慎配置：您的双2080 Ti 44GB显存可以运行该模型，但需通过多卡并行、严格控制输入长度和批次大小来避免显存溢出。建议在实际部署前进行小规模测试，逐步调整参数以平衡显存占用与性能。

作者: 秦南瓜 时间: 2025-2-13 16:32

li77leprince 发表于 2025-2-13 16:26
支持土豪楼主的探索精神！最近也在想弄两张魔改4090 48GB本地跑70B，关注楼主的后续动态~ ...

不是土豪哈。。
双4090 48相当可以，96G应该能跑70B Q8

，昨天闲鱼问了一家实价20100，价格跌了3000了

作者: 秦南瓜 时间: 2025-2-13 16:33

momoka 发表于 2025-2-13 16:31
我不懂，只能问它自己了。。。

实测7~8token/s,
满速10token/s应该能做到，就是得牺牲上下文了

作者: Oxyer 时间: 2025-2-13 16:47

uprit 发表于 2025-2-13 16:21
就是上下文的影响。上下文越长，显存占用越大，推理速度越慢。ollama默认只有2k上下文。

...

原来如此,学到了,谢谢解答

作者: 21PENNY 时间: 2025-2-13 16:56

秦南瓜发表于 2025-2-13 16:10
但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再 ...

嗯，确实应该是爆显存。搜了下，3090的nvlink带宽没有比2080提升很多。

Q: What is the GeForce RTX 3090 NVLink bandwidth?
A: The GeForce RTX 3090 features approximately 112.5 GB/s of NVIDIA’s latest graphics card interconnect, NVLink version three-point-zero (NVLink 3.0). It is designed for fast and efficient data transfers between multiple GPUs, greatly benefiting applications requiring high-performance computing power.

https://www.fibermall.com/blog/nvlink-compatible-cards.htm
https://huggingface.co/docs/transformers/main/perf_hardware
https://www.bilibili.com/opus/171312574558275122

要是像AMD Ryzen™ Al Max+ 395这种，核显够强，并且用四通道内存当显存，能在带宽和容量间取得一定均衡。

作者: 秦南瓜 时间: 2025-2-13 17:06

21PENNY 发表于 2025-2-13 16:56
嗯，确实应该是爆显存。搜了下，3090的nvlink带宽没有比2080提升很多。

Q: What is the GeForce RTX 309 ...

是的，值得期待，而且它具备真正的便携性和低功耗。

作者: testmepro 时间: 2025-2-13 17:19
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu

作者: 秦南瓜 时间: 2025-2-13 17:20

testmepro 发表于 2025-2-13 17:19
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu ...

是的。。新手嘛，先玩傻瓜的

作者: testmepro 时间: 2025-2-13 17:24

秦南瓜发表于 2025-2-13 17:20
是的。。新手嘛，先玩傻瓜的

我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型推理服务器.

作者: 秦南瓜 时间: 2025-2-13 17:25

testmepro 发表于 2025-2-13 17:24
我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型 ...

哈哈，这添置装备的理由很强劲！！

作者: williamqh 时间: 2025-2-13 17:26

uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s，70B模型大一倍，不太可能到20t/s。

...

我m3max 128g跑r1 q8 32b也才8t/s。m4max快那么多我是不信的。

作者: YsHaNg 时间: 2025-2-13 17:28

威廉第三发表于 2025-2-13 03:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存，如果能实现张量并行，也许能突破10t/s ...

应该可以提升很多 ollama优化很拉和它上游llama.cpp差几十个commits 在vllm/transformer面前都是草履虫

作者: YsHaNg 时间: 2025-2-13 17:32

nagashinn 发表于 2025-2-13 03:55
训练的代码难度高么，我们研发说要自己训练，不知道是不是忽悠老板，拖。
训练的硬件显存就翻好几倍，给硬 ...

只做蒸馏还行 https://github.com/huggingface/open-r1 说8 H100 80G GPU takes about 3 hours

作者: YsHaNg 时间: 2025-2-13 17:34

nagashinn 发表于 2025-2-13 03:59
我现在是质疑研发的能力啊

都是开源的框架脚本都在那工业流水线生产只是你卡不够多不够好就只能出来个apple intelligence

作者: YsHaNg 时间: 2025-2-13 18:32

Oxyer 发表于 2025-2-13 05:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...

LM Studio的lms是个大前端整个js写的引擎应该默认用的是苹果mlx 别的runtime可以自己下载 llama.cpp甚至rocm

作者: testmepro 时间: 2025-2-27 21:45
感谢楼主无私分享,给我们准备入坑的打了个样

作者: LY文库 时间: 2025-5-14 21:58
感谢楼主无私分享

作者: q3again0605 时间: 2025-5-14 22:44
关于cpu还有负载的问题，第一看看gpu offload是否打满了所有层数，然后在hardware选项里你找一下Guardrails防溢出，然后选择off看看。LM studio

作者: l泰然处之01 时间: 2025-5-15 05:15
首先是 Ollama 速度慢的问题，可以设置使用 NEW ENGINE，有一定的提升
另外跑模型只能是 1，2，4，8，16 这样的卡数，不然没法切分，大概多卡 TP 极限每张卡有单卡 80% 的性能
Ollama 主要是带了一个模型管理，vLLM、SGLANG 是纯粹的推理模型，极限性能很强，但都需要自己配置
现在自己玩性价比比较高的卡是 4070 Ti SUPER 16G 或者 4060 Ti 16G
如果追求性能或者有出图需求，4090 48G 最合适，4090D 48G 可能性价比会高一点
Ollama 最近一次更新后，优化了运行 Qwen3 的性能，实测双4090 48G推理 Qwen3 30B的 MoE 模型，性能提升到接近 128tokens 每秒
推理其实看内存带宽，苹果的推理差距基本和带宽成比例

作者: l0stc0mpass 时间: 2025-5-15 05:40
要说ai笔记本那肯定是MacBook max 级别的最有性价比啊，配合lm studio 爽的不行，lm还能轻松上传个文件简单跑下rag。要是跑mlx的那就更爽了。

欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/)