找回密码
 加入我们
搜索
      

新手本地LLM折腾分享

查看数: 9139 | 评论数: 71 | 收藏 18
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2025-2-13 10:46

正文摘要:

本帖最后由 秦南瓜 于 2025-2-13 10:50 编辑 前情提要 https://www.chiphell.com/thread-2669938-1-1.html 我先买了2080ti 22G *2 试试水,只玩推理,不考虑训练。 先前我有两个搜索不到答案的疑问,折腾下来都 ...

回复

l0stc0mpass 发表于 2025-5-15 05:40
要说ai笔记本那肯定是MacBook max 级别的最有性价比啊,配合lm studio 爽的不行,lm还能轻松上传个文件简单跑下rag。要是跑mlx的那就更爽了。
l泰然处之01 发表于 2025-5-15 05:15
首先是 Ollama 速度慢的问题,可以设置使用 NEW ENGINE,有一定的提升
另外跑模型只能是 1,2,4,8,16 这样的卡数,不然没法切分,大概多卡 TP 极限每张卡有单卡 80% 的性能
Ollama 主要是带了一个模型管理,vLLM、SGLANG 是纯粹的推理模型,极限性能很强,但都需要自己配置
现在自己玩性价比比较高的卡是 4070 Ti SUPER 16G 或者 4060 Ti 16G
如果追求性能或者有出图需求,4090 48G 最合适,4090D 48G 可能性价比会高一点
Ollama 最近一次更新后,优化了运行 Qwen3 的性能,实测双4090 48G推理 Qwen3 30B的 MoE 模型,性能提升到接近 128tokens 每秒
推理其实看内存带宽,苹果的推理差距基本和带宽成比例
q3again0605 发表于 2025-5-14 22:44
关于cpu还有负载的问题,第一看看gpu offload是否打满了所有层数,然后在hardware选项里你找一下Guardrails防溢出,然后选择off看看。LM studio
LY文库 发表于 2025-5-14 21:58
感谢楼主无私分享
testmepro 发表于 2025-2-27 21:45
感谢楼主无私分享,给我们准备入坑的打了个样
YsHaNg 发表于 2025-2-13 18:32
Oxyer 发表于 2025-2-13 05:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...

LM Studio的lms是个大前端 整个js写的 引擎应该默认用的是苹果mlx 别的runtime可以自己下载 llama.cpp甚至rocm
YsHaNg 发表于 2025-2-13 17:34
nagashinn 发表于 2025-2-13 03:59
我现在是质疑研发的能力啊

都是开源的框架 脚本都在那 工业流水线生产 只是你卡不够多不够好就只能出来个apple intelligence
YsHaNg 发表于 2025-2-13 17:32
nagashinn 发表于 2025-2-13 03:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...

只做蒸馏还行 https://github.com/huggingface/open-r1 说8 H100 80G GPU takes about 3 hours
YsHaNg 发表于 2025-2-13 17:28
威廉第三 发表于 2025-2-13 03:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s ...

应该可以提升很多 ollama优化很拉 和它上游llama.cpp差几十个commits 在vllm/transformer面前都是草履虫
williamqh 发表于 2025-2-13 17:26
uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。

...

我m3max 128g跑r1 q8 32b也才8t/s。m4max快那么多我是不信的。
秦南瓜 发表于 2025-2-13 17:25
testmepro 发表于 2025-2-13 17:24
我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型 ...

哈哈,这添置装备的理由很强劲!!
testmepro 发表于 2025-2-13 17:24
秦南瓜 发表于 2025-2-13 17:20
是的。。新手嘛,先玩傻瓜的

我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型推理服务器.
秦南瓜 发表于 2025-2-13 17:20
testmepro 发表于 2025-2-13 17:19
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu ...

是的。。新手嘛,先玩傻瓜的
testmepro 发表于 2025-2-13 17:19
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu
秦南瓜 发表于 2025-2-13 17:06
21PENNY 发表于 2025-2-13 16:56
嗯,确实应该是爆显存。搜了下,3090的nvlink带宽没有比2080提升很多。

Q: What is the GeForce RTX 309 ...

是的,值得期待,而且它具备真正的便携性和低功耗。
21PENNY 发表于 2025-2-13 16:56
秦南瓜 发表于 2025-2-13 16:10
但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再 ...

嗯,确实应该是爆显存。搜了下,3090的nvlink带宽没有比2080提升很多。

Q: What is the GeForce RTX 3090 NVLink bandwidth?
A: The GeForce RTX 3090 features approximately 112.5 GB/s of NVIDIA’s latest graphics card interconnect, NVLink version three-point-zero (NVLink 3.0). It is designed for fast and efficient data transfers between multiple GPUs, greatly benefiting applications requiring high-performance computing power.

https://www.fibermall.com/blog/nvlink-compatible-cards.htm
https://huggingface.co/docs/transformers/main/perf_hardware
https://www.bilibili.com/opus/171312574558275122

要是像AMD Ryzen™ Al Max+ 395这种,核显够强,并且用四通道内存当显存,能在带宽和容量间取得一定均衡。
Oxyer 发表于 2025-2-13 16:47
uprit 发表于 2025-2-13 16:21
就是上下文的影响。上下文越长,显存占用越大,推理速度越慢。ollama默认只有2k上下文。

...

原来如此,学到了,谢谢解答
秦南瓜 发表于 2025-2-13 16:33
momoka 发表于 2025-2-13 16:31
我不懂,只能问它自己了。。。

实测7~8token/s,
满速10token/s应该能做到,就是得牺牲上下文了
秦南瓜 发表于 2025-2-13 16:32
li77leprince 发表于 2025-2-13 16:26
支持土豪楼主的探索精神!最近也在想弄两张魔改4090 48GB本地跑70B,关注楼主的后续动态~ ...

不是土豪哈。。
双4090 48相当可以,96G应该能跑70B Q8,昨天闲鱼问了一家实价20100,价格跌了3000了
momoka 发表于 2025-2-13 16:31
我不懂,只能问它自己了。。。



根据您提供的硬件配置(双2080 Ti 22GB显存,总44GB显存),运行40G的DeepSeek-R1-70B-Q4量化模型需要注意以下几点:

1. 模型显存占用估算
参数存储:Q4量化后参数体积约 35-40GB(700亿参数 × 4bit ≈ 35GB)。
推理显存需求:除了参数本身,还需为以下内容预留空间:
中间激活值(尤其长序列输入时可能占用10-20GB)
框架开销(如PyTorch的上下文管理、缓存等)
结论:
单卡22GB显存无法加载,但通过双卡模型并行(如device_map="auto"或手动分片),44GB显存理论上可以容纳模型参数,但需严格控制批次大小(batch_size=1)和序列长度(如512 tokens以内)。

2. 关键配置建议
框架选择:使用支持多卡并行的库:
# Hugging Face Transformers + Accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4")
优化策略:
启用Flash Attention:减少中间激活值占用。
限制输入长度:如max_length=512。
关闭梯度计算:推理时设置torch.no_grad()。
3. 溢出风险与应对
显存不足的表现:若显存超限,框架(如PyTorch)会尝试将部分数据交换到内存,导致推理速度大幅下降(10倍以上延迟)。
监控工具:
nvidia-smi  # 实时查看显存占用
watch -n 1 "nvidia-smi | grep -A 1 Processes"  # 每秒刷新显存使用
4. 性能预期
推理速度:双2080 Ti预计生成速度约 3-5 tokens/秒(取决于序列长度)。
对比建议:若需更高吞吐量,可考虑云端A100/H100实例(但成本显著增加)。
总结
可行但需谨慎配置:您的双2080 Ti 44GB显存可以运行该模型,但需通过多卡并行、严格控制输入长度和批次大小来避免显存溢出。建议在实际部署前进行小规模测试,逐步调整参数以平衡显存占用与性能。
秦南瓜 发表于 2025-2-13 16:30
liolio 发表于 2025-2-13 16:25
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。

期待评测,近期解禁
li77leprince 发表于 2025-2-13 16:26
支持土豪楼主的探索精神!最近也在想弄两张魔改4090 48GB本地跑70B,关注楼主的后续动态~
liolio 发表于 2025-2-13 16:25
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。
uprit 发表于 2025-2-13 16:21
Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

就是上下文的影响。上下文越长,显存占用越大,推理速度越慢。ollama默认只有2k上下文。

秦南瓜 发表于 2025-2-13 16:10
21PENNY 发表于 2025-2-13 15:59
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡 ...

但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再测
21PENNY 发表于 2025-2-13 15:59
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭”
前几天搜了篇文章看:
https://blog.csdn.net/qq_29788741/article/details/135411259

没有多卡互联DMA P2P的话,推理效率也起不来,不同卡的显存之间数据搬运总是要有CPU去参与cudaMemcpy(组织数据)。Geforce系列,最后支持PCIe P2P的是10系,个人测过两张1060和两张1080,在intel desktop测过300系、400系、500系、600系不支持,AMD desktop测过x300、x400、x500支持,测过PCIe switch PEX8747支持;而最后支持nvlink的是30系。
Oxyer 发表于 2025-2-13 14:05
秦南瓜 发表于 2025-2-13 14:02
设置差异了。 ollama我下载下来就没整webui设置,全默认用。。

这么说,也有可能..
秦南瓜 发表于 2025-2-13 14:02
Oxyer 发表于 2025-2-13 14:01
4096默认值,温度0.6-0.8,其他不动

设置差异了。 ollama我下载下来就没整webui设置,全默认用。。
Oxyer 发表于 2025-2-13 14:01
秦南瓜 发表于 2025-2-13 13:58
lm studio上下文你设置多少,这玩意设置大的话,显存占用很爆炸的,会影响速度,还有就是gpu offload记得 ...

4096默认值,温度0.6-0.8,其他不动

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-6-4 02:17 , Processed in 0.013690 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表