要说ai笔记本那肯定是MacBook max 级别的最有性价比啊,配合lm studio 爽的不行,lm还能轻松上传个文件简单跑下rag。要是跑mlx的那就更爽了。 |
首先是 Ollama 速度慢的问题,可以设置使用 NEW ENGINE,有一定的提升 另外跑模型只能是 1,2,4,8,16 这样的卡数,不然没法切分,大概多卡 TP 极限每张卡有单卡 80% 的性能 Ollama 主要是带了一个模型管理,vLLM、SGLANG 是纯粹的推理模型,极限性能很强,但都需要自己配置 现在自己玩性价比比较高的卡是 4070 Ti SUPER 16G 或者 4060 Ti 16G 如果追求性能或者有出图需求,4090 48G 最合适,4090D 48G 可能性价比会高一点 Ollama 最近一次更新后,优化了运行 Qwen3 的性能,实测双4090 48G推理 Qwen3 30B的 MoE 模型,性能提升到接近 128tokens 每秒 推理其实看内存带宽,苹果的推理差距基本和带宽成比例 |
关于cpu还有负载的问题,第一看看gpu offload是否打满了所有层数,然后在hardware选项里你找一下Guardrails防溢出,然后选择off看看。LM studio |
感谢楼主无私分享 |
感谢楼主无私分享,给我们准备入坑的打了个样 |
Oxyer 发表于 2025-2-13 05:19 LM Studio的lms是个大前端 整个js写的 引擎应该默认用的是苹果mlx 别的runtime可以自己下载 llama.cpp甚至rocm |
nagashinn 发表于 2025-2-13 03:59 都是开源的框架 脚本都在那 工业流水线生产 只是你卡不够多不够好就只能出来个apple intelligence |
nagashinn 发表于 2025-2-13 03:55 只做蒸馏还行 https://github.com/huggingface/open-r1 说8 H100 80G GPU takes about 3 hours |
威廉第三 发表于 2025-2-13 03:22 应该可以提升很多 ollama优化很拉 和它上游llama.cpp差几十个commits 在vllm/transformer面前都是草履虫 |
uprit 发表于 2025-2-13 12:57 我m3max 128g跑r1 q8 32b也才8t/s。m4max快那么多我是不信的。 |
testmepro 发表于 2025-2-13 17:24 哈哈,这添置装备的理由很强劲!! |
秦南瓜 发表于 2025-2-13 17:20 我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型推理服务器. ![]() |
testmepro 发表于 2025-2-13 17:19 是的。。新手嘛,先玩傻瓜的 ![]() |
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu |
21PENNY 发表于 2025-2-13 16:56 是的,值得期待,而且它具备真正的便携性和低功耗。 |
秦南瓜 发表于 2025-2-13 16:10 嗯,确实应该是爆显存。搜了下,3090的nvlink带宽没有比2080提升很多。 Q: What is the GeForce RTX 3090 NVLink bandwidth? A: The GeForce RTX 3090 features approximately 112.5 GB/s of NVIDIA’s latest graphics card interconnect, NVLink version three-point-zero (NVLink 3.0). It is designed for fast and efficient data transfers between multiple GPUs, greatly benefiting applications requiring high-performance computing power. https://www.fibermall.com/blog/nvlink-compatible-cards.htm https://huggingface.co/docs/transformers/main/perf_hardware https://www.bilibili.com/opus/171312574558275122 要是像AMD Ryzen™ Al Max+ 395这种,核显够强,并且用四通道内存当显存,能在带宽和容量间取得一定均衡。 |
uprit 发表于 2025-2-13 16:21 原来如此,学到了,谢谢解答 |
momoka 发表于 2025-2-13 16:31 实测7~8token/s, 满速10token/s应该能做到,就是得牺牲上下文了 |
li77leprince 发表于 2025-2-13 16:26 不是土豪哈。。 双4090 48相当可以,96G应该能跑70B Q8 ![]() |
我不懂,只能问它自己了。。。 根据您提供的硬件配置(双2080 Ti 22GB显存,总44GB显存),运行40G的DeepSeek-R1-70B-Q4量化模型需要注意以下几点: 1. 模型显存占用估算 参数存储:Q4量化后参数体积约 35-40GB(700亿参数 × 4bit ≈ 35GB)。 推理显存需求:除了参数本身,还需为以下内容预留空间: 中间激活值(尤其长序列输入时可能占用10-20GB) 框架开销(如PyTorch的上下文管理、缓存等) 结论: 单卡22GB显存无法加载,但通过双卡模型并行(如device_map="auto"或手动分片),44GB显存理论上可以容纳模型参数,但需严格控制批次大小(batch_size=1)和序列长度(如512 tokens以内)。 2. 关键配置建议 框架选择:使用支持多卡并行的库: # Hugging Face Transformers + Accelerate from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4", device_map="auto") tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4") 优化策略: 启用Flash Attention:减少中间激活值占用。 限制输入长度:如max_length=512。 关闭梯度计算:推理时设置torch.no_grad()。 3. 溢出风险与应对 显存不足的表现:若显存超限,框架(如PyTorch)会尝试将部分数据交换到内存,导致推理速度大幅下降(10倍以上延迟)。 监控工具: nvidia-smi # 实时查看显存占用 watch -n 1 "nvidia-smi | grep -A 1 Processes" # 每秒刷新显存使用 4. 性能预期 推理速度:双2080 Ti预计生成速度约 3-5 tokens/秒(取决于序列长度)。 对比建议:若需更高吞吐量,可考虑云端A100/H100实例(但成本显著增加)。 总结 可行但需谨慎配置:您的双2080 Ti 44GB显存可以运行该模型,但需通过多卡并行、严格控制输入长度和批次大小来避免显存溢出。建议在实际部署前进行小规模测试,逐步调整参数以平衡显存占用与性能。 |
liolio 发表于 2025-2-13 16:25 期待评测,近期解禁 |
支持土豪楼主的探索精神!最近也在想弄两张魔改4090 48GB本地跑70B,关注楼主的后续动态~ |
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。 |
Oxyer 发表于 2025-2-13 13:46 就是上下文的影响。上下文越长,显存占用越大,推理速度越慢。ollama默认只有2k上下文。 |
21PENNY 发表于 2025-2-13 15:59 但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。 待我买两张3090+nvlink再测 ![]() |
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭” 前几天搜了篇文章看: https://blog.csdn.net/qq_29788741/article/details/135411259 没有多卡互联DMA P2P的话,推理效率也起不来,不同卡的显存之间数据搬运总是要有CPU去参与cudaMemcpy(组织数据)。Geforce系列,最后支持PCIe P2P的是10系,个人测过两张1060和两张1080,在intel desktop测过300系、400系、500系、600系不支持,AMD desktop测过x300、x400、x500支持,测过PCIe switch PEX8747支持;而最后支持nvlink的是30系。 |
秦南瓜 发表于 2025-2-13 14:02 这么说,也有可能.. |
Oxyer 发表于 2025-2-13 14:01 设置差异了。 ollama我下载下来就没整webui设置,全默认用。。 |
秦南瓜 发表于 2025-2-13 13:58 4096默认值,温度0.6-0.8,其他不动 |
Archiver|手机版|小黑屋|Chiphell
( 沪ICP备12027953号-5 )310112100042806
GMT+8, 2025-6-4 02:17 , Processed in 0.013690 second(s), 9 queries , Gzip On, Redis On.
Powered by Discuz! X3.5 Licensed
© 2007-2024 Chiphell.com All rights reserved.