12700k+ddr4 96g+A770 16G跑14B流畅,跑32B慢吞吞。 |
vyvix 发表于 2025-3-19 20:19 去抱脸网找找合适的模型。需科学。 |
你带起来干嘛,14B可能还不如** 3.5,直接用满血API,你充10块钱能用好久了 |
gqy2000 发表于 2025-3-19 22:19 96兆????????????? |
这速度还嫌慢啊?我137k+64g d+2060 12g还跑32b呢,速度更慢,能跑就行 |
不至于啊,我c612 2640v4 96G 内存加512M 亮机卡都可以跑14b ,不至于是硬件问题。 |
vyvix 发表于 2025-3-19 16:24 找个能给ollama传递参数的前端 pass num_gpu=0 open webui |
vyvix 发表于 2025-3-20 00:24 自动分配 |
a010301208 发表于 2025-3-19 22:45 内存直接跑更大的模型,怎么选内存跑? |
vyvix 发表于 2025-3-19 22:33 要么换大显存显卡,要么就别跑14B了,反正也爆显存了,用内存直接跑更大的模型 |
a010301208 发表于 2025-3-19 21:23 怎么解决呢? |
我的3060 TI 8G显存 +至强 W3235+96兆内存,挺快的 |
你没看见共享内存当显存了吗 |
看见有2080ti的魔改22G 商家还带保修 不知道跑个14B行不行·· |
本帖最后由 YsHaNg 于 2025-3-19 12:57 编辑 vyvix 发表于 2025-3-19 12:19 我记得ollama.com默认提供的是q4k_m 你换个q3的试试ollama run hf.co/unsloth/DeepSeek-R1-GGUF:Q3_K_M ollama show deepseek-r1:14b看看模型是不是小于显存就好 ollama ps看看跑的时候是不是100%在gpu上 13700内存带宽太小 再快容易点的办法是换llama.cpp或者一步到位vllm/transformers |
xysquare 发表于 2025-3-19 20:17 我用的是:ollama官网的deepseek-r1:14b(9.0GB),你说的在哪里下载? |
爆显存了,14B大概是13G多吧。你找个蒸馏得只有8G多的14B-Q4试试就知道了。 |
Archiver|手机版|小黑屋|Chiphell
( 沪ICP备12027953号-5 )310112100042806
GMT+8, 2025-5-21 11:50 , Processed in 0.010743 second(s), 9 queries , Gzip On, Redis On.
Powered by Discuz! X3.5 Licensed
© 2007-2024 Chiphell.com All rights reserved.