尝试本地部署deepseek!
随便弄了一下,4090有50多的token,1080ti只有3.5,差距好大。不知道7900xtx能达到多少。
部署32b的么? 32B没可能有50 tokens啊,也就35左右 我看B站有案例,7900xtx好像是27 t/s
32b 70b以下其实没啥意义,除了想自己微调训练的。 现在的显卡显存太少了,根本跑不动deepseekR1,尼玛多模态的版本对显存要求更高,没有32G以上根本玩不起来!
显卡的显存可不可以像内存一样,有钱就插个四条八条的,不要再焊在板子上了!
老黄啊,得让我们能很容易地扩容显存啊! 32b是渣渣千问,简单的测试了一些问题发现根本不聪明,都不如14b的phi4 total duration: 20.8055385s
load duration: 18.2959ms
prompt eval count: 67 token(s)
prompt eval duration: 4ms
prompt eval rate: 16750.00 tokens/s
eval count: 557 token(s)
eval duration: 20.582s
eval rate: 27.06 tokens/s
32b q4_k_m mac mini m4 16GB跑14b刚好合适 这两天看着看着· 都想自己搞一个试试···
看着机箱里的2060·再看了下余额 ·再过段时间吧·最近想搞套自组NAS做学习用途· 反正还有10块全新6T 70B无意义,32B渣渣。你们要求可真鸡儿高。
uprit 发表于 2025-2-3 10:17
70B无意义,32B渣渣。你们要求可真鸡儿高。
在一个人均 4090 和 128G 内存,16T 大船起步的地方,就别讨论用途了,跑 benchmark 本身就是目标 [傻笑] 我在想过两年这些H100,H800大船来来的话。是不是只要几百块一片?好吧,我先睡三年等等。 本帖最后由 我輩樹である 于 2025-2-4 22:00 编辑
backend不同性能不同的,ollama比lmstudio性能要稍微好一点。虽然同为llama.cpp -> ggml,不过lmstudio的界面更加友好。 如果说,我是说如果,恰好手上有一张7900XTX,然后又恰好买了一张5090D,那有没有一种可能让两张显卡协同跑70B呢[傻笑] 你用LM Studio还是Ollma啊? 为什么我的4090跑标准的32B跑不到50多T/s?你上下文设置的多少?可以分享一下加载的参数么? 4070s 32b大约4t/s ynix2002 发表于 2025-2-3 20:16
现在的显卡显存太少了,根本跑不动deepseekR1,尼玛多模态的版本对显存要求更高,没有32G以上根本玩不起来 ...
你这个要求,就等于叫老黄自宫啊,他就算挂了都不可能答应 刚开始流行,是不是要等下一代或者下下一代才能硬件上适配? 本地部署了能训练吗? 我自己用的32b的,可以用,不过跑的时候,内存 显存全满。 FakeUberDriver 发表于 2025-2-4 22:59
你用LM Studio还是Ollma啊? 为什么我的4090跑标准的32B跑不到50多T/s?你上下文设置的多少?可以分享一下 ...
ollma貌似效率高一点点,LMstudio设置简单点 ynix2002 发表于 2025-2-3 20:16
现在的显卡显存太少了,根本跑不动deepseekR1,尼玛多模态的版本对显存要求更高,没有32G以上根本玩不起来 ...
集显,哈哈哈 3090 上了 25t/s
页:
[1]