找回密码
 加入我们
搜索
      
查看: 5359|回复: 23

[显卡] 尝试本地部署deepseek!

[复制链接]
发表于 2025-2-3 19:00 | 显示全部楼层 |阅读模式
随便弄了一下,4090有50多的token,1080ti只有3.5,差距好大。
不知道7900xtx能达到多少。

发表于 2025-2-3 19:05 | 显示全部楼层
部署32b的么?
发表于 2025-2-3 19:18 | 显示全部楼层
32B没可能有50 tokens啊,也就35左右
发表于 2025-2-3 19:41 | 显示全部楼层
我看B站有案例,7900xtx好像是27 t/s

32b
发表于 2025-2-3 20:06 来自手机 | 显示全部楼层
70b以下其实没啥意义,除了想自己微调训练的。
发表于 2025-2-3 20:16 | 显示全部楼层
现在的显卡显存太少了,根本跑不动deepseekR1,尼玛多模态的版本对显存要求更高,没有32G以上根本玩不起来!
显卡的显存可不可以像内存一样,有钱就插个四条八条的,不要再焊在板子上了!
老黄啊,得让我们能很容易地扩容显存啊!
发表于 2025-2-3 21:19 | 显示全部楼层
32b是渣渣千问,简单的测试了一些问题发现根本不聪明,都不如14b的phi4
发表于 2025-2-3 21:33 | 显示全部楼层
  1. total duration:       20.8055385s
  2. load duration:        18.2959ms
  3. prompt eval count:    67 token(s)
  4. prompt eval duration: 4ms
  5. prompt eval rate:     16750.00 tokens/s
  6. eval count:           557 token(s)
  7. eval duration:        20.582s
  8. eval rate:            27.06 tokens/s
复制代码

32b q4_k_m
发表于 2025-2-3 21:39 | 显示全部楼层
mac mini m4 16GB跑14b刚好合适
发表于 2025-2-3 21:47 | 显示全部楼层
这两天看着看着· 都想自己搞一个试试···

看着机箱里的2060  ·再看了下余额 ·再过段时间吧·最近想搞套自组NAS做学习用途· 反正还有10块全新6T
发表于 2025-2-4 02:17 | 显示全部楼层
70B无意义,32B渣渣。你们要求可真鸡儿高。

发表于 2025-2-4 02:21 | 显示全部楼层
uprit 发表于 2025-2-3 10:17
70B无意义,32B渣渣。你们要求可真鸡儿高。

在一个人均 4090 和 128G 内存,16T 大船起步的地方,就别讨论用途了,跑 benchmark 本身就是目标
发表于 2025-2-4 21:40 | 显示全部楼层
我在想过两年这些H100,H800大船来来的话。是不是只要几百块一片?好吧,我先睡三年等等。
发表于 2025-2-4 21:53 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-4 22:00 编辑

backend不同性能不同的,ollama比lmstudio性能要稍微好一点。虽然同为llama.cpp -> ggml,不过lmstudio的界面更加友好。
发表于 2025-2-4 22:22 | 显示全部楼层
如果说,我是说如果,恰好手上有一张7900XTX,然后又恰好买了一张5090D,那有没有一种可能让两张显卡协同跑70B呢
发表于 2025-2-4 22:59 | 显示全部楼层
你用LM Studio还是Ollma啊? 为什么我的4090跑标准的32B跑不到50多T/s?你上下文设置的多少?可以分享一下加载的参数么?
发表于 2025-2-4 23:35 | 显示全部楼层
4070s 32b大约4t/s
发表于 2025-2-5 00:41 | 显示全部楼层
ynix2002 发表于 2025-2-3 20:16
现在的显卡显存太少了,根本跑不动deepseekR1,尼玛多模态的版本对显存要求更高,没有32G以上根本玩不起来 ...

你这个要求,就等于叫老黄自宫啊,他就算挂了都不可能答应
发表于 2025-2-5 01:05 来自手机 | 显示全部楼层
刚开始流行,是不是要等下一代或者下下一代才能硬件上适配?
发表于 2025-2-5 09:23 | 显示全部楼层
本地部署了能训练吗?
发表于 2025-2-5 10:06 | 显示全部楼层
我自己用的32b的,可以用,不过跑的时候,内存 显存全满。
发表于 2025-2-5 11:17 | 显示全部楼层
FakeUberDriver 发表于 2025-2-4 22:59
你用LM Studio还是Ollma啊? 为什么我的4090跑标准的32B跑不到50多T/s?你上下文设置的多少?可以分享一下 ...

ollma貌似效率高一点点,LMstudio设置简单点
发表于 2025-2-5 11:22 | 显示全部楼层
ynix2002 发表于 2025-2-3 20:16
现在的显卡显存太少了,根本跑不动deepseekR1,尼玛多模态的版本对显存要求更高,没有32G以上根本玩不起来 ...

集显,哈哈哈
发表于 2025-2-5 12:01 | 显示全部楼层
3090 上了 25t/s
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 19:22 , Processed in 0.028707 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表