找回密码
 加入我们
搜索
      
楼主: loughlion

[软件] 昨天在本地部署了deepseek r1-8b\14b\32b

[复制链接]
发表于 2025-2-3 16:18 | 显示全部楼层

我下载了一个70b,四十多G,3090ti都慢的一p。跟不要说完整版的V3了
发表于 2025-2-3 16:48 | 显示全部楼层
过几天学习学习,看看能不能把项目可研报告,估概预决算计算书还有环保啥的扔进去。。行的话打个报告就可以玩免费的5090了
发表于 2025-2-8 12:26 | 显示全部楼层
YEX 发表于 2025-2-3 16:48
过几天学习学习,看看能不能把项目可研报告,估概预决算计算书还有环保啥的扔进去。。行的话打个报告就可以 ...

用AI来升级AI硬件装备,正循环了~哈哈
发表于 2025-2-8 13:25 | 显示全部楼层
Oxyer 发表于 2025-2-1 22:53
因为没联网,LM的和chatbox的没法联网都这个样子。ollama+page assist打开联网就没问题。 ...

ollama+page assist打开联网没效果
发表于 2025-2-8 14:44 | 显示全部楼层
买个m4 mini 24g内存 256g的丐版,能稳定来跑32b的模型吗?速度咋样
发表于 2025-2-8 16:45 | 显示全部楼层
胡须佬 发表于 2025-2-8 13:25
ollama+page assist打开联网没效果

何以见得的?
发表于 2025-2-8 17:18 | 显示全部楼层
。。。我感觉以后小说也没得看了  全是AI写   本来就已经很烂了  以后更没法看
发表于 2025-2-8 19:22 | 显示全部楼层
70B及以下的都是QWen的finetune版本吧,推理速度上跟QWen或者llama没有本质区别吧,
得上671B的版本有MoE加持,才能看到相比其他家模型的性能优势吧
发表于 2025-2-8 20:27 | 显示全部楼层
本帖最后由 olloll 于 2025-2-8 20:29 编辑
skyfish 发表于 2025-2-8 19:22
70B及以下的都是QWen的finetune版本吧,推理速度上跟QWen或者llama没有本质区别吧,
得上671B的版本有MoE加 ...


自己部署好玩而已,,真正用会买api,,有一些整合的第三方服务商9.9美元所有模型都可以用,额度个人基本用不完
发表于 2025-2-8 20:42 | 显示全部楼层
胡须佬 发表于 2025-2-8 13:25
ollama+page assist打开联网没效果

我用火狐+page assist能联网呀
发表于 2025-2-8 22:01 | 显示全部楼层
chh-carter 发表于 2025-2-3 16:18
我下载了一个70b,四十多G,3090ti都慢的一p。跟不要说完整版的V3了

爆显存了,可能跟直接用CPU跑差别不大
发表于 2025-2-8 22:10 | 显示全部楼层
我最近也下了个玩了下 32b我试过12tok左右 70b直接慢得要死只有1.5tok 显卡w6800x 32G
发表于 2025-2-9 17:43 | 显示全部楼层
装陈醋的酱油瓶 发表于 2025-2-8 22:01
爆显存了,可能跟直接用CPU跑差别不大

我这个应该是显存不够自动分配了内存共享,一共是24G显存+20G的内存一起跑的,依然很慢。所以讲真的,本地部署其实对于家用来说,意义真不大。
发表于 2025-2-9 17:51 | 显示全部楼层
chh-carter 发表于 2025-2-9 17:43
我这个应该是显存不够自动分配了内存共享,一共是24G显存+20G的内存一起跑的,依然很慢。所以讲真的,本 ...

试试看Q4 量化的,我一张2080ti 跑32B Q4 很快
70B Q4 量化的用两张2080ti 22G 也有10+ token/s
发表于 2025-2-9 17:57 | 显示全部楼层
装陈醋的酱油瓶 发表于 2025-2-9 17:51
试试看Q4 量化的,我一张2080ti 跑32B Q4 很快
70B Q4 量化的用两张2080ti 22G 也有10+ token/s ...


我应该用的就是Q4模型,速度只有0.52

aaaa.jpg

bbb.jpg

当然这个是RTX TITAN跑出来的,不是3090ti

发表于 2025-2-9 18:38 来自手机 | 显示全部楼层
部署这玩意cpu用什么好? 刚好打算升级电脑,不带显卡控制在1万左右,求推荐配置!显卡打算4090fe或5090fe(区别大吗?)
发表于 2025-2-9 19:58 | 显示全部楼层
70B的效果会比较好 但是怎么弄呢
发表于 2025-2-10 14:49 | 显示全部楼层
chip_discovery 发表于 2025-2-1 09:33
4090 24G 只能玩32B,70B需要43G显存

PS. 32B 要求显存20G,2080ti 22g 还挺快的

请问32B的时候显存占用有多少呀
发表于 2025-2-10 15:30 | 显示全部楼层
西人街语_EX 发表于 2025-2-10 14:49
请问32B的时候显存占用有多少呀

我没有特别长的那种文本任务,任务管理器显示19.几G
发表于 2025-2-10 15:34 | 显示全部楼层
YsHaNg 发表于 2025-2-1 19:00
那你少了个ollama很强的前端 open webui是御用的 原名叫ollama webui 有前后端打包一键跑
docker run -d  ...

我用docker 部署过这个open-webui,首字延迟特别大,大概几十秒,直接用cmd输入问题就很快,搞不懂
发表于 2025-2-10 16:09 | 显示全部楼层
西人街语_EX 发表于 2025-2-10 14:49
请问32B的时候显存占用有多少呀

22G的样子
发表于 2025-2-10 16:35 来自手机 | 显示全部楼层
chip_discovery 发表于 2025-2-10 07:34
我用docker 部署过这个open-webui,首字延迟特别大,大概几十秒,直接用cmd输入问题就很快,搞不懂 ...

gui比cli慢是必然的 你可以关掉promt推荐还有input补全 默认是你当前对话模型去做这些事 如果你选择的模型机器本身跑就很慢那输入延迟也大 也可以换一个小一点的模型处理这些后台事物 在管理员-设置-界面改本地模型
发表于 2025-2-10 19:07 | 显示全部楼层
chip_discovery 发表于 2025-2-10 15:30
我没有特别长的那种文本任务,任务管理器显示19.几G

感谢,那就放心买张22g的卡玩玩了
发表于 2025-2-17 17:07 | 显示全部楼层
xjr12000 发表于 2025-2-1 13:03
671B都能跑起来,而且是无蒸馏版
价格不贵,起码比你买5090便宜

看了下,这个居然是用内存跑的,不用显卡
768G DDR5 内存
发表于 2025-2-20 13:48 | 显示全部楼层
蒸馏又是什么意思?
发表于 2025-2-20 17:12 | 显示全部楼层
AiReason 发表于 2025-2-1 10:41
我最想知道的是这几个蒸馏模型智力的区别有多大

反正1.5b的会抽风
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 04:38 , Processed in 0.013636 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表