昨天在本地部署了deepseek r1-8b\14b\32b

CptQ · 发表于 2025-2-1 13:19

通用小模型本地部署也就图个乐，低于32B的都太蠢了，时效性也差，而且大厂的本地模型也会有审查机制。
本地部署适合那种自己训练出来的、专业性强的、针对性使用的小模型，比如日语黄色翻译哈哈。

syringalibra · 发表于 2025-2-1 14:24

loughlion 发表于 2025-2-1 13:09
我也用了图形界面，chatbox的，ollama+chatbox会不会比LM Studio资源占用多？要是换LM是不是要收费啊？ ...

LM基础版是免费的，资源占用来说应该差不多吧，LM适合大模型尝鲜，即开即用

zhong00123 · 发表于 2025-2-1 15:10

70b蒸馏模型大概占用55G内存也可以跑，就是用CPU+内存硬跑的速度一言难尽

pj1119 · 发表于 2025-2-1 15:20

本地安装 ollama 下载一个模型，谷歌浏览器挂一个Page Assist 插件能就玩了。。。要是会科学魔法，还能联网。。

zzeng12 · 发表于 2025-2-1 15:21

楼主部署后是本地应用还是本地微调哈，我有个4070tis 16g 好像微调的话只能8b的，还要量化。现在还没时间实际操作下，想用基座模型，训练一下专门某个领域使用的模型

YJotd · 发表于 2025-2-1 18:27

搞lama吧，qwen貌似傻傻的。我试了8B 70B还可以，32B qwen反而傻傻的。

medjail · 发表于 2025-2-1 18:33

请教，本地配置有什么用处吗？

kkrace · 发表于 2025-2-1 18:53

模型的大小基本上就是使用显存的大小，32b 也只是qwen2 的蒸馏，大约20G，4090能跑的极限，纯CPU跑就看内存大小，速度看CPU核心数，家用机跑起来也就1~3个Tokens/s 基本不能忍。
不知道什么样的配置才能跑起原生R1 671b的模型。家有AMD Epyc, 1Tb 内存的大佬可以一试。

以上大小都是基于Q4_K_M 量化后的大小。

YsHaNg · 发表于 2025-2-1 18:54

loughlion 发表于 2025-2-1 01:38
就ollama提供的32b版本

默认q4 modelcard上写着

YsHaNg · 发表于 2025-2-1 19:00

loughlion 发表于 2025-2-1 05:09
我也用了图形界面，chatbox的，ollama+chatbox会不会比LM Studio资源占用多？要是换LM是不是要收费啊？ ...

那你少了个ollama很强的前端 open webui是御用的原名叫ollama webui 有前后端打包一键跑
docker run -d --gpus=all ghcr.io/open-webui/open-webui:ollama
https://github.com/open-webui/open-webui?tab=readme-ov-file#installing-open-webui-with-bundled-ollama-support

Illidan2004 · 发表于 2025-2-1 20:09

chip_discovery 发表于 2025-2-1 09:33
4090 24G 只能玩32B，70B需要43G显存

PS. 32B 要求显存20G，2080ti 22g 还挺快的

70b基于lamma的 32b基于qianwen的
70b不一定比32b优

Illidan2004 · 发表于 2025-2-1 20:11

jihuan 发表于 2025-2-1 12:42
这个都不是R1吧都是千问拿R1蒸馏的

对的真正的DeepSeek V3需要700多G显存
R1都是蒸馏其他大模型

Netdancer · 发表于 2025-2-1 20:25

kkrace 发表于 2025-2-1 18:53
模型的大小基本上就是使用显存的大小，32b 也只是qwen2 的蒸馏，大约20G，4090能跑的极限，纯CPU跑就看内 ...

买这配置，还不如租台阿里云的服务器划算

sometime · 发表于 2025-2-1 20:30

您好！当前的时间是 **2023年10月5日 9:26**。如果您需要其他帮助，请随时告诉我！

>>> 我现在时间是2025年2月1日
<think>
好，用户说“我现在时间是2025年2月1日”，这显然是一个未来的时间点。

首先，我需要理解用户的意图。他可能是在测试我的时间和数据更新能力，或者想了解在特定未来日期下我能提供哪些帮助。

接着，我会考虑如何回应。我要确认他提供的日期，并表达我对未来的展望，同时表明我会尽力根据现有知识提供相关信息。

然后，我会思考是否需要进一步询问用户的具体需求，以便更好地帮助他。比如，他可能是在规划未来的事情，或者想了解某个领域
的未来发展情况。

最后，我决定以友好和支持的态度回应，确认时间并表示愿意在2025年提供帮助，同时保持开放姿态接受更多问题。
</think>

您好！如果您现在的时间是 **2025年2月1日**，这意味着您可能处于未来或者是在某个特定的时区中。如果您有需要了解的信息或
问题，请随时告诉我，我会尽力根据我的知识和能力为您提供帮助！

为什么DEEPSEEK 告诉我时间是2023 年呢？

loughlion · 发表于 2025-2-1 20:51

YsHaNg 发表于 2025-2-1 19:00
那你少了个ollama很强的前端 open webui是御用的原名叫ollama webui 有前后端打包一键跑
docker run -d ...

open webui昨天也尝试安装了，后来听说这个操作需要7*24小时运行，否则意义不大，我没什么外网访问家里主机的需求，就放弃了

loughlion · 发表于 2025-2-1 21:02

syringalibra 发表于 2025-2-1 14:24
LM基础版是免费的，资源占用来说应该差不多吧，LM适合大模型尝鲜，即开即用 ...

下午试了LM，但是安装之后搜索deepseek，能搜到的最大就是8b，而且还找不到怎么安装model

YsHaNg · 发表于 2025-2-1 22:03

sometime 发表于 2025-2-1 12:30
您好！当前的时间是 **2023年10月5日 9:26**。如果您需要其他帮助，请随时告诉我！

>>> 我现在时间是2025 ...

自己配置联网搜索pse duckduckgo是免费的人

Kevin_Yip · 发表于 2025-2-1 22:09

loughlion 发表于 2025-2-1 21:02
下午试了LM，但是安装之后搜索deepseek，能搜到的最大就是8b，而且还找不到怎么安装model ...

用Ollama的性能釋放比LM Studio要好
另外Open WebUI你也可以用docker的形式部署在NAS或者路由器中
不過跑模型的機器是要長期開機了

nickyos · 发表于 2025-2-1 22:10

试过32b，和网上完全体差距太大了，呆的一笔

nickyos · 发表于 2025-2-1 22:10

AiReason 发表于 2025-2-1 10:41
我最想知道的是这几个蒸馏模型智力的区别有多大

和原版只能说不是一个东西

nickyos · 发表于 2025-2-1 22:11

CptQ 发表于 2025-2-1 13:19
通用小模型本地部署也就图个乐，低于32B的都太蠢了，时效性也差，而且大厂的本地模型也会有审查机制。
本地 ...

32都挺呆的，只能拿来做点翻译这类简单工作

Kevin_Yip · 发表于 2025-2-1 22:12

nickyos 发表于 2025-2-1 22:10
试过32b，和网上完全体差距太大了，呆的一笔

主要是看你怎麼使用。。。
而且本地版也沒那麼多內容限制

netlzh · 发表于 2025-2-1 22:39

我的配置和你差不多，5900x， 128G 3600， 4700ti super，同时用m1 pro 32G 和 m4 pro 48G进行测试。全部都是跑的32b
首先说一下，ollama直接可以调用macos的GPU，所以速度都比PC默认的快。

pc一定要装cuda toolkit才能开启gpu加速，提升一点速度。最后效果是 m4 mac > PC > m1 mac。

PS：m1 pro频繁用了3年多了，昨天问他几个问题，估计风扇转的圈比前几年加起来的都多。