找回密码
 加入我们
搜索
      
楼主: 秦南瓜

[显卡] 新手本地部署LLM的一些问题

[复制链接]
 楼主| 发表于 2025-2-5 10:59 | 显示全部楼层
kuram 发表于 2025-2-5 10:55
第一没什么用  只有最大B的有用  ,他解决的是你现在访问人数太多,每次访问Speedseek 无响应的问题

第二 ...
(模型啥的不重要。其实还是给折腾显卡一个理由


玩具而已
发表于 2025-2-5 11:06 | 显示全部楼层
第一 还有就是你要跑量化 得买WIND数据库 一般1年WIND的使用费用在10W ,

第二 如果是量化的话 基本显存越大越好 并不需要多强的算力,比如48G
 楼主| 发表于 2025-2-5 11:08 | 显示全部楼层
kuram 发表于 2025-2-5 11:06
第一 还有就是你要跑量化 得买WIND数据库 一般1年WIND的使用费用在10W ,

第二 如果是量化的话 基本显存越 ...

额,不是股票量化。。。。

我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度
发表于 2025-2-5 11:11 | 显示全部楼层
建议等等AMD的AI 395 128G
发表于 2025-2-5 11:40 | 显示全部楼层
秦南瓜 发表于 2025-2-5 11:08
额,不是股票量化。。。。

我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度 ...

首先, deep seek R1 模型原版大小由638B,也就是大概600多G 大小。

72B的版本 是使用第三方 Qwen 2.5 模型 重新训练的蒸馏模型, 还是有些区别的。


关于量化,简单说,就是模型权重(浮点数)的存储精度进行简化,比如默认是16bit ,那么72B的参数大概需要 144GB显存, 如果改成8bit精度,那么72B模型大概就需要72G显存。

另一种量化是直接减少参数数量,比如 32B ,7B 等直接降低参数量,就可以大幅度精简大小,提高速度,不过会牺牲模型输出精度



可以参考qwen 官方的评测说明, https://qwen.readthedocs.io/zh-c ... tion_benchmark.html
发表于 2025-2-5 11:52 | 显示全部楼层
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token  然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...

爆显存,会转移到内存,就会非常慢
发表于 2025-2-5 11:53 | 显示全部楼层
nepdaisuki 发表于 2025-2-5 11:52
爆显存,会转移到内存,就会非常慢

我办公机器是 8600g   64g内存 已经升级了amd最新的25.1.11驱动,一会部署个amd推荐的14b模型试试
 楼主| 发表于 2025-2-5 12:35 | 显示全部楼层
gyc 发表于 2025-2-5 11:40
首先, deep seek R1 模型原版大小由638B,也就是大概600多G 大小。

72B的版本 是使用第三方 Qwen 2.5  ...

感谢解释~~
发表于 2025-2-5 14:20 | 显示全部楼层
https://ollama.com/library/deepseek-r1/tags

总有一款适合你
富哥买苹果集群吧,部署671b Q4_K_M量化的版本,不过也要404GB内存
 楼主| 发表于 2025-2-6 10:10 | 显示全部楼层
Barcelona 发表于 2025-2-5 14:20
总有一款适合你
富哥买苹果集群吧,部署671b Q4_K_M量化的版本,不过也要404GB内存 ...

3w兜不住吧
发表于 2025-2-6 10:27 | 显示全部楼层

目前来看,3w最多能买128GB的苹果。2台mac mini M4 pro 64GB,15499 * 2。mac studio还没更新
 楼主| 发表于 2025-2-6 10:32 | 显示全部楼层
Barcelona 发表于 2025-2-6 10:27
目前来看,3w最多能买128GB的苹果。2台mac mini M4 pro 64GB,15499 * 2。mac studio还没更新 ...

确实,可以等等,也期待一下amd的 aimax,
发表于 2025-2-6 11:04 | 显示全部楼层
秦南瓜 发表于 2025-2-6 10:32
确实,可以等等,也期待一下amd的 aimax,
  1. https://www.ollama.com/SIGJNF/deepseek-r1-671b-1.58bit
复制代码

现在又有1.58bit量化版本了,需要140GB显存
发表于 2025-2-6 11:09 | 显示全部楼层
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。
 楼主| 发表于 2025-2-6 11:10 | 显示全部楼层
lasx 发表于 2025-2-6 11:09
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。

全跑cpu上了。。现存太少
 楼主| 发表于 2025-2-6 11:10 | 显示全部楼层
Barcelona 发表于 2025-2-6 11:04
现在又有1.58bit量化版本了,需要140GB显存

这会不会笨死。。。
发表于 2025-2-6 11:14 | 显示全部楼层
秦南瓜 发表于 2025-2-6 11:10
全跑cpu上了。。现存太少

不会,显存也用了,就是共享内存过去了
发表于 2025-2-6 11:14 | 显示全部楼层
2080ti 22g 跑32B  大概有20 tokens , 再配合chatbox,真是新手必备,无脑安装,
 楼主| 发表于 2025-2-6 11:17 | 显示全部楼层
lasx 发表于 2025-2-6 11:14
不会,显存也用了,就是共享内存过去了

是这样。会吃显存,但是cpu在算
发表于 2025-2-6 11:18 | 显示全部楼层
秦南瓜 发表于 2025-2-6 11:17
是这样。会吃显存,但是cpu在算

我去,是这样吗?跑14b就很快。
 楼主| 发表于 2025-2-6 11:20 | 显示全部楼层
lasx 发表于 2025-2-6 11:18
我去,是这样吗?跑14b就很快。

对呀,不然怎么会那么慢。。。
发表于 2025-2-6 11:24 | 显示全部楼层
本帖最后由 lasx 于 2025-2-6 11:36 编辑
秦南瓜 发表于 2025-2-6 11:20
对呀,不然怎么会那么慢。。。


我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作,但都没吃满。
t1.png
我内存只有64G,共享显存为0,直接走内存了。
t2.png
32b模型共享显存有数据。
发表于 2025-2-6 11:32 | 显示全部楼层
秦南瓜 发表于 2025-2-6 11:10
这会不会笨死。。。

现在并不清楚选量化模型和蒸馏模型哪个更好,反正蒸馏再量化的肯定最差
发表于 2025-2-6 11:49 | 显示全部楼层
70B感觉没有32b聪明。。
发表于 2025-2-6 12:21 | 显示全部楼层
lasx 发表于 2025-2-6 11:24
我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作,但都没吃满。

我内存只有64G,共享显存 ...

llama.cpp 工作机制好像是 如果模型无法加载到GPU中运行,那么直接使用CPU开始推理。

12G显存适合运行 7B-int8 量化或者 14B-int4 量化了。
发表于 2025-2-6 12:22 | 显示全部楼层
lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。

这个不好说,不过具体看模型, 有些量化模型,使用 CPU加载的回答与使用GPU加载回答不太一样。
 楼主| 发表于 2025-2-6 12:28 | 显示全部楼层
lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。

太慢了。导致智商不足
发表于 2025-2-6 13:04 | 显示全部楼层
gyc 发表于 2025-2-6 12:21
llama.cpp 工作机制好像是 如果模型无法加载到GPU中运行,那么直接使用CPU开始推理。

12G显存适合运行 7 ...

是的。cpu吐字的数量也少很多。
发表于 2025-2-6 14:25 | 显示全部楼层
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token  然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...

7b 拿cpu都随便跑
发表于 2025-2-6 14:55 | 显示全部楼层
如果只是想70b玩玩,那么你现有的3090/ 4090 搭配一张新的2080 ti 22G 差不多

如果以后想要玩的high且只考虑LLM,那rtx 8000 48G起

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 19:10 , Processed in 0.013689 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表