秦南瓜
发表于 2025-2-5 10:59
kuram 发表于 2025-2-5 10:55
第一没什么用只有最大B的有用,他解决的是你现在访问人数太多,每次访问Speedseek 无响应的问题
第二 ...
(模型啥的不重要。其实还是给折腾显卡一个理由[恶魔] )
玩具而已
kuram
发表于 2025-2-5 11:06
第一 还有就是你要跑量化 得买WIND数据库 一般1年WIND的使用费用在10W ,
第二 如果是量化的话 基本显存越大越好 并不需要多强的算力,比如48G
秦南瓜
发表于 2025-2-5 11:08
kuram 发表于 2025-2-5 11:06
第一 还有就是你要跑量化 得买WIND数据库 一般1年WIND的使用费用在10W ,
第二 如果是量化的话 基本显存越 ...
额,不是股票量化。。。。
我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度
cmz118
发表于 2025-2-5 11:11
建议等等AMD的AI 395 128G
gyc
发表于 2025-2-5 11:40
秦南瓜 发表于 2025-2-5 11:08
额,不是股票量化。。。。
我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度 ...
首先, deep seek R1 模型原版大小由638B,也就是大概600多G 大小。
72B的版本 是使用第三方 Qwen 2.5 模型 重新训练的蒸馏模型, 还是有些区别的。
关于量化,简单说,就是模型权重(浮点数)的存储精度进行简化,比如默认是16bit ,那么72B的参数大概需要 144GB显存, 如果改成8bit精度,那么72B模型大概就需要72G显存。
另一种量化是直接减少参数数量,比如 32B ,7B 等直接降低参数量,就可以大幅度精简大小,提高速度,不过会牺牲模型输出精度
可以参考qwen 官方的评测说明, https://qwen.readthedocs.io/zh-cn/latest/benchmark/quantization_benchmark.html
nepdaisuki
发表于 2025-2-5 11:52
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...
爆显存,会转移到内存,就会非常慢
i6wz1l
发表于 2025-2-5 11:53
nepdaisuki 发表于 2025-2-5 11:52
爆显存,会转移到内存,就会非常慢
我办公机器是 8600g 64g内存 已经升级了amd最新的25.1.11驱动,一会部署个amd推荐的14b模型试试
秦南瓜
发表于 2025-2-5 12:35
gyc 发表于 2025-2-5 11:40
首先, deep seek R1 模型原版大小由638B,也就是大概600多G 大小。
72B的版本 是使用第三方 Qwen 2.5...
感谢解释~~
Barcelona
发表于 2025-2-5 14:20
https://ollama.com/library/deepseek-r1/tags
[恶魔]总有一款适合你
富哥买苹果集群吧,部署671b Q4_K_M量化的版本,不过也要404GB内存[偷笑]
秦南瓜
发表于 2025-2-6 10:10
Barcelona 发表于 2025-2-5 14:20
总有一款适合你
富哥买苹果集群吧,部署671b Q4_K_M量化的版本,不过也要404GB内存 ...
3w兜不住吧
Barcelona
发表于 2025-2-6 10:27
秦南瓜 发表于 2025-2-6 10:10
3w兜不住吧
目前来看,3w最多能买128GB的苹果。2台mac mini M4 pro 64GB,15499 * 2。mac studio还没更新
秦南瓜
发表于 2025-2-6 10:32
Barcelona 发表于 2025-2-6 10:27
目前来看,3w最多能买128GB的苹果。2台mac mini M4 pro 64GB,15499 * 2。mac studio还没更新 ...
确实,可以等等,也期待一下amd的 aimax,
Barcelona
发表于 2025-2-6 11:04
秦南瓜 发表于 2025-2-6 10:32
确实,可以等等,也期待一下amd的 aimax,
https://www.ollama.com/SIGJNF/deepseek-r1-671b-1.58bit
现在又有1.58bit量化版本了,需要140GB显存
lasx
发表于 2025-2-6 11:09
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。
秦南瓜
发表于 2025-2-6 11:10
lasx 发表于 2025-2-6 11:09
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。
全跑cpu上了。。现存太少
秦南瓜
发表于 2025-2-6 11:10
Barcelona 发表于 2025-2-6 11:04
现在又有1.58bit量化版本了,需要140GB显存
这会不会笨死。。。
lasx
发表于 2025-2-6 11:14
秦南瓜 发表于 2025-2-6 11:10
全跑cpu上了。。现存太少
不会,显存也用了,就是共享内存过去了
chip_discovery
发表于 2025-2-6 11:14
2080ti 22g 跑32B大概有20 tokens , 再配合chatbox,真是新手必备,无脑安装,
秦南瓜
发表于 2025-2-6 11:17
lasx 发表于 2025-2-6 11:14
不会,显存也用了,就是共享内存过去了
是这样。会吃显存,但是cpu在算
lasx
发表于 2025-2-6 11:18
秦南瓜 发表于 2025-2-6 11:17
是这样。会吃显存,但是cpu在算
我去,是这样吗?跑14b就很快。
秦南瓜
发表于 2025-2-6 11:20
lasx 发表于 2025-2-6 11:18
我去,是这样吗?跑14b就很快。
对呀,不然怎么会那么慢。。。
lasx
发表于 2025-2-6 11:24
本帖最后由 lasx 于 2025-2-6 11:36 编辑
秦南瓜 发表于 2025-2-6 11:20
对呀,不然怎么会那么慢。。。
我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作,但都没吃满。
我内存只有64G,共享显存为0,直接走内存了。
32b模型共享显存有数据。
Barcelona
发表于 2025-2-6 11:32
秦南瓜 发表于 2025-2-6 11:10
这会不会笨死。。。
现在并不清楚选量化模型和蒸馏模型哪个更好,反正蒸馏再量化的肯定最差
lasx
发表于 2025-2-6 11:49
70B感觉没有32b聪明。。
gyc
发表于 2025-2-6 12:21
lasx 发表于 2025-2-6 11:24
我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作,但都没吃满。
我内存只有64G,共享显存 ...
llama.cpp 工作机制好像是 如果模型无法加载到GPU中运行,那么直接使用CPU开始推理。
12G显存适合运行 7B-int8 量化或者 14B-int4 量化了。
gyc
发表于 2025-2-6 12:22
lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。
这个不好说,不过具体看模型, 有些量化模型,使用 CPU加载的回答与使用GPU加载回答不太一样。
秦南瓜
发表于 2025-2-6 12:28
lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。
太慢了。导致智商不足
lasx
发表于 2025-2-6 13:04
gyc 发表于 2025-2-6 12:21
llama.cpp 工作机制好像是 如果模型无法加载到GPU中运行,那么直接使用CPU开始推理。
12G显存适合运行 7 ...
是的。cpu吐字的数量也少很多。
老饭
发表于 2025-2-6 14:25
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...
7b 拿cpu都随便跑
装陈醋的酱油瓶
发表于 2025-2-6 14:55
如果只是想70b玩玩,那么你现有的3090/ 4090 搭配一张新的2080 ti 22G 差不多
如果以后想要玩的high且只考虑LLM,那rtx 8000 48G起