Chiphell - 分享与交流用户体验

标题: 新手本地部署LLM的一些问题 [打印本页]

作者: 秦南瓜 时间: 2025-2-5 08:49
标题: 新手本地部署LLM的一些问题
本帖最后由秦南瓜于 2025-2-5 09:00 编辑

最近Deepseek的出圈，也点燃了👴的折腾激情。打算折腾本地部署LLM玩玩，纯小白，有一些问题搜了半天无果。来坛子问问大佬们~~

打算弄deepseek的qwen 70b。只跑推理，预算三万元以内，671b啥的不考虑太贵。
（模型啥的不重要。其实还是给折腾显卡一个理由

）

L20 48G*1       价格2w4左右
4090 48G*1    价格2w3涡轮，2w4水冷比较静音，魔改有风险
W7900 48G*1 价格1w5左右，AMD这波好像也不是不行
RTX8000 48G*1 价格1w2涡轮，9k被动散热，TU102，比较老
4090d*2          单卡价格1w3的样子，2w6，相对来说靠谱&保值一点
3090*2             单卡5300左右，默认矿
titan RTX*2    单卡3700左右，比较老了
2080ti 22G*2 单卡2400左右，不确定44G 跑70B够不够？？

其他还有v100 32G改涡轮，p100*4 chh老哥走plx switch跑mlc的骚操作。
但我就是家里玩玩，对噪音还是比较在意，这些没有常规散热方案的我先不考虑了。。。

问：
Q1，我对这些LLM的f16 Q6 Q5 Q4 之类的量化，没有什么清晰的概念，有没有推荐的科普专栏文章？
Q2，我能接受的方案基本都是总显存48G的样子。48G跑推理的话，最大是70b什么级别的量化模型？
Q3，mac 这边，96G 128G 192G大内存啥的好像也不错，是不是能跑这些模型但是很慢？
Q4，目前没搜到有人用4060ti 16G多卡、4070ti super多卡，7900xtx 多卡，感觉性价比也不错呀？为啥没人用呢。。
Q5，是否可以不同型号的显卡插在同一个机器上一起跑LLM推理？如果可以的话，其中性能较低的卡是否会造成瓶颈？

作者: kzfile 时间: 2025-2-5 09:02
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转

作者: kzfile 时间: 2025-2-5 09:05
如果不是跑越狱模型,还是买API最划算

作者: T.JOHN 时间: 2025-2-5 09:05
4090 48G，双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上，而在于环境搭建，性能调优上，光一个linux就枪毙大多小白
(, 下载次数: 39)

作者: 秦南瓜 时间: 2025-2-5 09:06

kzfile 发表于 2025-2-5 09:05
如果不是跑越狱模型,还是买API最划算

那肯定是要的

作者: 秦南瓜 时间: 2025-2-5 09:07

kzfile 发表于 2025-2-5 09:02
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转

确实慢。。不过能跑且功耗低，还能带着到处跑。也蛮爽的

作者: 秦南瓜 时间: 2025-2-5 09:08
本帖最后由秦南瓜于 2025-2-5 09:10 编辑

T.JOHN 发表于 2025-2-5 09:05
4090 48G，双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上，而在于环境搭建，性能调优上，光一 ...

是这样。。。。。我就是不懂linux的小白。打算windows ollama

3090性价比确实可以

作者: Oxyer 时间: 2025-2-5 09:09
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西

作者: kzfile 时间: 2025-2-5 09:10
个人用的话,为了显存堆GPU,会导致计算力溢出的很多,我觉得很不划算,或许可以等aimax395

作者: 秦南瓜 时间: 2025-2-5 09:11

Oxyer 发表于 2025-2-5 09:09
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西

折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了

作者: Oxyer 时间: 2025-2-5 09:13

秦南瓜发表于 2025-2-5 09:11
折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了

对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有的硬件折腾也没所谓了,但是为了折腾花这么多钱,多少有点没必要

作者: Miner 时间: 2025-2-5 09:14
量化就是降低模型的精度，以减少推理时显存的占用，70b 模型 Q4 量化后大概需要 35G 显存，Q8就是 70G，还需要KV缓存什么的。48G 的显卡能 run Q4 ，看过一个测试，参数越大的模型，量化后性能损失越少。其实这些问题你可以去问 DS，比坛友解释的好

作者: 秦南瓜 时间: 2025-2-5 09:14

Oxyer 发表于 2025-2-5 09:13
对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有 ...

主要是可以玩没限制的模型

作者: 秦南瓜 时间: 2025-2-5 09:20

Miner 发表于 2025-2-5 09:14
量化就是降低模型的精度，以减少推理时显存的占用，70b 模型 Q4 量化后大概需要 35G 显存，Q8就是 70G，还 ...

问了下DS果然给力。。。

作者: nn1122 时间: 2025-2-5 09:28
换平台，我mac mini m4 16GB能流畅跑14B，70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以

作者: 秦南瓜 时间: 2025-2-5 09:32

nn1122 发表于 2025-2-5 09:28
换平台，我mac mini m4 16GB能流畅跑14B，70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...

可以是可以，就是慢。14b相比70b来说太轻松了。

作者: nn1122 时间: 2025-2-5 09:47

秦南瓜发表于 2025-2-5 09:32
可以是可以，就是慢。14b相比70b来说太轻松了。

14b我能到10tok/s的速度，个人感觉比官网稍慢一点，我能接受

作者: luigian 时间: 2025-2-5 09:51
都是有钳人呀！
我还在用cpu跑蒸馏模型，居然也能凑活用

作者: awpak78 时间: 2025-2-5 10:12

T.JOHN 发表于 2025-2-5 09:05
4090 48G，双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上，而在于环境搭建，性能调优上，光一 ...

ollama=AI原神

4090跑原神也不增加帧率只增加电费

作者: os39000 时间: 2025-2-5 10:18
最省钱硬件可以 2080ti*2，显卡找那种闪电、evga的，7000
我自己是3090ti*2，可以下载43GB的Q4量化模型。70b还有Q2量化，26GB，这个我没试。
我手上还有个8581C，内存带宽230GB/s，跑100GB模型mistral-large，速度只有1.35tokens/s，距离理论速度差了一半。
以上都是ollama跑的。

有空再看看openvino，有没有改善。

作者: 秦南瓜 时间: 2025-2-5 10:20

os39000 发表于 2025-2-5 10:18
最省钱硬件可以 2080ti*2，显卡找那种闪电、evga的，7000
我自己是3090ti*2，可以下载43GB的Q4量化模型。70 ...

学习了~ 那后面我就找找q4的

作者: nabababa 时间: 2025-2-5 10:28
推理更考验显存，能达到48G以上显存的，gpu性能都是过剩的。大概率运行的时候显卡风扇都不转。
从这点来说，大内存的mac其实更合适一些。

作者: i6wz1l 时间: 2025-2-5 10:29

nn1122 发表于 2025-2-5 09:28
换平台，我mac mini m4 16GB能流畅跑14B，70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...

跑14b 多少token

作者: i6wz1l 时间: 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token 然后问了几次就非常慢了，部署了olloma推荐的7b，速度非常快，能满足日常使用，但是就是傻傻的

作者: nn1122 时间: 2025-2-5 10:31

i6wz1l 发表于 2025-2-5 10:29
跑14b 多少token

10，出字速度还可以，B站有个up发了视频的
https://www.bilibili.com/video/av113911474950467/

作者: 秦南瓜 时间: 2025-2-5 10:48

i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token 然后问了几次就非常慢了，部署了olloma推荐的7b，速度非常快，能满足 ...

就是因为太傻了。所以满足不了日常使用。。。

作者: ahzhf 时间: 2025-2-5 10:50
因为DeepSeek是MoE model，Threadripper/EPYC+海量RAM的方案也可以考虑一下，这样比GPU方案跑的模型更大。这几天试着在我的5995WX + 8通道DDR4 3200 256GB RAM上跑了下2.51bit动态量化版的DeepSeek R1 671B，速度有5-6 tokens/s

作者: 秦南瓜 时间: 2025-2-5 10:51

ahzhf 发表于 2025-2-5 10:50
因为DeepSeek是MoE model，Threadripper/EPYC+海量RAM的方案也可以考虑一下，这样比GPU方案跑的模型更大。 ...

不错！！我去逛逛咸鱼。你这套多少成本？

作者: ahzhf 时间: 2025-2-5 10:54

秦南瓜发表于 2025-2-5 10:51
不错！！我去逛逛咸鱼。你这套多少成本？

用的公司的workstation

作者: kuram 时间: 2025-2-5 10:55
第一没什么用只有最大B的有用，他解决的是你现在访问人数太多，每次访问Speedseek 无响应的问题

第二数据是23年12月的，除非联网不然没有新数据

第三模型要训练，没有H100 基本没得搞

作者: 秦南瓜 时间: 2025-2-5 10:59

kuram 发表于 2025-2-5 10:55
第一没什么用只有最大B的有用，他解决的是你现在访问人数太多，每次访问Speedseek 无响应的问题

第二 ...

（模型啥的不重要。其实还是给折腾显卡一个理由）

玩具而已

作者: kuram 时间: 2025-2-5 11:06
第一还有就是你要跑量化得买WIND数据库一般1年WIND的使用费用在10W ，

第二如果是量化的话基本显存越大越好并不需要多强的算力，比如48G

作者: 秦南瓜 时间: 2025-2-5 11:08

kuram 发表于 2025-2-5 11:06
第一还有就是你要跑量化得买WIND数据库一般1年WIND的使用费用在10W ，

第二如果是量化的话基本显存越 ...

额，不是股票量化。。。。

我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度

作者: cmz118 时间: 2025-2-5 11:11
建议等等AMD的AI 395 128G

作者: gyc 时间: 2025-2-5 11:40

秦南瓜发表于 2025-2-5 11:08
额，不是股票量化。。。。

我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度 ...

首先， deep seek R1 模型原版大小由638B，也就是大概600多G 大小。

72B的版本是使用第三方 Qwen 2.5 模型重新训练的蒸馏模型，还是有些区别的。

关于量化，简单说，就是模型权重（浮点数）的存储精度进行简化，比如默认是16bit ，那么72B的参数大概需要 144GB显存，如果改成8bit精度，那么72B模型大概就需要72G显存。

另一种量化是直接减少参数数量，比如 32B ,7B 等直接降低参数量，就可以大幅度精简大小，提高速度，不过会牺牲模型输出精度

可以参考qwen 官方的评测说明， https://qwen.readthedocs.io/zh-c ... tion_benchmark.html

作者: nepdaisuki 时间: 2025-2-5 11:52

i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token 然后问了几次就非常慢了，部署了olloma推荐的7b，速度非常快，能满足 ...

爆显存，会转移到内存，就会非常慢

作者: i6wz1l 时间: 2025-2-5 11:53

nepdaisuki 发表于 2025-2-5 11:52
爆显存，会转移到内存，就会非常慢

我办公机器是 8600g 64g内存已经升级了amd最新的25.1.11驱动，一会部署个amd推荐的14b模型试试

作者: 秦南瓜 时间: 2025-2-5 12:35

gyc 发表于 2025-2-5 11:40
首先， deep seek R1 模型原版大小由638B，也就是大概600多G 大小。

72B的版本是使用第三方 Qwen 2.5 ...

感谢解释~~

作者: Barcelona 时间: 2025-2-5 14:20

https://ollama.com/library/deepseek-r1/tags

总有一款适合你
富哥买苹果集群吧，部署671b Q4_K_M量化的版本，不过也要404GB内存

作者: 秦南瓜 时间: 2025-2-6 10:10

Barcelona 发表于 2025-2-5 14:20
总有一款适合你
富哥买苹果集群吧，部署671b Q4_K_M量化的版本，不过也要404GB内存 ...

3w兜不住吧

作者: Barcelona 时间: 2025-2-6 10:27

秦南瓜发表于 2025-2-6 10:10
3w兜不住吧

目前来看，3w最多能买128GB的苹果。2台mac mini M4 pro 64GB，15499 * 2。mac studio还没更新

作者: 秦南瓜 时间: 2025-2-6 10:32

Barcelona 发表于 2025-2-6 10:27
目前来看，3w最多能买128GB的苹果。2台mac mini M4 pro 64GB，15499 * 2。mac studio还没更新 ...

确实，可以等等，也期待一下amd的 aimax，

作者: Barcelona 时间: 2025-2-6 11:04

秦南瓜发表于 2025-2-6 10:32
确实，可以等等，也期待一下amd的 aimax，

https://www.ollama.com/SIGJNF/deepseek-r1-671b-1.58bit

复制代码

现在又有1.58bit量化版本了，需要140GB显存

作者: lasx 时间: 2025-2-6 11:09
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。

作者: 秦南瓜 时间: 2025-2-6 11:10

lasx 发表于 2025-2-6 11:09
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。

全跑cpu上了。。现存太少

作者: 秦南瓜 时间: 2025-2-6 11:10

Barcelona 发表于 2025-2-6 11:04
现在又有1.58bit量化版本了，需要140GB显存

这会不会笨死。。。

作者: lasx 时间: 2025-2-6 11:14

秦南瓜发表于 2025-2-6 11:10
全跑cpu上了。。现存太少

不会，显存也用了，就是共享内存过去了

作者: chip_discovery 时间: 2025-2-6 11:14
2080ti 22g 跑32B 大概有20 tokens , 再配合chatbox，真是新手必备，无脑安装，

作者: 秦南瓜 时间: 2025-2-6 11:17

lasx 发表于 2025-2-6 11:14
不会，显存也用了，就是共享内存过去了

是这样。会吃显存，但是cpu在算

作者: lasx 时间: 2025-2-6 11:18

秦南瓜发表于 2025-2-6 11:17
是这样。会吃显存，但是cpu在算

我去，是这样吗？跑14b就很快。

作者: 秦南瓜 时间: 2025-2-6 11:20

lasx 发表于 2025-2-6 11:18
我去，是这样吗？跑14b就很快。

对呀，不然怎么会那么慢。。。

作者: lasx 时间: 2025-2-6 11:24
本帖最后由 lasx 于 2025-2-6 11:36 编辑

秦南瓜发表于 2025-2-6 11:20
对呀，不然怎么会那么慢。。。

我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作，但都没吃满。
(, 下载次数: 32)
我内存只有64G,共享显存为0，直接走内存了。
(, 下载次数: 38)
32b模型共享显存有数据。

作者: Barcelona 时间: 2025-2-6 11:32

秦南瓜发表于 2025-2-6 11:10
这会不会笨死。。。

现在并不清楚选量化模型和蒸馏模型哪个更好，反正蒸馏再量化的肯定最差

作者: lasx 时间: 2025-2-6 11:49
70B感觉没有32b聪明。。

作者: gyc 时间: 2025-2-6 12:21

lasx 发表于 2025-2-6 11:24
我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作，但都没吃满。

我内存只有64G,共享显存 ...

llama.cpp 工作机制好像是如果模型无法加载到GPU中运行，那么直接使用CPU开始推理。

12G显存适合运行 7B-int8 量化或者 14B-int4 量化了。

作者: gyc 时间: 2025-2-6 12:22

lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。

这个不好说，不过具体看模型，有些量化模型，使用 CPU加载的回答与使用GPU加载回答不太一样。

作者: 秦南瓜 时间: 2025-2-6 12:28

lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。

太慢了。导致智商不足

作者: lasx 时间: 2025-2-6 13:04

gyc 发表于 2025-2-6 12:21
llama.cpp 工作机制好像是如果模型无法加载到GPU中运行，那么直接使用CPU开始推理。

12G显存适合运行 7 ...

是的。cpu吐字的数量也少很多。

作者: 老饭 时间: 2025-2-6 14:25

i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token 然后问了几次就非常慢了，部署了olloma推荐的7b，速度非常快，能满足 ...

7b 拿cpu都随便跑

作者: 装陈醋的酱油瓶 时间: 2025-2-6 14:55
如果只是想70b玩玩，那么你现有的3090/ 4090 搭配一张新的2080 ti 22G 差不多

如果以后想要玩的high且只考虑LLM，那rtx 8000 48G起

作者: 秦南瓜 时间: 2025-2-6 15:04

装陈醋的酱油瓶发表于 2025-2-6 14:55
如果只是想70b玩玩，那么你现有的3090/ 4090 搭配一张新的2080 ti 22G 差不多

如果以后想要玩的high且只考 ...

可以不同型号混搭对吧，实际推理速度如何？

作者: 装陈醋的酱油瓶 时间: 2025-2-6 17:23

秦南瓜发表于 2025-2-6 15:04
可以不同型号混搭对吧，实际推理速度如何？

70B的10token/s, 671b 1.58bit 量化的 1.23 token/s
2990wx + 192GB + 3090ti + 3090 +2080ti 22G*2 这一群虾兵蟹将

欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/)