Chiphell - 分享与交流用户体验

标题: 新手本地部署LLM的一些问题 [打印本页]

作者: 秦南瓜    时间: 2025-2-5 08:49
标题: 新手本地部署LLM的一些问题
本帖最后由 秦南瓜 于 2025-2-5 09:00 编辑

最近Deepseek的出圈,也点燃了👴的折腾激情。打算折腾本地部署LLM玩玩,纯小白,有一些问题搜了半天无果。来坛子问问大佬们~~

打算弄deepseek的qwen 70b。只跑推理,预算三万元以内,671b啥的不考虑太贵。
(模型啥的不重要。其实还是给折腾显卡一个理由

L20 48G*1         价格2w4左右
4090 48G*1      价格2w3涡轮,2w4水冷比较静音,魔改有风险
W7900 48G*1   价格1w5左右,AMD这波好像也不是不行
RTX8000 48G*1 价格1w2涡轮,9k被动散热,TU102,比较老
4090d*2            单卡价格1w3的样子 ,2w6,相对来说靠谱&保值一点
3090*2              单卡5300左右,默认矿
titan RTX*2       单卡3700左右,比较老了
2080ti 22G*2    单卡2400左右,不确定44G 跑70B够不够??

其他还有v100 32G改涡轮,p100*4 chh老哥走plx switch跑mlc的骚操作。
但我就是家里玩玩,对噪音还是比较在意,这些没有常规散热方案的我先不考虑了。。。   


问:
Q1,我对这些LLM的f16 Q6 Q5 Q4 之类的量化,没有什么清晰的概念,有没有推荐的科普专栏文章?
Q2,我能接受的方案基本都是总显存48G的样子。48G跑推理的话,最大是70b什么级别的量化模型?
Q3,mac 这边,96G 128G 192G大内存啥的好像也不错,是不是能跑这些模型但是很慢?
Q4,目前没搜到有人用4060ti 16G多卡、4070ti super多卡,7900xtx 多卡,感觉性价比也不错呀?为啥没人用呢。。
Q5,是否可以不同型号的显卡插在同一个机器上一起跑LLM推理?如果可以的话,其中性能较低的卡是否会造成瓶颈?
作者: kzfile    时间: 2025-2-5 09:02
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转
作者: kzfile    时间: 2025-2-5 09:05
如果不是跑越狱模型,还是买API最划算
作者: T.JOHN    时间: 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一个linux就枪毙大多小白
(, 下载次数: 39)



作者: 秦南瓜    时间: 2025-2-5 09:06
kzfile 发表于 2025-2-5 09:05
如果不是跑越狱模型,还是买API最划算

那肯定是要的
作者: 秦南瓜    时间: 2025-2-5 09:07
kzfile 发表于 2025-2-5 09:02
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转

确实慢。。不过能跑且功耗低,还能带着到处跑。也蛮爽的
作者: 秦南瓜    时间: 2025-2-5 09:08
本帖最后由 秦南瓜 于 2025-2-5 09:10 编辑
T.JOHN 发表于 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一 ...


是这样。。。。。我就是不懂linux的小白。打算windows ollama

3090性价比确实可以
作者: Oxyer    时间: 2025-2-5 09:09
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西
作者: kzfile    时间: 2025-2-5 09:10
个人用的话,为了显存堆GPU,会导致计算力溢出的很多,我觉得很不划算,或许可以等aimax395
作者: 秦南瓜    时间: 2025-2-5 09:11
Oxyer 发表于 2025-2-5 09:09
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西

折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了
作者: Oxyer    时间: 2025-2-5 09:13
秦南瓜 发表于 2025-2-5 09:11
折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了

对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有的硬件折腾也没所谓了,但是为了折腾花这么多钱,多少有点没必要
作者: Miner    时间: 2025-2-5 09:14
量化就是降低模型的精度,以减少推理时显存的占用,70b 模型 Q4 量化后大概需要 35G 显存,Q8就是 70G,还需要KV缓存什么的。48G 的显卡能 run Q4 ,看过一个测试,参数越大的模型,量化后性能损失越少。其实这些问题你可以去问 DS,比坛友解释的好
作者: 秦南瓜    时间: 2025-2-5 09:14
Oxyer 发表于 2025-2-5 09:13
对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有 ...

主要是可以玩没限制的模型
作者: 秦南瓜    时间: 2025-2-5 09:20
Miner 发表于 2025-2-5 09:14
量化就是降低模型的精度,以减少推理时显存的占用,70b 模型 Q4 量化后大概需要 35G 显存,Q8就是 70G,还 ...

问了下DS果然给力。。。
作者: nn1122    时间: 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以
作者: 秦南瓜    时间: 2025-2-5 09:32
nn1122 发表于 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...

可以是可以,就是慢。14b相比70b来说太轻松了。
作者: nn1122    时间: 2025-2-5 09:47
秦南瓜 发表于 2025-2-5 09:32
可以是可以,就是慢。14b相比70b来说太轻松了。

14b我能到10tok/s的速度,个人感觉比官网稍慢一点,我能接受
作者: luigian    时间: 2025-2-5 09:51
都是有钳人呀!
我还在用cpu跑蒸馏模型,居然也能凑活用
作者: awpak78    时间: 2025-2-5 10:12
T.JOHN 发表于 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一 ...

ollama=AI原神

4090跑原神也不增加帧率只增加电费
作者: os39000    时间: 2025-2-5 10:18
最省钱硬件可以 2080ti*2,显卡找那种闪电、evga的,7000
我自己是3090ti*2,可以下载43GB的Q4量化模型。70b还有Q2量化,26GB,这个我没试。
我手上还有个8581C,内存带宽230GB/s,跑100GB模型mistral-large,速度只有1.35tokens/s,距离理论速度差了一半。
以上都是ollama跑的。

有空再看看openvino,有没有改善。

作者: 秦南瓜    时间: 2025-2-5 10:20
os39000 发表于 2025-2-5 10:18
最省钱硬件可以 2080ti*2,显卡找那种闪电、evga的,7000
我自己是3090ti*2,可以下载43GB的Q4量化模型。70 ...

学习了~ 那后面我就找找q4的

作者: nabababa    时间: 2025-2-5 10:28
推理更考验显存,能达到48G以上显存的,gpu性能都是过剩的。大概率运行的时候显卡风扇都不转。
从这点来说,大内存的mac其实更合适一些。
作者: i6wz1l    时间: 2025-2-5 10:29
nn1122 发表于 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...

跑14b   多少token
作者: i6wz1l    时间: 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token  然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足日常使用,但是就是傻傻的
作者: nn1122    时间: 2025-2-5 10:31
i6wz1l 发表于 2025-2-5 10:29
跑14b   多少token

10,出字速度还可以,B站有个up发了视频的
https://www.bilibili.com/video/av113911474950467/
作者: 秦南瓜    时间: 2025-2-5 10:48
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token  然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...

就是因为太傻了。所以满足不了日常使用。。。
作者: ahzhf    时间: 2025-2-5 10:50
因为DeepSeek是MoE model,Threadripper/EPYC+海量RAM的方案也可以考虑一下,这样比GPU方案跑的模型更大。这几天试着在我的5995WX + 8通道DDR4 3200 256GB RAM上跑了下2.51bit动态量化版的DeepSeek R1 671B,速度有5-6 tokens/s
作者: 秦南瓜    时间: 2025-2-5 10:51
ahzhf 发表于 2025-2-5 10:50
因为DeepSeek是MoE model,Threadripper/EPYC+海量RAM的方案也可以考虑一下,这样比GPU方案跑的模型更大。 ...


不错!!我去逛逛咸鱼。你这套多少成本?
作者: ahzhf    时间: 2025-2-5 10:54
秦南瓜 发表于 2025-2-5 10:51
不错!!我去逛逛咸鱼。你这套多少成本?

用的公司的workstation
作者: kuram    时间: 2025-2-5 10:55
第一没什么用  只有最大B的有用  ,他解决的是你现在访问人数太多,每次访问Speedseek 无响应的问题

第二数据是23年12月的,除非联网 不然 没有新数据

第三模型要训练,没有H100 基本没得搞
作者: 秦南瓜    时间: 2025-2-5 10:59
kuram 发表于 2025-2-5 10:55
第一没什么用  只有最大B的有用  ,他解决的是你现在访问人数太多,每次访问Speedseek 无响应的问题

第二 ...
(模型啥的不重要。其实还是给折腾显卡一个理由


玩具而已
作者: kuram    时间: 2025-2-5 11:06
第一 还有就是你要跑量化 得买WIND数据库 一般1年WIND的使用费用在10W ,

第二 如果是量化的话 基本显存越大越好 并不需要多强的算力,比如48G
作者: 秦南瓜    时间: 2025-2-5 11:08
kuram 发表于 2025-2-5 11:06
第一 还有就是你要跑量化 得买WIND数据库 一般1年WIND的使用费用在10W ,

第二 如果是量化的话 基本显存越 ...

额,不是股票量化。。。。

我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度
作者: cmz118    时间: 2025-2-5 11:11
建议等等AMD的AI 395 128G
作者: gyc    时间: 2025-2-5 11:40
秦南瓜 发表于 2025-2-5 11:08
额,不是股票量化。。。。

我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度 ...

首先, deep seek R1 模型原版大小由638B,也就是大概600多G 大小。

72B的版本 是使用第三方 Qwen 2.5 模型 重新训练的蒸馏模型, 还是有些区别的。


关于量化,简单说,就是模型权重(浮点数)的存储精度进行简化,比如默认是16bit ,那么72B的参数大概需要 144GB显存, 如果改成8bit精度,那么72B模型大概就需要72G显存。

另一种量化是直接减少参数数量,比如 32B ,7B 等直接降低参数量,就可以大幅度精简大小,提高速度,不过会牺牲模型输出精度



可以参考qwen 官方的评测说明, https://qwen.readthedocs.io/zh-c ... tion_benchmark.html
作者: nepdaisuki    时间: 2025-2-5 11:52
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token  然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...

爆显存,会转移到内存,就会非常慢
作者: i6wz1l    时间: 2025-2-5 11:53
nepdaisuki 发表于 2025-2-5 11:52
爆显存,会转移到内存,就会非常慢

我办公机器是 8600g   64g内存 已经升级了amd最新的25.1.11驱动,一会部署个amd推荐的14b模型试试
作者: 秦南瓜    时间: 2025-2-5 12:35
gyc 发表于 2025-2-5 11:40
首先, deep seek R1 模型原版大小由638B,也就是大概600多G 大小。

72B的版本 是使用第三方 Qwen 2.5  ...

感谢解释~~
作者: Barcelona    时间: 2025-2-5 14:20
https://ollama.com/library/deepseek-r1/tags

总有一款适合你
富哥买苹果集群吧,部署671b Q4_K_M量化的版本,不过也要404GB内存
作者: 秦南瓜    时间: 2025-2-6 10:10
Barcelona 发表于 2025-2-5 14:20
总有一款适合你
富哥买苹果集群吧,部署671b Q4_K_M量化的版本,不过也要404GB内存 ...

3w兜不住吧
作者: Barcelona    时间: 2025-2-6 10:27
秦南瓜 发表于 2025-2-6 10:10
3w兜不住吧

目前来看,3w最多能买128GB的苹果。2台mac mini M4 pro 64GB,15499 * 2。mac studio还没更新
作者: 秦南瓜    时间: 2025-2-6 10:32
Barcelona 发表于 2025-2-6 10:27
目前来看,3w最多能买128GB的苹果。2台mac mini M4 pro 64GB,15499 * 2。mac studio还没更新 ...

确实,可以等等,也期待一下amd的 aimax,
作者: Barcelona    时间: 2025-2-6 11:04
秦南瓜 发表于 2025-2-6 10:32
确实,可以等等,也期待一下amd的 aimax,
  1. https://www.ollama.com/SIGJNF/deepseek-r1-671b-1.58bit
复制代码

现在又有1.58bit量化版本了,需要140GB显存
作者: lasx    时间: 2025-2-6 11:09
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。
作者: 秦南瓜    时间: 2025-2-6 11:10
lasx 发表于 2025-2-6 11:09
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。

全跑cpu上了。。现存太少
作者: 秦南瓜    时间: 2025-2-6 11:10
Barcelona 发表于 2025-2-6 11:04
现在又有1.58bit量化版本了,需要140GB显存

这会不会笨死。。。
作者: lasx    时间: 2025-2-6 11:14
秦南瓜 发表于 2025-2-6 11:10
全跑cpu上了。。现存太少

不会,显存也用了,就是共享内存过去了

作者: chip_discovery    时间: 2025-2-6 11:14
2080ti 22g 跑32B  大概有20 tokens , 再配合chatbox,真是新手必备,无脑安装,
作者: 秦南瓜    时间: 2025-2-6 11:17
lasx 发表于 2025-2-6 11:14
不会,显存也用了,就是共享内存过去了

是这样。会吃显存,但是cpu在算
作者: lasx    时间: 2025-2-6 11:18
秦南瓜 发表于 2025-2-6 11:17
是这样。会吃显存,但是cpu在算

我去,是这样吗?跑14b就很快。
作者: 秦南瓜    时间: 2025-2-6 11:20
lasx 发表于 2025-2-6 11:18
我去,是这样吗?跑14b就很快。

对呀,不然怎么会那么慢。。。
作者: lasx    时间: 2025-2-6 11:24
本帖最后由 lasx 于 2025-2-6 11:36 编辑
秦南瓜 发表于 2025-2-6 11:20
对呀,不然怎么会那么慢。。。


我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作,但都没吃满。
(, 下载次数: 32)
我内存只有64G,共享显存为0,直接走内存了。
(, 下载次数: 38)
32b模型共享显存有数据。
作者: Barcelona    时间: 2025-2-6 11:32
秦南瓜 发表于 2025-2-6 11:10
这会不会笨死。。。

现在并不清楚选量化模型和蒸馏模型哪个更好,反正蒸馏再量化的肯定最差
作者: lasx    时间: 2025-2-6 11:49
70B感觉没有32b聪明。。
作者: gyc    时间: 2025-2-6 12:21
lasx 发表于 2025-2-6 11:24
我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作,但都没吃满。

我内存只有64G,共享显存 ...

llama.cpp 工作机制好像是 如果模型无法加载到GPU中运行,那么直接使用CPU开始推理。

12G显存适合运行 7B-int8 量化或者 14B-int4 量化了。
作者: gyc    时间: 2025-2-6 12:22
lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。

这个不好说,不过具体看模型, 有些量化模型,使用 CPU加载的回答与使用GPU加载回答不太一样。
作者: 秦南瓜    时间: 2025-2-6 12:28
lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。

太慢了。导致智商不足
作者: lasx    时间: 2025-2-6 13:04
gyc 发表于 2025-2-6 12:21
llama.cpp 工作机制好像是 如果模型无法加载到GPU中运行,那么直接使用CPU开始推理。

12G显存适合运行 7 ...

是的。cpu吐字的数量也少很多。
作者: 老饭    时间: 2025-2-6 14:25
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token  然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...

7b 拿cpu都随便跑
作者: 装陈醋的酱油瓶    时间: 2025-2-6 14:55
如果只是想70b玩玩,那么你现有的3090/ 4090 搭配一张新的2080 ti 22G 差不多

如果以后想要玩的high且只考虑LLM,那rtx 8000 48G起


作者: 秦南瓜    时间: 2025-2-6 15:04
装陈醋的酱油瓶 发表于 2025-2-6 14:55
如果只是想70b玩玩,那么你现有的3090/ 4090 搭配一张新的2080 ti 22G 差不多

如果以后想要玩的high且只考 ...

可以不同型号混搭对吧,实际推理速度如何?
作者: 装陈醋的酱油瓶    时间: 2025-2-6 17:23
秦南瓜 发表于 2025-2-6 15:04
可以不同型号混搭对吧,实际推理速度如何?

70B的10token/s, 671b 1.58bit 量化的 1.23 token/s
2990wx + 192GB +  3090ti + 3090 +2080ti 22G*2 这一群虾兵蟹将




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5