新手本地部署LLM的一些问题

秦南瓜 发表于 2025-2-5 08:49

本帖最后由秦南瓜于 2025-2-5 09:00 编辑

最近Deepseek的出圈，也点燃了👴的折腾激情。打算折腾本地部署LLM玩玩，纯小白，有一些问题搜了半天无果。来坛子问问大佬们~~

打算弄deepseek的qwen 70b。只跑推理，预算三万元以内，671b啥的不考虑太贵。
（模型啥的不重要。其实还是给折腾显卡一个理由[恶魔] ）

L20 48G*1       价格2w4左右
4090 48G*1    价格2w3涡轮，2w4水冷比较静音，魔改有风险
W7900 48G*1 价格1w5左右，AMD这波好像也不是不行
RTX8000 48G*1 价格1w2涡轮，9k被动散热，TU102，比较老
4090d*2          单卡价格1w3的样子，2w6，相对来说靠谱&保值一点
3090*2          单卡5300左右，默认矿
titan RTX*2    单卡3700左右，比较老了
2080ti 22G*2 单卡2400左右，不确定44G 跑70B够不够？？

其他还有v100 32G改涡轮，p100*4 chh老哥走plx switch跑mlc的骚操作。
但我就是家里玩玩，对噪音还是比较在意，这些没有常规散热方案的我先不考虑了。。。

问：
Q1，我对这些LLM的f16 Q6 Q5 Q4 之类的量化，没有什么清晰的概念，有没有推荐的科普专栏文章？
Q2，我能接受的方案基本都是总显存48G的样子。48G跑推理的话，最大是70b什么级别的量化模型？
Q3，mac 这边，96G 128G 192G大内存啥的好像也不错，是不是能跑这些模型但是很慢？
Q4，目前没搜到有人用4060ti 16G多卡、4070ti super多卡，7900xtx 多卡，感觉性价比也不错呀？为啥没人用呢。。
Q5，是否可以不同型号的显卡插在同一个机器上一起跑LLM推理？如果可以的话，其中性能较低的卡是否会造成瓶颈？

kzfile 发表于 2025-2-5 09:02

m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转

kzfile 发表于 2025-2-5 09:05

如果不是跑越狱模型,还是买API最划算

T.JOHN 发表于 2025-2-5 09:05

4090 48G，双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上，而在于环境搭建，性能调优上，光一个linux就枪毙大多小白

秦南瓜 发表于 2025-2-5 09:06

kzfile 发表于 2025-2-5 09:05
如果不是跑越狱模型,还是买API最划算

[恶魔]那肯定是要的

秦南瓜 发表于 2025-2-5 09:07

kzfile 发表于 2025-2-5 09:02
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转

确实慢。。不过能跑且功耗低，还能带着到处跑。也蛮爽的

秦南瓜 发表于 2025-2-5 09:08

本帖最后由秦南瓜于 2025-2-5 09:10 编辑

T.JOHN 发表于 2025-2-5 09:05
4090 48G，双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上，而在于环境搭建，性能调优上，光一 ...

是这样。。。。。我就是不懂linux的小白。打算windows ollama

3090性价比确实可以

Oxyer 发表于 2025-2-5 09:09

感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西

kzfile 发表于 2025-2-5 09:10

个人用的话,为了显存堆GPU,会导致计算力溢出的很多,我觉得很不划算,或许可以等aimax395

秦南瓜 发表于 2025-2-5 09:11

Oxyer 发表于 2025-2-5 09:09
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西

折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了

Oxyer 发表于 2025-2-5 09:13

秦南瓜发表于 2025-2-5 09:11
折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了

对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有的硬件折腾也没所谓了,但是为了折腾花这么多钱,多少有点没必要

Miner 发表于 2025-2-5 09:14

量化就是降低模型的精度，以减少推理时显存的占用，70b 模型 Q4 量化后大概需要 35G 显存，Q8就是 70G，还需要KV缓存什么的。48G 的显卡能 run Q4 ，看过一个测试，参数越大的模型，量化后性能损失越少。其实这些问题你可以去问 DS，比坛友解释的好

秦南瓜 发表于 2025-2-5 09:14

Oxyer 发表于 2025-2-5 09:13
对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有 ...

主要是可以玩没限制的模型

秦南瓜 发表于 2025-2-5 09:20

Miner 发表于 2025-2-5 09:14
量化就是降低模型的精度，以减少推理时显存的占用，70b 模型 Q4 量化后大概需要 35G 显存，Q8就是 70G，还 ...

问了下DS果然给力。。。

nn1122 发表于 2025-2-5 09:28

换平台，我mac mini m4 16GB能流畅跑14B，70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以

秦南瓜 发表于 2025-2-5 09:32

nn1122 发表于 2025-2-5 09:28
换平台，我mac mini m4 16GB能流畅跑14B，70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...

可以是可以，就是慢。14b相比70b来说太轻松了。

nn1122 发表于 2025-2-5 09:47

秦南瓜发表于 2025-2-5 09:32
可以是可以，就是慢。14b相比70b来说太轻松了。

14b我能到10tok/s的速度，个人感觉比官网稍慢一点，我能接受

luigian 发表于 2025-2-5 09:51

都是有钳人呀！
我还在用cpu跑蒸馏模型，居然也能凑活用[晕倒]

awpak78 发表于 2025-2-5 10:12

T.JOHN 发表于 2025-2-5 09:05
4090 48G，双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上，而在于环境搭建，性能调优上，光一 ...

ollama=AI原神

4090跑原神也不增加帧率只增加电费

os39000 发表于 2025-2-5 10:18

最省钱硬件可以 2080ti*2，显卡找那种闪电、evga的，7000
我自己是3090ti*2，可以下载43GB的Q4量化模型。70b还有Q2量化，26GB，这个我没试。
我手上还有个8581C，内存带宽230GB/s，跑100GB模型mistral-large，速度只有1.35tokens/s，距离理论速度差了一半。
以上都是ollama跑的。

有空再看看openvino，有没有改善。

秦南瓜 发表于 2025-2-5 10:20

os39000 发表于 2025-2-5 10:18
最省钱硬件可以 2080ti*2，显卡找那种闪电、evga的，7000
我自己是3090ti*2，可以下载43GB的Q4量化模型。70 ...

学习了~ 那后面我就找找q4的

nabababa 发表于 2025-2-5 10:28

推理更考验显存，能达到48G以上显存的，gpu性能都是过剩的。大概率运行的时候显卡风扇都不转。
从这点来说，大内存的mac其实更合适一些。

i6wz1l 发表于 2025-2-5 10:29

nn1122 发表于 2025-2-5 09:28
换平台，我mac mini m4 16GB能流畅跑14B，70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...

跑14b 多少token

i6wz1l 发表于 2025-2-5 10:30

我昨天用4060部署的 14b 每秒2token然后问了几次就非常慢了，部署了olloma推荐的7b，速度非常快，能满足日常使用，但是就是傻傻的

nn1122 发表于 2025-2-5 10:31

i6wz1l 发表于 2025-2-5 10:29
跑14b 多少token

10，出字速度还可以，B站有个up发了视频的
https://www.bilibili.com/video/av113911474950467/

秦南瓜 发表于 2025-2-5 10:48

i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token然后问了几次就非常慢了，部署了olloma推荐的7b，速度非常快，能满足 ...

就是因为太傻了。所以满足不了日常使用。。。

ahzhf 发表于 2025-2-5 10:50

因为DeepSeek是MoE model，Threadripper/EPYC+海量RAM的方案也可以考虑一下，这样比GPU方案跑的模型更大。这几天试着在我的5995WX + 8通道DDR4 3200 256GB RAM上跑了下2.51bit动态量化版的DeepSeek R1 671B，速度有5-6 tokens/s

秦南瓜 发表于 2025-2-5 10:51

ahzhf 发表于 2025-2-5 10:50
因为DeepSeek是MoE model，Threadripper/EPYC+海量RAM的方案也可以考虑一下，这样比GPU方案跑的模型更大。 ...

不错！！我去逛逛咸鱼。你这套多少成本？

ahzhf 发表于 2025-2-5 10:54

秦南瓜发表于 2025-2-5 10:51
不错！！我去逛逛咸鱼。你这套多少成本？

用的公司的workstation[可爱]

kuram 发表于 2025-2-5 10:55

第一没什么用只有最大B的有用，他解决的是你现在访问人数太多，每次访问Speedseek 无响应的问题

第二数据是23年12月的，除非联网不然没有新数据

第三模型要训练，没有H100 基本没得搞

页: [1] 2 3

Chiphell - 分享与交流用户体验's Archiver

新手本地部署LLM的一些问题