新手本地部署LLM的一些问题
本帖最后由 秦南瓜 于 2025-2-5 09:00 编辑最近Deepseek的出圈,也点燃了👴的折腾激情。打算折腾本地部署LLM玩玩,纯小白,有一些问题搜了半天无果。来坛子问问大佬们~~
打算弄deepseek的qwen 70b。只跑推理,预算三万元以内,671b啥的不考虑太贵。
(模型啥的不重要。其实还是给折腾显卡一个理由[恶魔] )
L20 48G*1 价格2w4左右
4090 48G*1 价格2w3涡轮,2w4水冷比较静音,魔改有风险
W7900 48G*1 价格1w5左右,AMD这波好像也不是不行
RTX8000 48G*1 价格1w2涡轮,9k被动散热,TU102,比较老
4090d*2 单卡价格1w3的样子 ,2w6,相对来说靠谱&保值一点
3090*2 单卡5300左右,默认矿
titan RTX*2 单卡3700左右,比较老了
2080ti 22G*2 单卡2400左右,不确定44G 跑70B够不够??
其他还有v100 32G改涡轮,p100*4 chh老哥走plx switch跑mlc的骚操作。
但我就是家里玩玩,对噪音还是比较在意,这些没有常规散热方案的我先不考虑了。。。
问:
Q1,我对这些LLM的f16 Q6 Q5 Q4 之类的量化,没有什么清晰的概念,有没有推荐的科普专栏文章?
Q2,我能接受的方案基本都是总显存48G的样子。48G跑推理的话,最大是70b什么级别的量化模型?
Q3,mac 这边,96G 128G 192G大内存啥的好像也不错,是不是能跑这些模型但是很慢?
Q4,目前没搜到有人用4060ti 16G多卡、4070ti super多卡,7900xtx 多卡,感觉性价比也不错呀?为啥没人用呢。。
Q5,是否可以不同型号的显卡插在同一个机器上一起跑LLM推理?如果可以的话,其中性能较低的卡是否会造成瓶颈? m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转 如果不是跑越狱模型,还是买API最划算 4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一个linux就枪毙大多小白
kzfile 发表于 2025-2-5 09:05
如果不是跑越狱模型,还是买API最划算
[恶魔]那肯定是要的 kzfile 发表于 2025-2-5 09:02
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转
确实慢。。不过能跑且功耗低,还能带着到处跑。也蛮爽的 本帖最后由 秦南瓜 于 2025-2-5 09:10 编辑
T.JOHN 发表于 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一 ...
是这样。。。。。我就是不懂linux的小白。打算windows ollama
3090性价比确实可以 感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西 个人用的话,为了显存堆GPU,会导致计算力溢出的很多,我觉得很不划算,或许可以等aimax395 Oxyer 发表于 2025-2-5 09:09
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西
折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了 秦南瓜 发表于 2025-2-5 09:11
折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了
对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有的硬件折腾也没所谓了,但是为了折腾花这么多钱,多少有点没必要 量化就是降低模型的精度,以减少推理时显存的占用,70b 模型 Q4 量化后大概需要 35G 显存,Q8就是 70G,还需要KV缓存什么的。48G 的显卡能 run Q4 ,看过一个测试,参数越大的模型,量化后性能损失越少。其实这些问题你可以去问 DS,比坛友解释的好 Oxyer 发表于 2025-2-5 09:13
对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有 ...
主要是可以玩没限制的模型 Miner 发表于 2025-2-5 09:14
量化就是降低模型的精度,以减少推理时显存的占用,70b 模型 Q4 量化后大概需要 35G 显存,Q8就是 70G,还 ...
问了下DS果然给力。。。 换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 nn1122 发表于 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...
可以是可以,就是慢。14b相比70b来说太轻松了。 秦南瓜 发表于 2025-2-5 09:32
可以是可以,就是慢。14b相比70b来说太轻松了。
14b我能到10tok/s的速度,个人感觉比官网稍慢一点,我能接受 都是有钳人呀!
我还在用cpu跑蒸馏模型,居然也能凑活用[晕倒] T.JOHN 发表于 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一 ...
ollama=AI原神
4090跑原神也不增加帧率只增加电费 最省钱硬件可以 2080ti*2,显卡找那种闪电、evga的,7000
我自己是3090ti*2,可以下载43GB的Q4量化模型。70b还有Q2量化,26GB,这个我没试。
我手上还有个8581C,内存带宽230GB/s,跑100GB模型mistral-large,速度只有1.35tokens/s,距离理论速度差了一半。
以上都是ollama跑的。
有空再看看openvino,有没有改善。
os39000 发表于 2025-2-5 10:18
最省钱硬件可以 2080ti*2,显卡找那种闪电、evga的,7000
我自己是3090ti*2,可以下载43GB的Q4量化模型。70 ...
学习了~ 那后面我就找找q4的
推理更考验显存,能达到48G以上显存的,gpu性能都是过剩的。大概率运行的时候显卡风扇都不转。
从这点来说,大内存的mac其实更合适一些。 nn1122 发表于 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...
跑14b 多少token 我昨天用4060部署的 14b 每秒2token然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足日常使用,但是就是傻傻的 i6wz1l 发表于 2025-2-5 10:29
跑14b 多少token
10,出字速度还可以,B站有个up发了视频的
https://www.bilibili.com/video/av113911474950467/ i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...
就是因为太傻了。所以满足不了日常使用。。。 因为DeepSeek是MoE model,Threadripper/EPYC+海量RAM的方案也可以考虑一下,这样比GPU方案跑的模型更大。这几天试着在我的5995WX + 8通道DDR4 3200 256GB RAM上跑了下2.51bit动态量化版的DeepSeek R1 671B,速度有5-6 tokens/s ahzhf 发表于 2025-2-5 10:50
因为DeepSeek是MoE model,Threadripper/EPYC+海量RAM的方案也可以考虑一下,这样比GPU方案跑的模型更大。 ...
不错!!我去逛逛咸鱼。你这套多少成本? 秦南瓜 发表于 2025-2-5 10:51
不错!!我去逛逛咸鱼。你这套多少成本?
用的公司的workstation[可爱] 第一没什么用只有最大B的有用,他解决的是你现在访问人数太多,每次访问Speedseek 无响应的问题
第二数据是23年12月的,除非联网 不然 没有新数据
第三模型要训练,没有H100 基本没得搞