Chiphell - 分享与交流用户体验

标题: Deepseek局域网内部署需求 [打印本页]

作者: TincoJ 时间: 2025-2-17 16:08
标题: Deepseek局域网内部署需求
大佬们，咨询下，

局域网内部署Deepseek R1 70B，搭配AnythingLLM小范围使用，目前打算先上4张4090显卡，是应该买服务器还是搞工作站？

工作站的话有什么板子是可以装进去4个4090？服务器的话有哪些型号推荐？谢谢！

作者: a010301208 时间: 2025-2-17 16:11
本帖最后由 a010301208 于 2025-2-17 16:17 编辑

70B你整这么麻烦干什么

随便搞个V100的服务器就能跑了，一个月也就200块，而且可以选国外机房，你科学上网钱都省了，关键是算下来比你自己用电费便宜

(, 下载次数: 17)

作者: knifeandcj 时间: 2025-2-17 16:11
建议从网上配个成熟的4090 4卡服务器 epyc 双路 ram大些

作者: autobotsop 时间: 2025-2-17 16:12
同问服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集和清华的Ktransformers无缘了

作者: HawkQww 时间: 2025-2-17 16:15
如四楼所说，考虑到AMX指令集，结合四卡需要的pcie，还是至强会好一些，但贵起来是真的贵……
我现在用的epyc 7663，单3090+3080 12G+内存硬扛70b有点于心不忍

作者: 古明地觉 时间: 2025-2-17 16:19
70B不是两张24g的卡就能跑起来了。。。

作者: TincoJ 时间: 2025-2-17 16:22

古明地觉发表于 2025-2-17 16:19
70B不是两张24g的卡就能跑起来了。。。

是单机跑我看41.5GB就能跑了，多人用的话是不是需要加卡？

作者: yangzi123aaa20 时间: 2025-2-17 16:22
这么大投入只为了70B吗

作者: a010301208 时间: 2025-2-17 16:23

TincoJ 发表于 2025-2-17 16:22
是单机跑我看41.5GB就能跑了，多人用的话是不是需要加卡？

你都跑70B这种智障模型了，跑个Q4就差不多了，要什么40G显存

作者: TincoJ 时间: 2025-2-17 16:23

a010301208 发表于 2025-2-17 16:11
70B你整这么麻烦干什么

随便搞个V100的服务器就能跑了，一个月也就200块，而且可以选国外机房，你科学上网 ...

生产行业，不给联网主要是。。。

作者: nagashinn 时间: 2025-2-17 16:26
人用还是程序用？
程序用跟着其他机器云厂商走。人用，你们可真奢侈。

作者: a010301208 时间: 2025-2-17 16:26
本帖最后由 a010301208 于 2025-2-17 16:36 编辑

TincoJ 发表于 2025-2-17 16:23
生产行业，不给联网主要是。。。

建议跑这个原版量化的，最低那个版本显存加内存一共200G不到就能跑了，显存占比越大上下文越多https://unsloth.ai/blog/deepseekr1-dynamic#running%20r1

那些70B 32B都不是原版，说白了就是用一个白痴模型去学习DS，但是因为本身很弱智，所以再怎么学还是弱智

作者: awpak78 时间: 2025-2-17 16:27
半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分享与交流用户体验)

根据预算充裕程度把P100升级成Tesla V100，Quadro RTX 8000，或者NVIDIA L20

作者: af_x_if 时间: 2025-2-17 16:28

autobotsop 发表于 2025-2-17 16:12
同问服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集和清华的Ktransformers无缘 ...

不用AMX的v0.2也有8t/s

作者: TincoJ 时间: 2025-2-17 16:32

awpak78 发表于 2025-2-17 16:27
半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分 ...

显卡预算大概10±1万

作者: TincoJ 时间: 2025-2-17 16:33

nagashinn 发表于 2025-2-17 16:26
人用还是程序用？
程序用跟着其他机器云厂商走。人用，你们可真奢侈。

大佬。。。是人用。。。

作者: TincoJ 时间: 2025-2-17 16:38

a010301208 发表于 2025-2-17 16:26
建议跑这个原版量化的https://unsloth.ai/blog/deepseekr1-dynamic#running%20r1

那些70B 32B都不是原版 ...

我看过这个，老板意思是可以继续加卡去跑这个671B，主要是担心扛不住内网的用户，token速度低。
所以想着先搞个本地的跑70B，智障就智障点，先确保局域网内的速度可用。

作者: a010301208 时间: 2025-2-17 16:40

TincoJ 发表于 2025-2-17 16:38
我看过这个，老板意思是可以继续加卡去跑这个671B，主要是担心扛不住内网的用户，token速度低。
所以想着 ...

如果你用的是服务器主板的话，24G显存加8根32G内存就足够跑起来这个了，后面运行速度无非就是继续加显卡

作者: TincoJ 时间: 2025-2-17 16:49

a010301208 发表于 2025-2-17 16:40
如果你用的是服务器主板的话，24G显存加8根32G内存就足够跑起来这个了，后面运行速度无非就是继续加显卡 ...

我用了一台淘汰的服务器上的虚拟机，给了50核，200GB内存，但是跑32b的速度都不算太理想，可能是CPU太老了，Intel(R) Xeon(R) Gold 6132 CPU @ 2.60GHz

1TB内存的新服务器也是有的，搞了一台192GB内存的虚拟机测试，效果只是改善一点点。

作者: a010301208 时间: 2025-2-17 16:53
本帖最后由 a010301208 于 2025-2-17 16:56 编辑

TincoJ 发表于 2025-2-17 16:49
我用了一台淘汰的服务器上的虚拟机，给了50核，200GB内存，但是跑32b的速度都不算太理想，可能是CPU太老 ...

你是直接硬跑的吧，那肯定速度不对啊，参考这个https://github.com/kvcache-ai/ktransformers

还有就是我刚才发给你那个原版1.58bit的，你要是用什么llama那些蒸馏的硬跑肯定不行，那些模型本来就是高占用低智商

作者: TincoJ 时间: 2025-2-17 16:55

a010301208 发表于 2025-2-17 16:53
你是直接硬跑的吧，那肯定速度不对啊，参考这个https://github.com/kvcache-ai/ktransformers

还有就是 ...

膜拜大佬，先下班，明天啃一下。感谢感谢！！！

作者: nn1122 时间: 2025-2-17 17:09
671B量化成最小的1.58那个模型，只有133GB大小，应该跑着每问题

作者: uprit 时间: 2025-2-17 17:25
搞70B干嘛，上32B的。R1这个70B基座模型是llama3，效果和qwen 32B半斤八两，一个偏英文，一个偏中文。32B的效果已经很好了，关键速度还快。

作者: BetaHT 时间: 2025-2-17 17:26
70B和32B没有显著区别，不太能用吧。

要上就上全量的671B

作者: YsHaNg 时间: 2025-2-17 17:42

autobotsop 发表于 2025-2-17 08:12
同问服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集和清华的Ktransformers无缘 ...

论文里描述的是0.3版还在测试压根没放出来问题很多最新的就只有0.2.1

作者: 海拂兰 时间: 2025-2-17 18:33
AnythingLLM 我觉得中文支持不行？

作者: 雨季不再来 时间: 2025-2-17 18:59

TincoJ 发表于 2025-2-17 16:23
生产行业，不给联网主要是。。。

生产行业，还不联网，需要跑这种东西吗？实在是想不通

作者: 港城钢铁侠 时间: 2025-2-17 19:29

a010301208 发表于 2025-2-17 16:11
70B你整这么麻烦干什么

随便搞个V100的服务器就能跑了，一个月也就200块，而且可以选国外机房，你科学上网 ...

哪家的云服务器这么便宜啊？

作者: a010301208 时间: 2025-2-17 19:32

港城钢铁侠发表于 2025-2-17 19:29
哪家的云服务器这么便宜啊？

这图是腾讯，目前随便买，注册4个号可以用1个月，其实别家也有，比如ucloud的新注册的话4090显卡服务器10块钱一天，别的16G显卡29.9块7天

作者: lyys 时间: 2025-2-17 20:29
最近这股风啊，得散了！搞得全民ds，什么14、32、70B，都是渣渣，倒是把买教程的人赚惨了。
671B fp16可是1.5TB+显存

作者: netjunegg 时间: 2025-2-17 20:53
看来大模型是刚需啊, 厂商们加油啊, 好钢用在刀刃上

作者: LNT 时间: 2025-2-17 22:21
70b q4_k_m，单人跑起来大概41G多显存，一张4090 48G可以跑到18tokens/s
同样的模型m3max 64G可以跑到6~7tokens/s

作者: 网仙 时间: 2025-2-17 22:46
KTransformer目前还有很多问题要解决，尤其是并发还不行。自己玩玩可以，多人需要使用的话没法弄。
从原理上来说他很难优化到并发可用的程度，目前只支持单线操作，并发也是队列的模式。

作者: 网仙 时间: 2025-2-17 22:54
本帖最后由网仙于 2025-2-17 22:58 编辑

a010301208 发表于 2025-2-17 16:53
你是直接硬跑的吧，那肯定速度不对啊，参考这个https://github.com/kvcache-ai/ktransformers

还有就是 ...

这两天也在研究KTransformer，

如果你内存够512G，CPU不是太旧，单卡4090运行671b的Q4模型，应该可以到15tk/s的输出能力，很多人都已经跑起来了。

不过，他还有很多问题，官方团队正在努力进化中。

从用户侧体验的角度，目前KT需要解决的还有几个问题：
1，双路平台的内存cpu的资源利用率问题，目前需要双倍的内存支持。
2，不同硬件条件下的性能优化，降低部署难度；
3，多Gpu的性能协同（单4090 24G的瓶颈在那里，要提升上下文长度，提升输出性能，就得增加GPU和显存了）
4，API（UI接口）的易用性/稳定性
5，在一定程度上优化并发的能力（KT的原理决定了他无法实现很强的并发性能的，后续如果能支持多卡运行，可能会好一些）

作者: 网仙 时间: 2025-2-17 22:57

autobotsop 发表于 2025-2-17 16:12
同问服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集和清华的Ktransformers无缘 ...

没有AMX指令，仅仅影响预加载的速度（prefill），对decode能力没啥影响。
你这个主要是内存不及格，需要480G或者512G才能跑671B的Q4.

作者: 流浪的疾风 时间: 2025-2-18 08:40
兄弟，跟你差不多情况，11万出头，thinkstation px 双1850电源 2cpu 128gb 3 4090，70b的6位，还行。

作者: 声色茶马 时间: 2025-2-18 08:49

lyys 发表于 2025-2-17 20:29
最近这股风啊，得散了！搞得全民ds，什么14、32、70B，都是渣渣，倒是把买教程的人赚惨了。
671B fp16可是1 ...

很多国企事业单位都在搞。泼天的富贵啊，希望某为某线程啥的能接住。

作者: TincoJ 时间: 2025-2-18 14:54

流浪的疾风发表于 2025-2-18 08:40
兄弟，跟你差不多情况，11万出头，thinkstation px 双1850电源 2cpu 128gb 3 4090，70b的6位，还行。 ...

目前就在对比PX以及H3C的R4900了。

4卡的话预算是都超了

作者: 流浪的疾风 时间: 2025-2-18 20:15

TincoJ 发表于 2025-2-18 14:54
目前就在对比PX以及H3C的R4900了。
4卡的话预算是都超了

可以尝试4张3090，px的话能在10万内

欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/)