找回密码
 加入我们
搜索
      
查看: 7652|回复: 38

[主板] Deepseek局域网内部署需求

[复制链接]
发表于 2025-2-17 16:08 | 显示全部楼层 |阅读模式
大佬们,咨询下,

局域网内部署Deepseek R1 70B,搭配AnythingLLM小范围使用,目前打算先上4张4090显卡,是应该买服务器还是搞工作站?

工作站的话有什么板子是可以装进去4个4090?服务器的话有哪些型号推荐?谢谢!
发表于 2025-2-18 20:15 | 显示全部楼层
TincoJ 发表于 2025-2-18 14:54
目前就在对比PX以及H3C的R4900了。
4卡的话预算是都超了

可以尝试4张3090,px的话能在10万内
 楼主| 发表于 2025-2-18 14:54 | 显示全部楼层
流浪的疾风 发表于 2025-2-18 08:40
兄弟,跟你差不多情况,11万出头,thinkstation px 双1850电源 2cpu 128gb 3 4090,70b的6位,还行。 ...

目前就在对比PX以及H3C的R4900了。
4卡的话预算是都超了
发表于 2025-2-18 08:49 | 显示全部楼层
lyys 发表于 2025-2-17 20:29
最近这股风啊,得散了!搞得全民ds,什么14、32、70B,都是渣渣,倒是把买教程的人赚惨了。
671B fp16可是1 ...

很多国企事业单位都在搞。泼天的富贵啊,希望某为某线程啥的能接住。
发表于 2025-2-18 08:40 | 显示全部楼层
兄弟,跟你差不多情况,11万出头,thinkstation px 双1850电源 2cpu 128gb 3 4090,70b的6位,还行。
发表于 2025-2-17 22:57 | 显示全部楼层
autobotsop 发表于 2025-2-17 16:12
同问 服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集 和清华的Ktransformers无缘 ...

没有AMX指令,仅仅影响预加载的速度(prefill),对decode能力没啥影响。
你这个主要是内存不及格,需要480G或者512G才能跑671B的Q4.
发表于 2025-2-17 22:54 | 显示全部楼层
本帖最后由 网仙 于 2025-2-17 22:58 编辑
a010301208 发表于 2025-2-17 16:53
你是直接硬跑的吧,那肯定速度不对啊,参考这个https://github.com/kvcache-ai/ktransformers

还有就是 ...


这两天也在研究KTransformer,

如果你内存够512G,CPU不是太旧,单卡4090运行671b的Q4模型,应该可以到15tk/s的输出能力,很多人都已经跑起来了。

不过,他还有很多问题,官方团队正在努力进化中。

从用户侧体验的角度,目前KT需要解决的还有几个问题:
1,双路平台的内存cpu的资源利用率问题,目前需要双倍的内存支持。
2,不同硬件条件下的性能优化,降低部署难度;
3,多Gpu的性能协同(单4090 24G的瓶颈在那里,要提升上下文长度,提升输出性能,就得增加GPU和显存了)
4,API(UI接口)的易用性/稳定性
5,在一定程度上优化并发的能力(KT的原理决定了他无法实现很强的并发性能的,后续如果能支持多卡运行,可能会好一些)
发表于 2025-2-17 22:46 | 显示全部楼层
KTransformer目前还有很多问题要解决,尤其是并发还不行。自己玩玩可以,多人需要使用的话没法弄。
从原理上来说他很难优化到并发可用的程度,目前只支持单线操作,并发也是队列的模式。


发表于 2025-2-17 22:21 | 显示全部楼层
70b q4_k_m,单人跑起来大概41G多显存,一张4090 48G可以跑到18tokens/s
同样的模型m3max  64G可以跑到6~7tokens/s
发表于 2025-2-17 20:53 | 显示全部楼层
看来大模型是刚需啊, 厂商们加油啊, 好钢用在刀刃上
发表于 2025-2-17 20:29 | 显示全部楼层
最近这股风啊,得散了!搞得全民ds,什么14、32、70B,都是渣渣,倒是把买教程的人赚惨了。
671B fp16可是1.5TB+显存
发表于 2025-2-17 19:32 | 显示全部楼层
港城钢铁侠 发表于 2025-2-17 19:29
哪家的云服务器这么便宜啊?

这图是腾讯,目前随便买,注册4个号可以用1个月,其实别家也有,比如ucloud的新注册的话4090显卡服务器10块钱一天,别的16G显卡29.9块7天
发表于 2025-2-17 19:29 | 显示全部楼层
a010301208 发表于 2025-2-17 16:11
70B你整这么麻烦干什么

随便搞个V100的服务器就能跑了,一个月也就200块,而且可以选国外机房,你科学上网 ...

哪家的云服务器这么便宜啊?
发表于 2025-2-17 18:59 | 显示全部楼层
TincoJ 发表于 2025-2-17 16:23
生产行业,不给联网主要是。。。

生产行业,还不联网,需要跑这种东西吗? 实在是想不通
发表于 2025-2-17 18:33 | 显示全部楼层
AnythingLLM 我觉得中文支持不行?
发表于 2025-2-17 17:42 | 显示全部楼层
autobotsop 发表于 2025-2-17 08:12
同问 服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集 和清华的Ktransformers无缘 ...

论文里描述的是0.3版 还在测试压根没放出来 问题很多 最新的就只有0.2.1
发表于 2025-2-17 17:26 | 显示全部楼层
70B和32B没有显著区别,不太能用吧。

要上就上全量的671B
发表于 2025-2-17 17:25 | 显示全部楼层
搞70B干嘛,上32B的。R1这个70B基座模型是llama3,效果和qwen 32B半斤八两,一个偏英文,一个偏中文。32B的效果已经很好了,关键速度还快。

发表于 2025-2-17 17:09 | 显示全部楼层
671B量化成最小的1.58那个模型,只有133GB大小,应该跑着每问题
 楼主| 发表于 2025-2-17 16:55 | 显示全部楼层
a010301208 发表于 2025-2-17 16:53
你是直接硬跑的吧,那肯定速度不对啊,参考这个https://github.com/kvcache-ai/ktransformers

还有就是 ...

膜拜大佬,先下班,明天啃一下。感谢感谢!!!
发表于 2025-2-17 16:53 | 显示全部楼层
本帖最后由 a010301208 于 2025-2-17 16:56 编辑
TincoJ 发表于 2025-2-17 16:49
我用了一台淘汰的服务器上的虚拟机,给了50核,200GB内存,但是跑32b的速度都不算太理想,可能是CPU太老 ...


你是直接硬跑的吧,那肯定速度不对啊,参考这个https://github.com/kvcache-ai/ktransformers

还有就是我刚才发给你那个原版1.58bit的,你要是用什么llama那些蒸馏的硬跑肯定不行,那些模型本来就是高占用低智商

 楼主| 发表于 2025-2-17 16:49 | 显示全部楼层
a010301208 发表于 2025-2-17 16:40
如果你用的是服务器主板的话,24G显存加8根32G内存就足够跑起来这个了,后面运行速度无非就是继续加显卡 ...

我用了一台淘汰的服务器上的虚拟机,给了50核,200GB内存,但是跑32b的速度都不算太理想,可能是CPU太老了,Intel(R) Xeon(R) Gold 6132 CPU @ 2.60GHz

1TB内存的新服务器也是有的,搞了一台192GB内存的虚拟机测试,效果只是改善一点点。
发表于 2025-2-17 16:40 | 显示全部楼层
TincoJ 发表于 2025-2-17 16:38
我看过这个,老板意思是可以继续加卡去跑这个671B,主要是担心扛不住内网的用户,token速度低。
所以想着 ...

如果你用的是服务器主板的话,24G显存加8根32G内存就足够跑起来这个了,后面运行速度无非就是继续加显卡
 楼主| 发表于 2025-2-17 16:38 | 显示全部楼层
a010301208 发表于 2025-2-17 16:26
建议跑这个原版量化的https://unsloth.ai/blog/deepseekr1-dynamic#running%20r1

那些70B 32B都不是原版 ...

我看过这个,老板意思是可以继续加卡去跑这个671B,主要是担心扛不住内网的用户,token速度低。
所以想着先搞个本地的跑70B,智障就智障点,先确保局域网内的速度可用。
 楼主| 发表于 2025-2-17 16:33 | 显示全部楼层
nagashinn 发表于 2025-2-17 16:26
人用还是程序用?
程序用跟着其他机器云厂商走。人用,你们可真奢侈。

大佬。。。是人用。。。
 楼主| 发表于 2025-2-17 16:32 | 显示全部楼层
awpak78 发表于 2025-2-17 16:27
半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分 ...

显卡预算大概10±1万
发表于 2025-2-17 16:28 | 显示全部楼层
autobotsop 发表于 2025-2-17 16:12
同问 服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集 和清华的Ktransformers无缘 ...

不用AMX的v0.2也有8t/s
发表于 2025-2-17 16:27 | 显示全部楼层
半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分享与交流用户体验)

根据预算充裕程度把P100升级成Tesla V100,Quadro RTX 8000,或者NVIDIA L20
发表于 2025-2-17 16:26 | 显示全部楼层
本帖最后由 a010301208 于 2025-2-17 16:36 编辑
TincoJ 发表于 2025-2-17 16:23
生产行业,不给联网主要是。。。


建议跑这个原版量化的,最低那个版本显存加内存一共200G不到就能跑了,显存占比越大上下文越多https://unsloth.ai/blog/deepseekr1-dynamic#running%20r1

那些70B 32B都不是原版,说白了就是用一个白痴模型去学习DS,但是因为本身很弱智,所以再怎么学还是弱智
发表于 2025-2-17 16:26 | 显示全部楼层
人用还是程序用?
程序用跟着其他机器云厂商走。人用,你们可真奢侈。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-11-3 08:28 , Processed in 0.012516 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表