Deepseek局域网内部署需求

netjunegg · 发表于 2025-2-17 20:53

看来大模型是刚需啊, 厂商们加油啊, 好钢用在刀刃上

LNT · 发表于 2025-2-17 22:21

70b q4_k_m，单人跑起来大概41G多显存，一张4090 48G可以跑到18tokens/s
同样的模型m3max 64G可以跑到6~7tokens/s

网仙 · 发表于 2025-2-17 22:46

KTransformer目前还有很多问题要解决，尤其是并发还不行。自己玩玩可以，多人需要使用的话没法弄。
从原理上来说他很难优化到并发可用的程度，目前只支持单线操作，并发也是队列的模式。

网仙 · 发表于 2025-2-17 22:54

本帖最后由网仙于 2025-2-17 22:58 编辑

a010301208 发表于 2025-2-17 16:53
你是直接硬跑的吧，那肯定速度不对啊，参考这个https://github.com/kvcache-ai/ktransformers

还有就是 ...

这两天也在研究KTransformer，

如果你内存够512G，CPU不是太旧，单卡4090运行671b的Q4模型，应该可以到15tk/s的输出能力，很多人都已经跑起来了。

不过，他还有很多问题，官方团队正在努力进化中。

从用户侧体验的角度，目前KT需要解决的还有几个问题：
1，双路平台的内存cpu的资源利用率问题，目前需要双倍的内存支持。
2，不同硬件条件下的性能优化，降低部署难度；
3，多Gpu的性能协同（单4090 24G的瓶颈在那里，要提升上下文长度，提升输出性能，就得增加GPU和显存了）
4，API（UI接口）的易用性/稳定性
5，在一定程度上优化并发的能力（KT的原理决定了他无法实现很强的并发性能的，后续如果能支持多卡运行，可能会好一些）

网仙 · 发表于 2025-2-17 22:57

autobotsop 发表于 2025-2-17 16:12
同问服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集和清华的Ktransformers无缘 ...

没有AMX指令，仅仅影响预加载的速度（prefill），对decode能力没啥影响。
你这个主要是内存不及格，需要480G或者512G才能跑671B的Q4.

流浪的疾风 · 发表于 2025-2-18 08:40

兄弟，跟你差不多情况，11万出头，thinkstation px 双1850电源 2cpu 128gb 3 4090，70b的6位，还行。

声色茶马 · 发表于 2025-2-18 08:49

lyys 发表于 2025-2-17 20:29
最近这股风啊，得散了！搞得全民ds，什么14、32、70B，都是渣渣，倒是把买教程的人赚惨了。
671B fp16可是1 ...

很多国企事业单位都在搞。泼天的富贵啊，希望某为某线程啥的能接住。

TincoJ · 发表于 2025-2-18 14:54

流浪的疾风发表于 2025-2-18 08:40
兄弟，跟你差不多情况，11万出头，thinkstation px 双1850电源 2cpu 128gb 3 4090，70b的6位，还行。 ...

目前就在对比PX以及H3C的R4900了。

4卡的话预算是都超了

流浪的疾风 · 发表于 2025-2-18 20:15

TincoJ 发表于 2025-2-18 14:54
目前就在对比PX以及H3C的R4900了。
4卡的话预算是都超了

可以尝试4张3090，px的话能在10万内

账号		自动登录	找回密码
密码			加入我们

[主板] Deepseek局域网内部署需求

浏览过的版块