同样的模型m3max64G可以跑到6~7tokens/s KTransformer目前还有很多问题要解决,尤其是并发还不行。自己玩玩可以,多人需要使用的话没法弄。
从原理上来说他很难优化到并发可用的程度,目前只支持单线操作,并发也是队列的模式。
本帖最后由 网仙 于 2025-2-17 22:58 编辑
a010301208 发表于 2025-2-17 16:53
你是直接硬跑的吧,那肯定速度不对啊,参考这个https://github.com/kvcache-ai/ktransformers
还有就是 ...
这两天也在研究KTransformer,
如果你内存够512G,CPU不是太旧,单卡4090运行671b的Q4模型,应该可以到15tk/s的输出能力,很多人都已经跑起来了。
不过,他还有很多问题,官方团队正在努力进化中。
从用户侧体验的角度,目前KT需要解决的还有几个问题:
1,双路平台的内存cpu的资源利用率问题,目前需要双倍的内存支持。
2,不同硬件条件下的性能优化,降低部署难度;
3,多Gpu的性能协同(单4090 24G的瓶颈在那里,要提升上下文长度,提升输出性能,就得增加GPU和显存了)
4,API(UI接口)的易用性/稳定性
5,在一定程度上优化并发的能力(KT的原理决定了他无法实现很强的并发性能的,后续如果能支持多卡运行,可能会好一些) autobotsop 发表于 2025-2-17 16:12
同问 服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集 和清华的Ktransformers无缘 ...
没有AMX指令,仅仅影响预加载的速度(prefill),对decode能力没啥影响。
你这个主要是内存不及格,需要480G或者512G才能跑671B的Q4. 兄弟,跟你差不多情况,11万出头,thinkstation px 双1850电源 2cpu 128gb 3 4090,70b的6位,还行。 lyys 发表于 2025-2-17 20:29
最近这股风啊,得散了!搞得全民ds,什么14、32、70B,都是渣渣,倒是把买教程的人赚惨了。
671B fp16可是1 ...
很多国企事业单位都在搞。泼天的富贵啊,希望某为某线程啥的能接住。 流浪的疾风 发表于 2025-2-18 08:40
兄弟,跟你差不多情况,11万出头,thinkstation px 双1850电源 2cpu 128gb 3 4090,70b的6位,还行。 ...
目前就在对比PX以及H3C的R4900了。[流泪]
4卡的话预算是都超了 TincoJ 发表于 2025-2-18 14:54
目前就在对比PX以及H3C的R4900了。
4卡的话预算是都超了
可以尝试4张3090,px的话能在10万内
页:
1
[2]