找回密码
 加入我们
搜索
      
查看: 2803|回复: 25

[CPU] Ktransformers 0.2.4 发布,671B Q4 单卡4090D四路并发 40tk/s

[复制链接]
发表于 2025-4-2 16:26 | 显示全部楼层 |阅读模式
本帖最后由 KimmyGLM 于 2025-4-2 16:33 编辑

老英这次全程支持KT,给了很多资料,硬件上直接给了目前服务器的天花板:

Xeon 6 6980P 双路
MRDIMM 1T 8800 DDR5 12ch
4090D单卡

模型:671B Q4

https://github.com/kvcache-ai/kt ... en/balance-serve.md


速度:4*10tk/s

分析:MRDIMM  8800,单路理论带宽:844.8 G/s,双路实际带宽约有1.4T/s,高于9005的近1T 带宽;
而4090D的带宽只有1T,这也解释了上面链接中提到的4090D成为整个程序的短板,预计更换1.8T带宽的5090还有更大提升!


0.2.4目前没有应用amx加速,本月0.3版本会继续加入AMX,且开源!

多卡并发预计会在0.3发布后,陆续维护;

按这么个思路发展下去,Xeon 7已知加入fp8 amx加速,MRDIMM 按规划会来到12800的频率;

配合KT 框架,确实可以逐步剥离NV的集群。

国产骄傲!

评分

参与人数 2邪恶指数 +10 收起 理由
猪圈 + 5 就是NB
望月 + 5

查看全部评分

发表于 2025-4-2 16:53 | 显示全部楼层
推理确实有很多方案
nv主要卡的还是训练
发表于 2025-4-2 16:57 来自手机 | 显示全部楼层
这套平台也得30万了。。。要是96g版4090存在,还真说不好同等性能(多套提供服务),哪边便宜。。。
 楼主| 发表于 2025-4-2 16:57 | 显示全部楼层
kingofgu 发表于 2025-4-2 16:53
推理确实有很多方案
nv主要卡的还是训练

是的,一步步来嘛。
 楼主| 发表于 2025-4-2 16:59 | 显示全部楼层
StevenG 发表于 2025-4-2 16:57
这套平台也得30万了。。。要是96g版4090存在,还真说不好同等性能(多套提供服务),哪边便宜。。。 ...


现阶段用eypc 9005 + 6400内存跑,稍微慢点,但总体价格便宜不少;
其实再往下点,捡捡D4垃圾也可以,单卡并发能把老平台也抬一抬;日常使用,20token/s 就足够了
后续更新多卡并发的话,会更有意思
发表于 2025-4-2 17:05 | 显示全部楼层
用上12通道8800 MRDIMM才这个速度,4090D究竟是在加速还是减速?

搞不好vllm+ipex纯CPU跑都有这个速度了
 楼主| 发表于 2025-4-2 18:17 来自手机 | 显示全部楼层
awpak78 发表于 2025-4-2 17:05
用上12通道8800 MRDIMM才这个速度,4090D究竟是在加速还是减速?

搞不好vllm+ipex纯CPU跑都有这个速度了 ...

显然不可能,b站搜视频9005纯cpu满带宽跑q5才5token/s……
我自己的4060ti 16g+768g跑kt q4 10.5token;
发表于 2025-4-2 21:31 | 显示全部楼层
KimmyGLM 发表于 2025-4-2 18:17
显然不可能,b站搜视频9005纯cpu满带宽跑q5才5token/s……
我自己的4060ti 16g+768g跑kt q4 10.5token;
...

大佬什么cpu?768 是 96*8?还是64*12?
 楼主| 发表于 2025-4-2 21:44 来自手机 | 显示全部楼层
os39000 发表于 2025-4-2 21:31
大佬什么cpu?768 是 96*8?还是64*12?

48×16,现阶段24 48 96g的d5最便宜
发表于 2025-4-2 22:11 | 显示全部楼层
KimmyGLM 发表于 2025-4-2 18:17
显然不可能,b站搜视频9005纯cpu满带宽跑q5才5token/s……
我自己的4060ti 16g+768g跑kt q4 10.5token;
...

大佬,求 4060ti 16g + 768g硬件方案
发表于 2025-4-3 11:13 | 显示全部楼层
KimmyGLM 发表于 2025-4-2 18:17
显然不可能,b站搜视频9005纯cpu满带宽跑q5才5token/s……
我自己的4060ti 16g+768g跑kt q4 10.5token;
...


大佬真心请教下,如果我手里有32G甚至48G的显卡,KT多分几层任务到显卡上,搭配8*64G共512G内存,Q4能达到10token/s以上么?
还是说,16G显存基本够了,再上多卡对KT这种框架提升不了太多,但是8*128G内存可能会快不少?
发表于 2025-4-3 11:39 | 显示全部楼层
望月 发表于 2025-4-3 11:13
大佬真心请教下,如果我手里有32G甚至48G的显卡,KT多分几层任务到显卡上,搭配8*64G共512G内存,Q4能达 ...

超过最低限制之后,跟单条容量没关系。单CPU,260GB/s(8x5200)可以做到12tps,360GB/s(12x4800)可以做到13.5tps

评分

参与人数 1邪恶指数 +5 收起 理由
望月 + 5

查看全部评分

发表于 2025-4-3 11:46 | 显示全部楼层
望月 发表于 2025-4-3 11:13
大佬真心请教下,如果我手里有32G甚至48G的显卡,KT多分几层任务到显卡上,搭配8*64G共512G内存,Q4能达 ...

显存越大上下文长度可以更大,其实像写小说这种,一次要输出几万字的才爽

评分

参与人数 1邪恶指数 +5 收起 理由
望月 + 5

查看全部评分

发表于 2025-4-3 11:48 | 显示全部楼层
对目前的这种兴趣都不大了,等R2,R3以后慢慢把模型做小,300B性能超过671B,100B性能超过300B,这才是趋势
发表于 2025-4-3 12:03 来自手机 | 显示全部楼层
推理本来也用不着非得nv多年前就有方案,主要是训练,部署算个鸡儿的事……
 楼主| 发表于 2025-4-3 12:55 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-4-3 13:10 编辑
望月 发表于 2025-4-3 11:13
大佬真心请教下,如果我手里有32G甚至48G的显卡,KT多分几层任务到显卡上,搭配8*64G共512G内存,Q4能达 ...


这是目前官方自己统计的跑通明细表,可以参考;
多卡并发从群里讨论来看,是可以提高decode速度的,而且应对长文时更是必不可少;
以上需要建立在:服务器内存带宽至少要有个500G /s 以上才行,否则再怎么加卡并发,天花板明显(可以参考表格中D4 平台的速度)

PS. 内存容量是你要跑的模型的双倍即可,用numa+1,  这样可以大约快个20%;
不好的在于,拉取模型到内存中时间较长;

核心思路就是:整个服务器平台的内存带宽,和显卡本身的带宽,差距不要太大即可;
比如像我这种4060ti , 就严重制约了速度;改用4070ti super的话,预计14-15token/s


https://swcil84qspu.feishu.cn/wiki/ZlhBwiSyEiZWyMkMdtDcpNyLnlf

评分

参与人数 1邪恶指数 +5 收起 理由
望月 + 5

查看全部评分

 楼主| 发表于 2025-4-3 13:13 | 显示全部楼层
endlessbest 发表于 2025-4-2 22:11
大佬,求 4060ti 16g + 768g硬件方案

看下面的官方统计链接即可;

我是实在预算有限才上的4060ti,有条件的话,3090/4070tisuper更合适;16G 以上安培结构之后的新显卡,显存越大越好;

8575C单路,768G 5600 d5 8ch,主板(超微/技嘉)

或者9005 eypc,12ch 6400 (实际跑6000),主板(超微/技嘉)



发表于 2025-4-7 10:57 | 显示全部楼层
KimmyGLM 发表于 2025-4-3 12:55
这是目前官方自己统计的跑通明细表,可以参考;
多卡并发从群里讨论来看,是可以提高decode速度的,而且 ...

嗯,工作环境原因,我这边不是成本考虑,更多是从平台架构上摸索,我能摸到现在I家和A家的桌面和工作站,但是摸不到服务器。

所以这么看来,桌面平台我哪怕能上NV的48G的专业卡,内存带宽不够(桌面只能上4条内存2DPC)的瓶颈解决不了。 这样的话,最多跑跑2.51量化,肯定跑不了Q4。
反过来,想跑Q4以上,大概率还是得上高端工作站平台,8条内存。然后显卡那就多多益善了,能上4*48G的卡,对于长文肯定远好于单卡。

这样理解对嘛?
 楼主| 发表于 2025-4-7 11:01 | 显示全部楼层
望月 发表于 2025-4-7 10:57
嗯,工作环境原因,我这边不是成本考虑,更多是从平台架构上摸索,我能摸到现在I家和A家的桌面和工作站, ...

你要预算足够,上Tr Pro,线撕7995wx,八通道D5带宽300G+,兼顾家用和游戏,足够强悍了
显卡就你说的,看着选即可,单卡4090 48G 比较合适,再有钱就多加卡。

评分

参与人数 1邪恶指数 +5 收起 理由
望月 + 5

查看全部评分

发表于 2025-4-7 11:09 | 显示全部楼层
这速度已经具备了生成环境部署的意义了。。。
发表于 2025-4-7 11:20 | 显示全部楼层
之所以用4090是因为cpu本身跑不满带宽么
发表于 2025-4-7 14:06 | 显示全部楼层
KimmyGLM 发表于 2025-4-7 11:01
你要预算足够,上Tr Pro,线撕7995wx,八通道D5带宽300G+,兼顾家用和游戏,足够强悍了
显卡就你说的,看 ...

哈哈,我没有“预算”

我的工作,身边可以比较方便接触到Intel和AMD桌面级别最新的平台,例如A家ZEN5和I家的ARL,所以我优先想要搞明白桌面级别平台,大概能力能做到啥。

然后,身边不太方便但是可以弄到的,是工作站平台,W5 W7 W9那种CPU单路+8条内存的,如果说上面桌面平台能力实在太差,想带起来R1 Q4必须是这个平台以上,我就想办法去搞,就是麻烦一些。

谢谢大佬指点啦
发表于 2025-4-7 16:18 | 显示全部楼层
KimmyGLM 发表于 2025-4-7 11:01
你要预算足够,上Tr Pro,线撕7995wx,八通道D5带宽300G+,兼顾家用和游戏,足够强悍了
显卡就你说的,看 ...

7995不超内存的话就只有270GB/s, 游戏由于核心数太多也比较差,绝大多数情况下不如64核的7985wx,跑ktransformers的话也就12.5tps,远不如9004的epyc性价比高

https://www.chiphell.com/thread-2667886-1-1.html
发表于 2025-4-7 16:55 | 显示全部楼层
LNT 发表于 2025-4-7 16:18
7995不超内存的话就只有270GB/s, 游戏由于核心数太多也比较差,绝大多数情况下不如64核的7985wx,跑ktra ...

只恨财力不足……7995真是太贵了。一颗CPU的钱搞eypc 9554双路+12通道1T内存+主板都快够了吧?12通道内存带宽好像330T+。
发表于 2025-4-7 17:00 来自手机 | 显示全部楼层
Xeon6+MRDIMM 8800+双路才跑到这个速度的,这套平台里内存带宽都赶上显存带宽了,成本太高
 楼主| 发表于 2025-4-8 08:40 | 显示全部楼层
港城钢铁侠 发表于 2025-4-7 17:00
Xeon6+MRDIMM 8800+双路才跑到这个速度的,这套平台里内存带宽都赶上显存带宽了,成本太高 ...

B站有实测,MRDIMM 8800可以直接超到12800,太tm吓人了。
现在这套中最贵的是U,板子现在技嘉已经出了单路MA34-CP0,内存咸鱼有卖,勉强还算便宜;
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 05:33 , Processed in 0.015925 second(s), 13 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表