来交个国庆期间的作业，DIY 4U显卡扩展柜助力个人AI大模型部署，刷入P2P破解内核

港城钢铁侠 发表于 2025-10-15 19:41

本帖最后由港城钢铁侠于 2025-10-15 19:43 编辑

其实这已经不是第一次折腾了，6月份的时候斥资2个W搞了台Xeon 5代8562Y+ ES + 8*48G DDR5 5600 RECC + 5060Ti 16G的混合推理设备，那个时候就是纯跟风，这套跑Deepseek R1 058 UD-Q2量化也能有个14t/s，但是随着claude code这类agent工具的推出，慢慢发现混合推理的prefill的速度是没法看的，实际体现就是接入到工具里写一个简单的前端界面10分钟过去才有响应[流汗] 。6月-9月初期间一直在研究合适的方案，4卡v100 32G， 3080 20G甚至是3090都有考虑过。无意间发现Nvidia在Blackwell架构上推的NVFP4量化慢慢成熟，期间自己租用云平台测试了下发现效果确实可以，于是便有了本次的方案。

由于本身家里已经有机柜了，并且机柜的深度是600MM，在不想换机柜的前提下，需要设计一个能放入机柜内不影响接线的箱子并且显卡至少要支持供电在尾部的公版显卡。为了进一步简化线材数量和适配家用平台主板，最终没有使用成本更低的直通方案，而是选择了39com家的PCIE 4.0 Switch（芯片PEX88096)的方案。好在卖家很好说话，要到了板子的设计图，于是便有了以下设计

设计图有了接下来就是找到合适的机箱模具和加工厂，上面提到过，机柜本身只有600mm深，实际测下来在不移动默认架子位置的情况下最多上400mm深的机箱，再深一点后面的线都会没法插。好在最后在某宝上找到了4U 400MM深的机箱，和卖家沟通后也愿意接我这个单子。赶在他们国庆前放假最后一天把箱子做好给我寄了过来

接下来就是装机上柜，这地方很顺利，孔位很精准，公差很小：

装机后遇到一点问题，这个PLX板子用的自动同步启停模式，主机上电后PLX板子也自动通电，但是这个板子的启动速度比较慢，导致进入系统后看不到设备。系统用的ubuntu server 24.04，最后在ubuntu内核的启动设置里加了个脚本，强行等待1分钟后再次扫描PCIE的设备，最后解决了这个问题。本以为已经完美了，结果又发现这个PLX板子在我主机关机后不能跟随断电，咨询卖家后，卖家的解释是可能是我的主机的板子是AMD，和他家的PLX板子有一些兼容性问题，让我有空把板子发回去让他们再测试下，不得不说卖家的售后服务还是很不错的，不过我这边折腾完国庆放假还没结束就从老家回苏州了，所以只能等下次有机会再和卖家研究下具体问题了。好在我有智能插排，可以在主机关机后控制插排直接断电，也算是变相解决了这个问题。后续刷入Github上的nvidia破解内核，BIOS和系统启动参数里都关闭IOMMU，就能看到P2P已经成功开启了！并且P2P时显卡走PCIE Switch通信，不需要走CPU，延迟大大降低！美中不足的地方是5060Ti这张卡实际上只有x8通道，所以插在这个PLX板子上后就只有4.0 x8的带宽了。

附上Qwen3-next-80B-A3B-AWQ的数据，目前vllm跑MOE模型的nvfp4量化还存在问题，所以这边只测AWQ的速度。可以看到纯显卡的prefill速度非常给力，实际接入到claude code或者qwen code这类的工具里也是响应地飞快，体验丝毫不逊于在线的API，并且没有token焦虑。

附上一张跑字节的Seed-OSS-36B-Instruct-NVFP4时的功耗[偷笑] ，nvidia-smi里显示每张卡都是120w左右的功耗，实际肯定是还要再高个几W，也就是说PLX板子的实际功耗在35w左右

最后总结：
vllm+Blackwell+NVFP4量化目前在Dense模型上已经很成熟了，我自己量化了很多模型都能跑通，但是在跑MOE模型的nvfp4量化时还存在错误，在github上已经看到有了PR修复了这个问题，相信没多久就可以merge到下个版本了。4卡5060Ti 16G目前的这套配置能跑80B以内的Dense/MOE模型并且有着不错的速度，在视频生成和图片生成上也可以使用python脚本实现多卡并行（comfyui暂时没有成熟方案），接入到claude code中也能干一定到活，尽管目前80B内还没有特别好的coder专精模型。下一步可能会考虑AMD阵营到ai pro r9700，据说Rocm 7.0很不错了，这个卡的推理速度和5070Ti差不多，显存大一倍[偷笑] ，4卡128G显存跑个GLM 4.5 Air的FP8好像也不错

港城钢铁侠 发表于 2025-10-15 20:33

更新Seed-OSS-36B（豆包1.6开源版）NVFP4量化版的一些测试

purityWang 发表于 2025-10-15 20:34

👍 求问楼主智能插排的品牌型号或者链接

purityWang 发表于 2025-10-15 20:36

purityWang 发表于 2025-10-15 20:34
👍 求问楼主智能插排的品牌型号或者链接

奥，看到插排型号了

purityWang 发表于 2025-10-15 20:38

purityWang 发表于 2025-10-15 20:36
奥，看到插排型号了

怎么京东搜p8pro搜不出来呢

港城钢铁侠 发表于 2025-10-15 20:43

purityWang 发表于 2025-10-15 20:38
怎么京东搜p8pro搜不出来呢

直接搜向日葵智能PDU

purityWang 发表于 2025-10-15 20:49

港城钢铁侠发表于 2025-10-15 20:43
直接搜向日葵智能PDU

好的，感谢

blackbeardever 发表于 2025-10-15 21:52

向日葵这个PDU能脱离云，局域网本地访问吗？telnet，snmp之类的

港城钢铁侠 发表于 2025-10-15 22:01

blackbeardever 发表于 2025-10-15 21:52
向日葵这个PDU能脱离云，局域网本地访问吗？telnet，snmp之类的

应该不能

q3again0605 发表于 2025-10-15 22:51

这个pcie switch内部和外部都是pcie4.0x16吗？能否看一下nvidia-smi topo -m。谢谢

港城钢铁侠 发表于 2025-10-15 23:17

q3again0605 发表于 2025-10-15 22:51
这个pcie switch内部和外部都是pcie4.0x16吗？能否看一下nvidia-smi topo -m。谢谢

内部80条PCIE 4.0，上行16条PCIE 4.0，80条可以有多种模式，默认是全x16

qp6g3o 发表于 2025-10-16 00:50

学习优秀的作业

l泰然处之01 发表于 2025-10-16 01:23

考虑过双卡 RTX 4090 48G 或 RTX PRO 6000 吗，5/6w左右搞定

港城钢铁侠 发表于 2025-10-16 01:44

l泰然处之01 发表于 2025-10-16 01:23
考虑过双卡 RTX 4090 48G 或 RTX PRO 6000 吗，5/6w左右搞定

没有，成本太高了，宁愿选4卡3090

StevenG 发表于 2025-10-16 08:26

五代至强有amx指令集了，用ktransformer应该能加速prefill，你目前的方案，纯用显卡？那内存和cpu的投入浪费了呀

港城钢铁侠 发表于 2025-10-16 09:11

StevenG 发表于 2025-10-16 08:26
五代至强有amx指令集了，用ktransformer应该能加速prefill，你目前的方案，纯用显卡？那内存和cpu的投入浪 ...

你说的我都试过了，ktransformers基本已经停止维护了[偷笑]，而且ktransformers的AMX实现是需要原版BF16模型，比如我要跑个Qwen3-235B-A22B的int8，需要先加载原版BF16模型到内存里再实时量化，原版模型那体量内存给你干爆了。实际上混合推理最快的还是ik_llama.cpp，还有一个fastllm也不错，kt是这几个里支持性和兼容性都最差的

港城钢铁侠 发表于 2025-10-16 09:13

StevenG 发表于 2025-10-16 08:26
五代至强有amx指令集了，用ktransformer应该能加速prefill，你目前的方案，纯用显卡？那内存和cpu的投入浪 ...

没有实践就没有发言权，你以为的AMX指令集加速prefill效果很快么？实际sglang也支持了amx，我在卖掉这一套前做了个测试，Qwen3-Coder-30B的prefill速度可以到1500t/s，但是你知道纯显卡方案的数据是这个的多少倍么

装陈醋的酱油瓶 发表于 2025-10-16 09:33

大佬能有偿帮忙部署吗?

港城钢铁侠 发表于 2025-10-16 09:43

装陈醋的酱油瓶发表于 2025-10-16 09:33
大佬能有偿帮忙部署吗?

可以啊，私聊吧

chm128256 发表于 2025-10-16 09:48

本帖最后由 chm128256 于 2025-10-16 12:59 编辑

我是使用的PEX88048，搭配2块RTX3090@ NVLINK。
感觉5060TI性价比很高了啊。
88048一共50条通道，其中48条可用，16条上行，88048卡上有4个8654-8i接口，背面跳线我选的8X*4,配合2根8654-8i的线，所以3090@GEN4.0 X8与cpu通讯带宽13G左右

双卡通讯带宽和CPU访问延迟都很低

卡间通讯和拓扑结构

diorhomme 发表于 2025-10-16 10:04

2U服务器如果想加显卡，5060TI这种双风扇的合适吗？还是要用涡轮散热的显卡

港城钢铁侠 发表于 2025-10-16 10:41

chm128256 发表于 2025-10-16 09:48
我是使用的PEX88048，搭配2块RTX3090@ NVLINK。
感觉5060TI性价比很高了啊。
88048一共50条通道，其中48条 ...

3090不是可以用nvlink bridge么，感觉都不需要上PLX

港城钢铁侠 发表于 2025-10-16 10:43

diorhomme 发表于 2025-10-16 10:04
2U服务器如果想加显卡，5060TI这种双风扇的合适吗？还是要用涡轮散热的显卡 ...

2U上全高卡只能横置啊，风扇不够暴力的话肯定涡轮更好，不过只上一张5060TI的话问题也不大，这卡满载就180W功耗，2U服务器的高速风扇把热量吹走没啥压力的

chm128256 发表于 2025-10-16 11:36

港城钢铁侠发表于 2025-10-16 10:41
3090不是可以用nvlink bridge么，感觉都不需要上PLX

我的nvlink是2-slot的，同时现在主板只有一个pcie16x,，支持拆分的双槽主板都没有2SLOT的，所以上了PLX。而且我也开启了NVLINK,最后一张图的NV4就是。

StevenG 发表于 2025-10-16 11:40

港城钢铁侠发表于 2025-10-16 09:13
没有实践就没有发言权，你以为的AMX指令集加速prefill效果很快么？实际sglang也支持了amx，我在卖掉这一 ...

kt没停止维护啊，10.10的日志，显示的是sglang集成了kt。。。这就是您说的sglang支持吧？

StevenG 发表于 2025-10-16 11:46

港城钢铁侠发表于 2025-10-16 09:13
没有实践就没有发言权，你以为的AMX指令集加速prefill效果很快么？实际sglang也支持了amx，我在卖掉这一 ...

不能这么比吧，kt是让用户有机会用全尺寸模型，你用30B这种两张卡就能装下模型，拿显存pk内存。。。

你改方案的本质，是小尺寸的模型就能满足你需求的前提下，越快越好，那肯定纯显卡方案更好的啦~未来个人场景肯定是小尺寸模型更适合，昨天看qwen3新出的8b vl模型已经媲美之前qwen2.5-vl-72b了

只能说你的决策是正确的，kt还是会有人折腾的

港城钢铁侠 发表于 2025-10-16 11:48

StevenG 发表于 2025-10-16 11:40
kt没停止维护啊，10.10的日志，显示的是sglang集成了kt。。。这就是您说的sglang支持吧？ ...

不是，sglang在8月份就自己把amx加速实现了，kt现在维护速度跟不上模型更新速度，到现在都不支持GLM，dense模型更是一堆都没有做适配，而且kt的推理效率比ik和fastllm都慢。群里面都说kt专门给企业去做商用方案了，开源的基本上看缘分维护

港城钢铁侠 发表于 2025-10-16 11:51

StevenG 发表于 2025-10-16 11:46
不能这么比吧，kt是让用户有机会用全尺寸模型，你用30B这种两张卡就能装下模型，拿显存pk内存。。。

你 ...

只能说你真自己用过kt就不会说这种话了。kt在几个混合推理框架里能效是最低的，支持性也是最差的，amx的实现也比不过sglang。

StevenG 发表于 2025-10-16 11:52

港城钢铁侠发表于 2025-10-16 11:48
不是，sglang在8月份就自己把amx加速实现了，kt现在维护速度跟不上模型更新速度，到现在都不支持GLM，den ...

行吧~也是，现在创业这么火，我要是他们也去折腾商业化~清华背景，融资不要太容易

StevenG 发表于 2025-10-16 11:53

港城钢铁侠发表于 2025-10-16 11:51
只能说你真自己用过kt就不会说这种话了。kt在几个混合推理框架里能效是最低的，支持性也是最差的，amx的 ...

就部署过一次，epyc跑着玩的，从我机柜腾了1t内存出来，prefill慢的出奇，就不折腾用公司的h800了。。

页: [1] 2 3

Chiphell - 分享与交流用户体验's Archiver

来交个国庆期间的作业，DIY 4U显卡扩展柜助力个人AI大模型部署，刷入P2P破解内核