找回密码
 加入我们
搜索
      
查看: 866|回复: 20

[装机] 来交个国庆期间的作业,DIY 4U显卡扩展柜助力个人AI大模型部署,刷入P2P破解内核

[复制链接]
发表于 2025-10-15 19:41 | 显示全部楼层 |阅读模式
本帖最后由 港城钢铁侠 于 2025-10-15 19:43 编辑


其实这已经不是第一次折腾了,6月份的时候斥资2个W搞了台Xeon 5代8562Y+ ES + 8*48G DDR5 5600 RECC + 5060Ti 16G的混合推理设备,那个时候就是纯跟风,这套跑Deepseek R1 058 UD-Q2量化也能有个14t/s,但是随着claude code这类agent工具的推出,慢慢发现混合推理的prefill的速度是没法看的,实际体现就是接入到工具里写一个简单的前端界面10分钟过去才有响应 。6月-9月初期间一直在研究合适的方案,4卡v100 32G, 3080 20G甚至是3090都有考虑过。无意间发现Nvidia在Blackwell架构上推的NVFP4量化慢慢成熟,期间自己租用云平台测试了下发现效果确实可以,于是便有了本次的方案。

由于本身家里已经有机柜了,并且机柜的深度是600MM,在不想换机柜的前提下,需要设计一个能放入机柜内不影响接线的箱子并且显卡至少要支持供电在尾部的公版显卡。为了进一步简化线材数量和适配家用平台主板,最终没有使用成本更低的直通方案,而是选择了39com家的PCIE 4.0 Switch(芯片PEX88096)的方案。好在卖家很好说话,要到了板子的设计图,于是便有了以下设计
01.jpg
02.jpg


设计图有了接下来就是找到合适的机箱模具和加工厂,上面提到过,机柜本身只有600mm深,实际测下来在不移动默认架子位置的情况下最多上400mm深的机箱,再深一点后面的线都会没法插。好在最后在某宝上找到了4U 400MM深的机箱,和卖家沟通后也愿意接我这个单子。赶在他们国庆前放假最后一天把箱子做好给我寄了过来
03.jpg
04.jpg

接下来就是装机上柜,这地方很顺利,孔位很精准,公差很小:
05.jpg
06.jpg
07.jpg
08.jpg


装机后遇到一点问题,这个PLX板子用的自动同步启停模式,主机上电后PLX板子也自动通电,但是这个板子的启动速度比较慢,导致进入系统后看不到设备。系统用的ubuntu server 24.04,最后在ubuntu内核的启动设置里加了个脚本,强行等待1分钟后再次扫描PCIE的设备,最后解决了这个问题。本以为已经完美了,结果又发现这个PLX板子在我主机关机后不能跟随断电,咨询卖家后,卖家的解释是可能是我的主机的板子是AMD,和他家的PLX板子有一些兼容性问题,让我有空把板子发回去让他们再测试下,不得不说卖家的售后服务还是很不错的,不过我这边折腾完国庆放假还没结束就从老家回苏州了,所以只能等下次有机会再和卖家研究下具体问题了。好在我有智能插排,可以在主机关机后控制插排直接断电,也算是变相解决了这个问题。后续刷入Github上的nvidia破解内核,BIOS和系统启动参数里都关闭IOMMU,就能看到P2P已经成功开启了!并且P2P时显卡走PCIE Switch通信,不需要走CPU,延迟大大降低!美中不足的地方是5060Ti这张卡实际上只有x8通道,所以插在这个PLX板子上后就只有4.0 x8的带宽了。
09.jpg
10.jpg
11.jpg

附上Qwen3-next-80B-A3B-AWQ的数据,目前vllm跑MOE模型的nvfp4量化还存在问题,所以这边只测AWQ的速度。可以看到纯显卡的prefill速度非常给力,实际接入到claude code或者qwen code这类的工具里也是响应地飞快,体验丝毫不逊于在线的API,并且没有token焦虑。
12.jpg
13.jpg


附上一张跑字节的Seed-OSS-36B-Instruct-NVFP4时的功耗 ,nvidia-smi里显示每张卡都是120w左右的功耗,实际肯定是还要再高个几W,也就是说PLX板子的实际功耗在35w左右
14.jpg


最后总结:
vllm+Blackwell+NVFP4量化目前在Dense模型上已经很成熟了,我自己量化了很多模型都能跑通,但是在跑MOE模型的nvfp4量化时还存在错误,在github上已经看到有了PR修复了这个问题,相信没多久就可以merge到下个版本了。4卡5060Ti 16G目前的这套配置能跑80B以内的Dense/MOE模型并且有着不错的速度,在视频生成和图片生成上也可以使用python脚本实现多卡并行(comfyui暂时没有成熟方案),接入到claude code中也能干一定到活,尽管目前80B内还没有特别好的coder专精模型。下一步可能会考虑AMD阵营到ai pro r9700,据说Rocm 7.0很不错了,这个卡的推理速度和5070Ti差不多,显存大一倍 ,4卡128G显存跑个GLM 4.5 Air的FP8好像也不错






 楼主| 发表于 2025-10-15 20:33 | 显示全部楼层
更新Seed-OSS-36B(豆包1.6开源版)NVFP4量化版的一些测试
截屏2025-10-15 20.26.59.png
截屏2025-10-15 20.29.00.png
截屏2025-10-15 20.29.57.png
截屏2025-10-15 20.32.20.png
发表于 2025-10-15 20:34 来自手机 | 显示全部楼层
👍 求问楼主智能插排的品牌型号或者链接
发表于 2025-10-15 20:36 来自手机 | 显示全部楼层
purityWang 发表于 2025-10-15 20:34
👍 求问楼主智能插排的品牌型号或者链接

奥,看到插排型号了
发表于 2025-10-15 20:38 来自手机 | 显示全部楼层
purityWang 发表于 2025-10-15 20:36
奥,看到插排型号了

怎么京东搜p8pro搜不出来呢
 楼主| 发表于 2025-10-15 20:43 来自手机 | 显示全部楼层
purityWang 发表于 2025-10-15 20:38
怎么京东搜p8pro搜不出来呢

直接搜向日葵智能PDU
发表于 2025-10-15 20:49 来自手机 | 显示全部楼层
港城钢铁侠 发表于 2025-10-15 20:43
直接搜向日葵智能PDU

好的,感谢
发表于 2025-10-15 21:52 | 显示全部楼层
向日葵这个PDU能脱离云,局域网本地访问吗?telnet,snmp之类的
 楼主| 发表于 2025-10-15 22:01 来自手机 | 显示全部楼层
blackbeardever 发表于 2025-10-15 21:52
向日葵这个PDU能脱离云,局域网本地访问吗?telnet,snmp之类的

应该不能
发表于 2025-10-15 22:51 | 显示全部楼层
这个pcie switch内部和外部都是pcie4.0x16吗?能否看一下nvidia-smi topo -m。谢谢
 楼主| 发表于 2025-10-15 23:17 来自手机 | 显示全部楼层
q3again0605 发表于 2025-10-15 22:51
这个pcie switch内部和外部都是pcie4.0x16吗?能否看一下nvidia-smi topo -m。谢谢

内部80条PCIE 4.0,上行16条PCIE 4.0,80条可以有多种模式,默认是全x16
发表于 2025-10-16 00:50 | 显示全部楼层
学习 优秀的作业
发表于 2025-10-16 01:23 来自手机 | 显示全部楼层
考虑过双卡 RTX 4090 48G 或 RTX PRO 6000 吗,5/6w左右搞定
 楼主| 发表于 2025-10-16 01:44 来自手机 | 显示全部楼层
l泰然处之01 发表于 2025-10-16 01:23
考虑过双卡 RTX 4090 48G 或 RTX PRO 6000 吗,5/6w左右搞定

没有,成本太高了,宁愿选4卡3090
发表于 2025-10-16 08:26 来自手机 | 显示全部楼层
五代至强有amx指令集了,用ktransformer应该能加速prefill,你目前的方案,纯用显卡?那内存和cpu的投入浪费了呀
 楼主| 发表于 2025-10-16 09:11 来自手机 | 显示全部楼层
StevenG 发表于 2025-10-16 08:26
五代至强有amx指令集了,用ktransformer应该能加速prefill,你目前的方案,纯用显卡?那内存和cpu的投入浪 ...

你说的我都试过了,ktransformers基本已经停止维护了,而且ktransformers的AMX实现是需要原版BF16模型,比如我要跑个Qwen3-235B-A22B的int8,需要先加载原版BF16模型到内存里再实时量化,原版模型那体量内存给你干爆了。实际上混合推理最快的还是ik_llama.cpp,还有一个fastllm也不错,kt是这几个里支持性和兼容性都最差的
 楼主| 发表于 2025-10-16 09:13 来自手机 | 显示全部楼层
StevenG 发表于 2025-10-16 08:26
五代至强有amx指令集了,用ktransformer应该能加速prefill,你目前的方案,纯用显卡?那内存和cpu的投入浪 ...

没有实践就没有发言权,你以为的AMX指令集加速prefill效果很快么?实际sglang也支持了amx,我在卖掉这一套前做了个测试,Qwen3-Coder-30B的prefill速度可以到1500t/s,但是你知道纯显卡方案的数据是这个的多少倍么
发表于 2025-10-16 09:33 | 显示全部楼层
大佬能有偿帮忙部署吗?
 楼主| 发表于 2025-10-16 09:43 来自手机 | 显示全部楼层
装陈醋的酱油瓶 发表于 2025-10-16 09:33
大佬能有偿帮忙部署吗?

可以啊,私聊吧
发表于 2025-10-16 09:48 | 显示全部楼层
本帖最后由 chm128256 于 2025-10-16 09:55 编辑

我是使用的PEX88048,搭配2块RTX3090@ NVLINK。
感觉5060TI性价比很高了啊。
88048一共50条通道,其中48条可用,16条上行,内部我条线选的8X*4,配合2根8654-8i的线,所以3090@GEN4.0 X8与cpu通讯带宽13G左右
Screenshot from 2025-10-16 09-42-57.png
双卡通讯带宽和CPU访问延迟都很低
Screenshot from 2025-10-16 09-43-13.png
卡间通讯和拓扑结构
Screenshot from 2025-10-16 09-43-47.png
发表于 2025-10-16 10:04 | 显示全部楼层
2U服务器如果想加显卡,5060TI这种双风扇的合适吗?还是要用涡轮散热的显卡
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-10-16 10:06 , Processed in 0.012565 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表