找回密码
 加入我们
搜索
      
查看: 3207|回复: 75

[装机] 来交个国庆期间的作业,DIY 4U显卡扩展柜助力个人AI大模型部署,刷入P2P破解内核

[复制链接]
发表于 2025-10-15 19:41 | 显示全部楼层 |阅读模式
本帖最后由 港城钢铁侠 于 2025-10-15 19:43 编辑


其实这已经不是第一次折腾了,6月份的时候斥资2个W搞了台Xeon 5代8562Y+ ES + 8*48G DDR5 5600 RECC + 5060Ti 16G的混合推理设备,那个时候就是纯跟风,这套跑Deepseek R1 058 UD-Q2量化也能有个14t/s,但是随着claude code这类agent工具的推出,慢慢发现混合推理的prefill的速度是没法看的,实际体现就是接入到工具里写一个简单的前端界面10分钟过去才有响应 。6月-9月初期间一直在研究合适的方案,4卡v100 32G, 3080 20G甚至是3090都有考虑过。无意间发现Nvidia在Blackwell架构上推的NVFP4量化慢慢成熟,期间自己租用云平台测试了下发现效果确实可以,于是便有了本次的方案。

由于本身家里已经有机柜了,并且机柜的深度是600MM,在不想换机柜的前提下,需要设计一个能放入机柜内不影响接线的箱子并且显卡至少要支持供电在尾部的公版显卡。为了进一步简化线材数量和适配家用平台主板,最终没有使用成本更低的直通方案,而是选择了39com家的PCIE 4.0 Switch(芯片PEX88096)的方案。好在卖家很好说话,要到了板子的设计图,于是便有了以下设计
01.jpg
02.jpg


设计图有了接下来就是找到合适的机箱模具和加工厂,上面提到过,机柜本身只有600mm深,实际测下来在不移动默认架子位置的情况下最多上400mm深的机箱,再深一点后面的线都会没法插。好在最后在某宝上找到了4U 400MM深的机箱,和卖家沟通后也愿意接我这个单子。赶在他们国庆前放假最后一天把箱子做好给我寄了过来
03.jpg
04.jpg

接下来就是装机上柜,这地方很顺利,孔位很精准,公差很小:
05.jpg
06.jpg
07.jpg
08.jpg


装机后遇到一点问题,这个PLX板子用的自动同步启停模式,主机上电后PLX板子也自动通电,但是这个板子的启动速度比较慢,导致进入系统后看不到设备。系统用的ubuntu server 24.04,最后在ubuntu内核的启动设置里加了个脚本,强行等待1分钟后再次扫描PCIE的设备,最后解决了这个问题。本以为已经完美了,结果又发现这个PLX板子在我主机关机后不能跟随断电,咨询卖家后,卖家的解释是可能是我的主机的板子是AMD,和他家的PLX板子有一些兼容性问题,让我有空把板子发回去让他们再测试下,不得不说卖家的售后服务还是很不错的,不过我这边折腾完国庆放假还没结束就从老家回苏州了,所以只能等下次有机会再和卖家研究下具体问题了。好在我有智能插排,可以在主机关机后控制插排直接断电,也算是变相解决了这个问题。后续刷入Github上的nvidia破解内核,BIOS和系统启动参数里都关闭IOMMU,就能看到P2P已经成功开启了!并且P2P时显卡走PCIE Switch通信,不需要走CPU,延迟大大降低!美中不足的地方是5060Ti这张卡实际上只有x8通道,所以插在这个PLX板子上后就只有4.0 x8的带宽了。
09.jpg
10.jpg
11.jpg

附上Qwen3-next-80B-A3B-AWQ的数据,目前vllm跑MOE模型的nvfp4量化还存在问题,所以这边只测AWQ的速度。可以看到纯显卡的prefill速度非常给力,实际接入到claude code或者qwen code这类的工具里也是响应地飞快,体验丝毫不逊于在线的API,并且没有token焦虑。
12.jpg
13.jpg


附上一张跑字节的Seed-OSS-36B-Instruct-NVFP4时的功耗 ,nvidia-smi里显示每张卡都是120w左右的功耗,实际肯定是还要再高个几W,也就是说PLX板子的实际功耗在35w左右
14.jpg


最后总结:
vllm+Blackwell+NVFP4量化目前在Dense模型上已经很成熟了,我自己量化了很多模型都能跑通,但是在跑MOE模型的nvfp4量化时还存在错误,在github上已经看到有了PR修复了这个问题,相信没多久就可以merge到下个版本了。4卡5060Ti 16G目前的这套配置能跑80B以内的Dense/MOE模型并且有着不错的速度,在视频生成和图片生成上也可以使用python脚本实现多卡并行(comfyui暂时没有成熟方案),接入到claude code中也能干一定到活,尽管目前80B内还没有特别好的coder专精模型。下一步可能会考虑AMD阵营到ai pro r9700,据说Rocm 7.0很不错了,这个卡的推理速度和5070Ti差不多,显存大一倍 ,4卡128G显存跑个GLM 4.5 Air的FP8好像也不错






评分

参与人数 2邪恶指数 +20 收起 理由
vct00 + 10 请教大佬,整套多少钱呢?
weston + 10 就是NB

查看全部评分

发表于 2025-10-21 22:43 | 显示全部楼层
港城钢铁侠 发表于 2025-10-21 20:28
vl模型应该能跑吧,我记得不是30B的么,就算比纯text模型大,NVFP4量化64G显存肯定是够的 ...

实际推理的时候可能会 OOM,取决于输入的东西,推图片没啥问题
 楼主| 发表于 2025-10-21 20:28 来自手机 | 显示全部楼层
v62pmonr 发表于 2025-10-21 19:18
以前折腾nas网卡之类的的就看了楼主不少好帖,现在弄llm还准备猛抄一波作业,可64G显存文本还行,vl的模型 ...

vl模型应该能跑吧,我记得不是30B的么,就算比纯text模型大,NVFP4量化64G显存肯定是够的
发表于 2025-10-21 19:18 | 显示全部楼层
以前折腾nas网卡之类的的就看了楼主不少好帖,现在弄llm还准备猛抄一波作业,可64G显存文本还行,vl的模型有点跑不起来,弄两块4090 48G又有点舍不得下手。
发表于 2025-10-18 16:19 | 显示全部楼层
l泰然处之01 发表于 2025-10-17 18:44
大佬细说,48G 的卡有新 BIOS 了吗,能解决 32G Bar1 的限制了吗

可以看一下我上面的说明,翻一下issue看,我没有两张4090 48g还没测试过
发表于 2025-10-18 16:16 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 17:47
我记得4090 48G P2P开不起来的原因不是memory最大识别就是32G么?刷vbios可以解决这个问题? ...

你看tinygard那个repo issue里有个帖子有人可以了,你可以试试,我问了贴图的人他是国内的应该属实,可能部分测试通不过但是实际推理应该还是可以
 楼主| 发表于 2025-10-18 12:24 | 显示全部楼层
star_liu 发表于 2025-10-18 11:42
主要是想复现一些具身智能大模型,需要本地推理,本来计划是2080ti 22G,**推荐我整3090  24G ...

搞本地推理确实推荐30系起步
发表于 2025-10-18 11:42 | 显示全部楼层

主要是想复现一些具身智能大模型,需要本地推理,本来计划是2080ti 22G,**推荐我整3090  24G
 楼主| 发表于 2025-10-17 23:36 来自手机 | 显示全部楼层
michael80 发表于 2025-10-17 23:05
老哥好厉害,

全靠折腾
发表于 2025-10-17 23:05 | 显示全部楼层
老哥好厉害,
发表于 2025-10-17 21:57 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 21:49
4张显卡1w3,PLX板子2230,机箱500,别的都是之前有的没花钱

谢谢大佬,我再仔细看看
 楼主| 发表于 2025-10-17 21:49 来自手机 | 显示全部楼层
vct00 发表于 2025-10-17 21:43
请教大佬,整套下来是多少钱呢?

4张显卡1w3,PLX板子2230,机箱500,别的都是之前有的没花钱
发表于 2025-10-17 21:43 | 显示全部楼层
请教大佬,整套下来是多少钱呢?
发表于 2025-10-17 21:38 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 20:28
也是,我感觉我目前这个PLX板子是那个intel arc pro B60双芯卡先天圣体,让卖家把4个x16搞成x8+x8模式,4 ...

Intel ARC Pro B60 这个我一直在关注,现在还没有看到有实体卡或者零售,功能价格都非常齐全的一张卡
 楼主| 发表于 2025-10-17 20:28 来自手机 | 显示全部楼层
zhuifeng88 发表于 2025-10-17 20:25
我是想说要是switch方案的话就两级全16了, 怎么会跑x8

也是,我感觉我目前这个PLX板子是那个intel arc pro B60双芯卡先天圣体,让卖家把4个x16搞成x8+x8模式,4张双芯卡显存192G
发表于 2025-10-17 20:25 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 20:23
Switch方案可以全部4.0x8的,PEX88096甚至可以10卡4.0x8,只不过上行只有x16。

我是想说要是switch方案的话就两级全16了, 怎么会跑x8
 楼主| 发表于 2025-10-17 20:24 来自手机 | 显示全部楼层
zhuifeng88 发表于 2025-10-17 20:21
两个7B12每个numa4张, 要是switch方案怎么会全跑4.0x8

PLX方案非常需要P2P,因为上行带宽共享的。你这种直连CPU的影响小很多
 楼主| 发表于 2025-10-17 20:23 来自手机 | 显示全部楼层
zhuifeng88 发表于 2025-10-17 20:21
两个7B12每个numa4张, 要是switch方案怎么会全跑4.0x8

Switch方案可以全部4.0x8的,PEX88096甚至可以10卡4.0x8,只不过上行只有x16。
发表于 2025-10-17 20:21 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 20:18
8卡帅啊,能跑GLM 4.5 Air FP8了,后面4.6 Air出来也能跑。你这也是PLX Switch方案么? ...

两个7B12每个numa4张, 要是switch方案怎么会全跑4.0x8
 楼主| 发表于 2025-10-17 20:18 | 显示全部楼层
zhuifeng88 发表于 2025-10-17 20:14
又不是商用部署10%的overhead都要调查
自己用又无伤大雅

8卡帅啊,能跑GLM 4.5 Air FP8了,后面4.6 Air出来也能跑。你这也是PLX Switch方案么?
发表于 2025-10-17 20:14 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 16:32
心里总归不爽,双卡影响不大,4卡/8卡就能看出overhead了


又不是商用部署10%的overhead都要调查
自己用又无伤大雅

8x5060ti 全部4.0x8 没有p2p qwen3 next fp8 tp4 pp2
PowerToys_Paste_20251017201359.png
 楼主| 发表于 2025-10-17 18:52 来自手机 | 显示全部楼层
平安是福 发表于 2025-10-17 18:20
现在有魔改好的4080 32g 价格和r9700差不多,

4080魔改32G的卡暂时没有人测过能否用破解内核开启P2P,这个得看bar size了。价格差不多的情况下我会选择非魔改卡,不考虑训练的情况下amd这边还算好用
 楼主| 发表于 2025-10-17 18:50 来自手机 | 显示全部楼层
平安是福 发表于 2025-10-17 18:20
这个板子哪有的卖

淘宝39com家
发表于 2025-10-17 18:44 | 显示全部楼层
q3again0605 发表于 2025-10-17 16:57
有几个vbios,有一个resizebar打不开的不行,其它的可以。

大佬细说,48G 的卡有新 BIOS 了吗,能解决 32G Bar1 的限制了吗
 楼主| 发表于 2025-10-17 18:36 来自手机 | 显示全部楼层
star_liu 发表于 2025-10-17 18:22
我目前没那么高的预算,显卡最多4000以内,就想着部署点AI画图,自己微调的AI机器人体验体验,训练微调可 ...

那你用api就行了
发表于 2025-10-17 18:22 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 18:00
不合适,30系以前的卡玩AI已经可以入土了,真要玩不如买3080 20G,当然3090更好,双卡还能用Nvidia bridg ...

我目前没那么高的预算,显卡最多4000以内,就想着部署点AI画图,自己微调的AI机器人体验体验,训练微调可以租云GPU,日常需要写个脚本啥的问AI买openai的会员
发表于 2025-10-17 18:20 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 18:11
我的路径是双卡T10换混合推理再换4*5060Ti 16G,下一步可能会考虑用amd ai pro r9700,不过现在价格还是 ...

现在有魔改好的4080 32g 价格和r9700差不多,
发表于 2025-10-17 18:20 | 显示全部楼层
这个板子哪有的卖
 楼主| 发表于 2025-10-17 18:11 来自手机 | 显示全部楼层
l泰然处之01 发表于 2025-10-17 18:04
我自己玩 AI 的换卡的路径
2x Tesla T4 16G -> 4x RTX 4060 Ti 16G -> 4x RTX 4070 Ti SUPER 16G -> 2x RTX ...

我的路径是双卡T10换混合推理再换4*5060Ti 16G,下一步可能会考虑用amd ai pro r9700,不过现在价格还是高了点,等降到8000多再说吧
发表于 2025-10-17 18:04 | 显示全部楼层
本帖最后由 l泰然处之01 于 2025-10-17 18:38 编辑

我自己玩 AI 的换卡的路径:
2x Tesla T4 16G -> 4x RTX 4060 Ti 16G -> 4x RTX 4070 Ti SUPER 16G -> 2x RTX 4090 魔改48G
对应显存:
32G 古董入门 -> 64G 最低成本 -> 64G 性价比 -> 96G 性价比
对应成本:
8k -> 1.8w -> 2.4w -> 4.8w
年初刚有卡就换魔改卡了,但是现在开源基本没什么大的模型了,除了 VL模型 会吃的 VRAM 多一点,其他时候基本消耗不到
多卡直连在硬件上的坑比较多,卡越少遇到的奇奇怪怪的问题越少,我从四卡 4070Ti SUPER 到 双卡 4090魔改 发现性能并没提高多少,成本全到显存上了,实际上 四卡 4090 24G 性能更强,当然功耗也更大
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-10-23 06:08 , Processed in 0.016002 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表