来交个国庆期间的作业，DIY 4U显卡扩展柜助力个人AI大模型部署，刷入P2P破解内核

港城钢铁侠 · 发表于 2025-10-16 11:57

StevenG 发表于 2025-10-16 11:53
就部署过一次，epyc跑着玩的，从我机柜腾了1t内存出来，prefill慢的出奇，就不折腾用公司的h800了。。 ...

是的，prefill慢，模型参数大了后有amx加速也不顶用，只是把几十t/s提升个几倍，处理长上文还是用不了

chm128256 · 发表于 2025-10-16 18:37

港城钢铁侠发表于 2025-10-16 10:41
3090不是可以用nvlink bridge么，感觉都不需要上PLX

另外pex880xx系列启动慢或者和amd消费级兼容性问题不知道是不是通病，我这个开机冷启动PEX88048 pcie-switch和显卡正常识别。一旦重启，不论是windows还是ubuntu都无法识别到连接的显卡，88048还是能在系统中看到。
我现在都是系统关机--开机、没有使用重启--开机来规避这个问题。

港城钢铁侠 · 发表于 2025-10-16 18:48

chm128256 发表于 2025-10-16 18:37
另外pex880xx系列启动慢或者和amd消费级兼容性问题不知道是不是通病，我这个开机冷启动PEX88048 pcie-swi ...

我这边倒是没有遇到重启识别不到的问题。也未必就是amd的问题，我没在intel平台上测试过，等哪天有空再升级换代了把板子拆下来发给商家检测下

chm128256 · 发表于 2025-10-16 18:55

港城钢铁侠发表于 2025-10-16 18:48
我这边倒是没有遇到重启识别不到的问题。也未必就是amd的问题，我没在intel平台上测试过，等哪天有空再升 ...

我就是冷启动一切正常，只要重启就不识别显卡。
我认为是由于重启是快速启动，跳过了自检。所以PEX上链接的显卡就没识别到

港城钢铁侠 · 发表于 2025-10-16 19:13

chm128256 发表于 2025-10-16 18:55
我就是冷启动一切正常，只要重启就不识别显卡。
我认为是由于重启是快速启动，跳过了自检。所以PEX上链接 ...

照理说不应该啊，重启时你的板子会断电再上电么？还是一直上着电的，如果是一直上着电不应该识别不到

chm128256 · 发表于 2025-10-16 19:21

港城钢铁侠发表于 2025-10-16 19:13
照理说不应该啊，重启时你的板子会断电再上电么？还是一直上着电的，如果是一直上着电不应该识别不到 ...

明天重启看看，卡上有灯可以看状态。

大道无言 · 发表于 2025-10-16 20:50

纯好奇，个人部署的本地大模型每天拿来干啥

港城钢铁侠 · 发表于 2025-10-16 21:04

大道无言发表于 2025-10-16 20:50
纯好奇，个人部署的本地大模型每天拿来干啥

主要是接入到claude code里写代码，还有就是跑跑AI图片视频生成

l泰然处之01 · 发表于 2025-10-17 14:10

96G VRAM（48G x2），大部分 LLM，VL 大尺寸量化和一些视频生成模型基本都能跑了，4090 48G 再向你招手

港城钢铁侠 · 发表于 2025-10-17 15:23

l泰然处之01 发表于 2025-10-17 14:10
96G VRAM（48G x2），大部分 LLM，VL 大尺寸量化和一些视频生成模型基本都能跑了，4090 48G 再向你招手 ...

考虑过，但是发现魔改的4090没法开P2P

zhuifeng88 · 发表于 2025-10-17 15:49

港城钢铁侠发表于 2025-10-17 15:23
考虑过，但是发现魔改的4090没法开P2P

没p2p就没p2p, 大部分情况下又不差那点
qwen3 next fp8没p2p, pcie3.0x4, pp2, 不也凑合

港城钢铁侠 · 发表于 2025-10-17 16:32

zhuifeng88 发表于 2025-10-17 15:49
没p2p就没p2p, 大部分情况下又不差那点
qwen3 next fp8没p2p, pcie3.0x4, pp2, 不也凑合
...

心里总归不爽

，双卡影响不大，4卡/8卡就能看出overhead了

q3again0605 · 发表于 2025-10-17 16:57

港城钢铁侠发表于 2025-10-17 15:23
考虑过，但是发现魔改的4090没法开P2P

有几个vbios，有一个resizebar打不开的不行，其它的可以。

港城钢铁侠 · 发表于 2025-10-17 17:47

q3again0605 发表于 2025-10-17 16:57
有几个vbios，有一个resizebar打不开的不行，其它的可以。

我记得4090 48G P2P开不起来的原因不是memory最大识别就是32G么？刷vbios可以解决这个问题？

star_liu · 发表于 2025-10-17 17:54

大佬请教下，暂时没刚需，只想整台机器跑跑开源项目玩玩，搞2080ti 22G合适吗？

l泰然处之01 · 发表于 2025-10-17 17:59

港城钢铁侠发表于 2025-10-17 16:32
心里总归不爽，双卡影响不大，4卡/8卡就能看出overhead了

推理方面，vLLM 的 TP 并行基本不受多卡影响，大概是单卡能发挥 0.8 的性能，
NVLink 主要在训练上效果明显，消费卡最多 2张走NVLink，新卡已经开始叫 NVSwitch 了，训练上单卡的大显存比多卡重要

以及 RTX 4090 的 PCIe P2P 实现
(并非)破解驱动榨干4090(5090)的最后一丝性能

港城钢铁侠 · 发表于 2025-10-17 18:00

star_liu 发表于 2025-10-17 17:54
大佬请教下，暂时没刚需，只想整台机器跑跑开源项目玩玩，搞2080ti 22G合适吗？ ...

不合适，30系以前的卡玩AI已经可以入土了，真要玩不如买3080 20G，当然3090更好，双卡还能用Nvidia bridge。不过30系发热和功耗很高，也不支持FP8以及blackwell独占的FP4，还有**风险。现阶段没有完美的方案，5060TI也是个无奈之选，后续我会考虑A家的ai pro r9700，现在闲鱼9600元/张，ROCM 7.0性能提升也很大，价格降到8000左右的话我会考虑升级

l泰然处之01 · 发表于 2025-10-17 18:04

本帖最后由 l泰然处之01 于 2025-10-17 18:38 编辑

我自己玩 AI 的换卡的路径：
2x Tesla T4 16G -> 4x RTX 4060 Ti 16G -> 4x RTX 4070 Ti SUPER 16G -> 2x RTX 4090 魔改48G
对应显存：
32G 古董入门 -> 64G 最低成本 -> 64G 性价比 -> 96G 性价比
对应成本：
8k -> 1.8w -> 2.4w -> 4.8w
年初刚有卡就换魔改卡了，但是现在开源基本没什么大的模型了，除了 VL模型会吃的 VRAM 多一点，其他时候基本消耗不到
多卡直连在硬件上的坑比较多，卡越少遇到的奇奇怪怪的问题越少，我从四卡 4070Ti SUPER 到双卡 4090魔改发现性能并没提高多少，成本全到显存上了，实际上四卡 4090 24G 性能更强，当然功耗也更大

港城钢铁侠 · 发表于 2025-10-17 18:11

l泰然处之01 发表于 2025-10-17 18:04
我自己玩 AI 的换卡的路径
2x Tesla T4 16G -> 4x RTX 4060 Ti 16G -> 4x RTX 4070 Ti SUPER 16G -> 2x RTX ...

我的路径是双卡T10换混合推理再换4*5060Ti 16G，下一步可能会考虑用amd ai pro r9700，不过现在价格还是高了点，等降到8000多再说吧

平安是福 · 发表于 2025-10-17 18:20

这个板子哪有的卖

平安是福 · 发表于 2025-10-17 18:20

港城钢铁侠发表于 2025-10-17 18:11
我的路径是双卡T10换混合推理再换4*5060Ti 16G，下一步可能会考虑用amd ai pro r9700，不过现在价格还是 ...

现在有魔改好的4080 32g 价格和r9700差不多，

star_liu · 发表于 2025-10-17 18:22

港城钢铁侠发表于 2025-10-17 18:00
不合适，30系以前的卡玩AI已经可以入土了，真要玩不如买3080 20G，当然3090更好，双卡还能用Nvidia bridg ...

我目前没那么高的预算，显卡最多4000以内，就想着部署点AI画图，自己微调的AI机器人体验体验，训练微调可以租云GPU，日常需要写个脚本啥的问AI买openai的会员

港城钢铁侠 · 发表于 2025-10-17 18:36

star_liu 发表于 2025-10-17 18:22
我目前没那么高的预算，显卡最多4000以内，就想着部署点AI画图，自己微调的AI机器人体验体验，训练微调可 ...

那你用api就行了

l泰然处之01 · 发表于 2025-10-17 18:44

q3again0605 发表于 2025-10-17 16:57
有几个vbios，有一个resizebar打不开的不行，其它的可以。

大佬细说，48G 的卡有新 BIOS 了吗，能解决 32G Bar1 的限制了吗

港城钢铁侠 · 发表于 2025-10-17 18:50

平安是福发表于 2025-10-17 18:20
这个板子哪有的卖

淘宝39com家

港城钢铁侠 · 发表于 2025-10-17 18:52

平安是福发表于 2025-10-17 18:20
现在有魔改好的4080 32g 价格和r9700差不多，

4080魔改32G的卡暂时没有人测过能否用破解内核开启P2P，这个得看bar size了。价格差不多的情况下我会选择非魔改卡，不考虑训练的情况下amd这边还算好用

zhuifeng88 · 发表于 2025-10-17 20:14

港城钢铁侠发表于 2025-10-17 16:32
心里总归不爽，双卡影响不大，4卡/8卡就能看出overhead了

又不是商用部署10%的overhead都要调查
自己用又无伤大雅

8x5060ti 全部4.0x8 没有p2p qwen3 next fp8 tp4 pp2

港城钢铁侠 · 发表于 2025-10-17 20:18

zhuifeng88 发表于 2025-10-17 20:14
又不是商用部署10%的overhead都要调查
自己用又无伤大雅

8卡帅啊，能跑GLM 4.5 Air FP8了，后面4.6 Air出来也能跑。你这也是PLX Switch方案么？

zhuifeng88 · 发表于 2025-10-17 20:21

港城钢铁侠发表于 2025-10-17 20:18
8卡帅啊，能跑GLM 4.5 Air FP8了，后面4.6 Air出来也能跑。你这也是PLX Switch方案么？ ...

两个7B12每个numa4张, 要是switch方案怎么会全跑4.0x8

港城钢铁侠 · 发表于 2025-10-17 20:23

zhuifeng88 发表于 2025-10-17 20:21
两个7B12每个numa4张, 要是switch方案怎么会全跑4.0x8

Switch方案可以全部4.0x8的，PEX88096甚至可以10卡4.0x8，只不过上行只有x16。

账号		自动登录	找回密码
密码			加入我们

[装机] 来交个国庆期间的作业，DIY 4U显卡扩展柜助力个人AI大模型部署，刷入P2P破解内核

浏览过的版块