找回密码
 加入我们
搜索
      
楼主: 港城钢铁侠

[装机] 来交个国庆期间的作业,DIY 4U显卡扩展柜助力个人AI大模型部署,刷入P2P破解内核

[复制链接]
 楼主| 发表于 2025-10-16 11:57 来自手机 | 显示全部楼层
StevenG 发表于 2025-10-16 11:53
就部署过一次,epyc跑着玩的,从我机柜腾了1t内存出来,prefill慢的出奇,就不折腾用公司的h800了。。 ...

是的,prefill慢,模型参数大了后有amx加速也不顶用,只是把几十t/s提升个几倍,处理长上文还是用不了
发表于 2025-10-16 18:37 | 显示全部楼层
港城钢铁侠 发表于 2025-10-16 10:41
3090不是可以用nvlink bridge么,感觉都不需要上PLX


另外pex880xx系列启动慢或者和amd消费级兼容性问题不知道是不是通病,我这个开机冷启动PEX88048 pcie-switch和显卡正常识别。一旦重启,不论是windows还是ubuntu都无法识别到连接的显卡,88048还是能在系统中看到。
我现在都是系统关机--开机、没有使用重启--开机来规避这个问题。
 楼主| 发表于 2025-10-16 18:48 来自手机 | 显示全部楼层
chm128256 发表于 2025-10-16 18:37
另外pex880xx系列启动慢或者和amd消费级兼容性问题不知道是不是通病,我这个开机冷启动PEX88048 pcie-swi ...

我这边倒是没有遇到重启识别不到的问题。也未必就是amd的问题,我没在intel平台上测试过,等哪天有空再升级换代了把板子拆下来发给商家检测下
发表于 2025-10-16 18:55 | 显示全部楼层
港城钢铁侠 发表于 2025-10-16 18:48
我这边倒是没有遇到重启识别不到的问题。也未必就是amd的问题,我没在intel平台上测试过,等哪天有空再升 ...

我就是冷启动一切正常,只要重启就不识别显卡。
我认为是由于重启是快速启动,跳过了自检。所以PEX上链接的显卡就没识别到
 楼主| 发表于 2025-10-16 19:13 来自手机 | 显示全部楼层
chm128256 发表于 2025-10-16 18:55
我就是冷启动一切正常,只要重启就不识别显卡。
我认为是由于重启是快速启动,跳过了自检。所以PEX上链接 ...

照理说不应该啊,重启时你的板子会断电再上电么?还是一直上着电的,如果是一直上着电不应该识别不到
发表于 2025-10-16 19:21 来自手机 | 显示全部楼层
港城钢铁侠 发表于 2025-10-16 19:13
照理说不应该啊,重启时你的板子会断电再上电么?还是一直上着电的,如果是一直上着电不应该识别不到 ...

明天重启看看,卡上有灯可以看状态。
发表于 2025-10-16 20:50 来自手机 | 显示全部楼层
纯好奇,个人部署的本地大模型每天拿来干啥
 楼主| 发表于 2025-10-16 21:04 来自手机 | 显示全部楼层
大道无言 发表于 2025-10-16 20:50
纯好奇,个人部署的本地大模型每天拿来干啥

主要是接入到claude code里写代码,还有就是跑跑AI图片视频生成
发表于 2025-10-17 14:10 | 显示全部楼层
QQ20251017-140857.png
96G VRAM(48G x2),大部分 LLM,VL 大尺寸量化 和 一些视频生成模型基本都能跑了,4090 48G 再向你招手
 楼主| 发表于 2025-10-17 15:23 来自手机 | 显示全部楼层
l泰然处之01 发表于 2025-10-17 14:10
96G VRAM(48G x2),大部分 LLM,VL 大尺寸量化 和 一些视频生成模型基本都能跑了,4090 48G 再向你招手  ...

考虑过,但是发现魔改的4090没法开P2P
发表于 2025-10-17 15:49 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 15:23
考虑过,但是发现魔改的4090没法开P2P

没p2p就没p2p, 大部分情况下又不差那点
qwen3 next fp8没p2p, pcie3.0x4, pp2, 不也凑合
PowerToys_Paste_20251017154917.png
 楼主| 发表于 2025-10-17 16:32 来自手机 | 显示全部楼层
zhuifeng88 发表于 2025-10-17 15:49
没p2p就没p2p, 大部分情况下又不差那点
qwen3 next fp8没p2p, pcie3.0x4, pp2, 不也凑合
...

心里总归不爽,双卡影响不大,4卡/8卡就能看出overhead了
发表于 2025-10-17 16:57 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 15:23
考虑过,但是发现魔改的4090没法开P2P

有几个vbios,有一个resizebar打不开的不行,其它的可以。
 楼主| 发表于 2025-10-17 17:47 来自手机 | 显示全部楼层
q3again0605 发表于 2025-10-17 16:57
有几个vbios,有一个resizebar打不开的不行,其它的可以。

我记得4090 48G P2P开不起来的原因不是memory最大识别就是32G么?刷vbios可以解决这个问题?
发表于 2025-10-17 17:54 | 显示全部楼层
大佬请教下,暂时没刚需,只想整台机器跑跑开源项目玩玩,搞2080ti 22G合适吗?
发表于 2025-10-17 17:59 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 16:32
心里总归不爽,双卡影响不大,4卡/8卡就能看出overhead了

推理方面,vLLM 的 TP 并行基本不受多卡影响,大概是单卡能发挥 0.8 的性能,
NVLink 主要在训练上效果明显,消费卡最多 2张走NVLink,新卡已经开始叫 NVSwitch 了,训练上单卡的大显存比多卡重要

以及 RTX 4090 的 PCIe P2P 实现
(并非)破解驱动榨干4090(5090)的最后一丝性能
 楼主| 发表于 2025-10-17 18:00 来自手机 | 显示全部楼层
star_liu 发表于 2025-10-17 17:54
大佬请教下,暂时没刚需,只想整台机器跑跑开源项目玩玩,搞2080ti 22G合适吗? ...

不合适,30系以前的卡玩AI已经可以入土了,真要玩不如买3080 20G,当然3090更好,双卡还能用Nvidia bridge。不过30系发热和功耗很高,也不支持FP8以及blackwell独占的FP4,还有**风险。现阶段没有完美的方案,5060TI也是个无奈之选,后续我会考虑A家的ai pro r9700,现在闲鱼9600元/张,ROCM 7.0性能提升也很大,价格降到8000左右的话我会考虑升级
发表于 2025-10-17 18:04 | 显示全部楼层
本帖最后由 l泰然处之01 于 2025-10-17 18:38 编辑

我自己玩 AI 的换卡的路径:
2x Tesla T4 16G -> 4x RTX 4060 Ti 16G -> 4x RTX 4070 Ti SUPER 16G -> 2x RTX 4090 魔改48G
对应显存:
32G 古董入门 -> 64G 最低成本 -> 64G 性价比 -> 96G 性价比
对应成本:
8k -> 1.8w -> 2.4w -> 4.8w
年初刚有卡就换魔改卡了,但是现在开源基本没什么大的模型了,除了 VL模型 会吃的 VRAM 多一点,其他时候基本消耗不到
多卡直连在硬件上的坑比较多,卡越少遇到的奇奇怪怪的问题越少,我从四卡 4070Ti SUPER 到 双卡 4090魔改 发现性能并没提高多少,成本全到显存上了,实际上 四卡 4090 24G 性能更强,当然功耗也更大
 楼主| 发表于 2025-10-17 18:11 来自手机 | 显示全部楼层
l泰然处之01 发表于 2025-10-17 18:04
我自己玩 AI 的换卡的路径
2x Tesla T4 16G -> 4x RTX 4060 Ti 16G -> 4x RTX 4070 Ti SUPER 16G -> 2x RTX ...

我的路径是双卡T10换混合推理再换4*5060Ti 16G,下一步可能会考虑用amd ai pro r9700,不过现在价格还是高了点,等降到8000多再说吧
发表于 2025-10-17 18:20 | 显示全部楼层
这个板子哪有的卖
发表于 2025-10-17 18:20 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 18:11
我的路径是双卡T10换混合推理再换4*5060Ti 16G,下一步可能会考虑用amd ai pro r9700,不过现在价格还是 ...

现在有魔改好的4080 32g 价格和r9700差不多,
发表于 2025-10-17 18:22 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 18:00
不合适,30系以前的卡玩AI已经可以入土了,真要玩不如买3080 20G,当然3090更好,双卡还能用Nvidia bridg ...

我目前没那么高的预算,显卡最多4000以内,就想着部署点AI画图,自己微调的AI机器人体验体验,训练微调可以租云GPU,日常需要写个脚本啥的问AI买openai的会员
 楼主| 发表于 2025-10-17 18:36 来自手机 | 显示全部楼层
star_liu 发表于 2025-10-17 18:22
我目前没那么高的预算,显卡最多4000以内,就想着部署点AI画图,自己微调的AI机器人体验体验,训练微调可 ...

那你用api就行了
发表于 2025-10-17 18:44 | 显示全部楼层
q3again0605 发表于 2025-10-17 16:57
有几个vbios,有一个resizebar打不开的不行,其它的可以。

大佬细说,48G 的卡有新 BIOS 了吗,能解决 32G Bar1 的限制了吗
 楼主| 发表于 2025-10-17 18:50 来自手机 | 显示全部楼层
平安是福 发表于 2025-10-17 18:20
这个板子哪有的卖

淘宝39com家
 楼主| 发表于 2025-10-17 18:52 来自手机 | 显示全部楼层
平安是福 发表于 2025-10-17 18:20
现在有魔改好的4080 32g 价格和r9700差不多,

4080魔改32G的卡暂时没有人测过能否用破解内核开启P2P,这个得看bar size了。价格差不多的情况下我会选择非魔改卡,不考虑训练的情况下amd这边还算好用
发表于 2025-10-17 20:14 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 16:32
心里总归不爽,双卡影响不大,4卡/8卡就能看出overhead了


又不是商用部署10%的overhead都要调查
自己用又无伤大雅

8x5060ti 全部4.0x8 没有p2p qwen3 next fp8 tp4 pp2
PowerToys_Paste_20251017201359.png
 楼主| 发表于 2025-10-17 20:18 | 显示全部楼层
zhuifeng88 发表于 2025-10-17 20:14
又不是商用部署10%的overhead都要调查
自己用又无伤大雅

8卡帅啊,能跑GLM 4.5 Air FP8了,后面4.6 Air出来也能跑。你这也是PLX Switch方案么?
发表于 2025-10-17 20:21 | 显示全部楼层
港城钢铁侠 发表于 2025-10-17 20:18
8卡帅啊,能跑GLM 4.5 Air FP8了,后面4.6 Air出来也能跑。你这也是PLX Switch方案么? ...

两个7B12每个numa4张, 要是switch方案怎么会全跑4.0x8
 楼主| 发表于 2025-10-17 20:23 来自手机 | 显示全部楼层
zhuifeng88 发表于 2025-10-17 20:21
两个7B12每个numa4张, 要是switch方案怎么会全跑4.0x8

Switch方案可以全部4.0x8的,PEX88096甚至可以10卡4.0x8,只不过上行只有x16。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-10-19 04:03 , Processed in 0.011666 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表