求助：深度学习机器想用两个4080，主板怎么选？华硕ROGZ790 STRIX-A够用吗？

GNOS 发表于 2023-11-10 11:00

电脑懂点不多。第一次搞双显卡，不知道需要注意点什么。
求助各位大佬给些建议。

sinopart 发表于 2023-11-10 11:03

没有NVLINK的情况下，数据交换只能走PCIE。要想速度快，必须保证双卡都在X16，你最佳选择是去淘个便宜的3代epyc平台。消费级平台往往第二个x16是拆分的，插上只能让两张显卡跑x8。

GNOS 发表于 2023-11-10 15:50

sinopart 发表于 2023-11-10 11:03
没有NVLINK的情况下，数据交换只能走PCIE。要想速度快，必须保证双卡都在X16，你最佳选择是去淘个便宜的3代 ...

感谢大佬，帮了大忙了。但是intel平台和24核也是刚需。还有什么推荐方案吗。问了几个主板客服双卡X16的问题直接他们都问蒙了。

绿茵豪门 发表于 2023-11-10 15:53

今天小号贴大爆发啊........

不如买2张3090~~

tmxkkk 发表于 2023-11-10 15:57

要能拆分第一条pcie通道的主板，本代产品都很贵，x570中高端性价比爆棚

我輩樹である 发表于 2023-11-10 16:16

不要浪费钱。

ltpterry 发表于 2023-11-10 17:24

不要浪费钱+1

有空折腾两张4080真不如换成1张4090完事，要么就像楼上说的换两张3090TI+NVLINK
要24核不知道是想干什么，又不是好像桌面级平台真的有24个大核心一样

风铃飘凼 发表于 2023-11-10 19:09

双4080跑深度学习性价比真心不高，尤其是现阶段新主板很少支持pcie拆分的，只能看预算往前代X570或者epyc上面靠。
前面一种方案是把一条X16分分成两条X8通道的，后面一种建议买第二代第三代的epyc（代号是7XX2或7XX3），然后配一张单路的服务器主板（比如华硕KRPA-U16，JIJIA的MZ32-AR0），跑满两张4080没啥问题的。
但还是建议整张4090得了，你是正经用途又不是玩游戏，矿潮的时候搞DL的人还不是咬牙上了3090，刚需问题还是一步到位的好。

建议柠檬 发表于 2023-11-10 19:17

如果仅仅是24C+俩16X那非常简单
随便找个3647双路zhu再捡俩100多的U就足够了

raiya 发表于 2023-11-10 19:39

都要双卡了，单卡就别考虑小显存的。

hoongyin07 发表于 2023-11-10 20:08

找有 x8 x8 Bifurcation 的，两个 X8 没有损失那么多性能

阿苏斯 Z790 pro art, Hero 这类型有这个 Feature, 然后要确定 x16 Slot 的距离可以安装你的显卡，因为除了 Apex, dark hero 这些以外，其他的主板只有两个 Slot 的距离

g7muik 发表于 2023-11-10 20:23

不如双卡3090吧

GNOS 发表于 2023-11-10 21:33

hoongyin07 发表于 2023-11-10 20:08
找有 x8 x8 Bifurcation 的，两个 X8 没有损失那么多性能

阿苏斯 Z790 pro art, Hero 这类型有这个 Feat ...

最后还是选择双4080的方案，aog hero可以两个x8。国内科研环境是真的不好

tmxkkk 发表于 2023-11-10 22:32

GNOS 发表于 2023-11-10 21:33
最后还是选择双4080的方案，aog hero可以两个x8。国内科研环境是真的不好

华硕porart应该比hero便宜吧？另外有个牌子映泰的女武神，不到2000带拆分

godspeed66 发表于 2023-11-10 22:39

本帖最后由 godspeed66 于 2023-11-10 23:34 编辑

GNOS 发表于 2023-11-10 15:50
感谢大佬，帮了大忙了。但是intel平台和24核也是刚需。还有什么推荐方案吗。问了几个主板客服双卡X16的问 ...

实测CHATGLM2-6B微调走PCI-E完全没影响

走PCI-E4.0*8 就行

为了看PCIE通道带宽和显存带宽使用率，我特意把GLM3-6B的重新微调部署在WSL环境中

结果很明确，PCIE带宽使用率非常低、显存带宽使用率也就50%

我的测试环境目前就是用2个PCI-E4.0*8的插槽

ooff22 发表于 2023-11-10 23:28

双4080.......浪费钱啊..是自己的钱还是科研老板的钱啊...那么多资金的吗.

godspeed66 发表于 2023-11-10 23:29

GNOS 发表于 2023-11-10 21:33
最后还是选择双4080的方案，aog hero可以两个x8。国内科研环境是真的不好

不建议4080 显存才16GB

根据你的描述建议4060TI 16GB *2 成本最低，该有的也都有，今后升级也容易出掉现有的卡

4080 和 4090 现在强烈不建议入手

RTX 5000 ADA 32GB显存单卡是目前很有性价比的专业卡，4060TI16GB*2是最优性价比的显卡，32GB显存跑不动的 40GB\48GB 也基本不行，而常见的13B模型基本显存使用都在27GB左右，需要注意的是在2张卡跑和1张卡跑难度是不一样的，在2张卡上微调和部署需要更多的精力。

风铃飘凼 发表于 2023-11-11 12:01

godspeed66 发表于 2023-11-10 23:29
不建议4080 显存才16GB

根据你的描述建议4060TI 16GB *2 成本最低，该有的也都有，今后升级也容易出掉 ...

老哥，现在5000 ada也涨了一些，感觉比4090也体现不出多少性价比，感觉这块现在要不就一步到位，要不就走极致性价比比较合适
另外无比同意能单卡就别双卡，当时配的时候就想着显存为上，一张4090的钱配了两张rtx a4500加nvlink，调参部署这块真是麻烦好多。。

godspeed66 发表于 2023-11-11 22:43

风铃飘凼发表于 2023-11-11 12:01
老哥，现在5000 ada也涨了一些，感觉比4090也体现不出多少性价比，感觉这块现在要不就一步到位，要不就走 ...

RTX 5000 ADA 32GB显存是在具备略弱于RTX 6000 ADA和RTX 4090性能，但能支持13B模型（BF16或FP16,尤其是windows在WSL环境中十分有用）的最低等级单卡，这个卡是个临界点。

vinwim 发表于 2023-11-16 14:01

sinopart 发表于 2023-11-10 11:03
没有NVLINK的情况下，数据交换只能走PCIE。要想速度快，必须保证双卡都在X16，你最佳选择是去淘个便宜的3代 ...

请问如果只用数据并行，数据交换实际影响大吗？我看b站有人测三张4060ti训练速度和一张4090差不多。

sinopart 发表于 2023-11-16 14:33

vinwim 发表于 2023-11-16 14:01
请问如果只用数据并行，数据交换实际影响大吗？我看b站有人测三张4060ti训练速度和一张4090差不多。 ...

看程序具体调度。云上用的版本都极其依赖节点间互联的速度，如果只是在本地部署研发和测试用的轻量化的小模型，理论上都会考虑到本地设备往往是单节点的问题而避免多节点并行计算的调度方式。

q3again0605 发表于 2023-11-16 15:00

godspeed66 发表于 2023-11-11 22:43
RTX 5000 ADA 32GB显存是在具备略弱于RTX 6000 ADA和RTX 4090性能，但能支持13B模型（BF16或FP16,尤其是w ...

显存带宽影响大吗，5000 ada应该是256位宽的，6000 ada和4090是384的。的确卡在点上，baichuan2 13b，qwen 14b，32g够用。上面就是20b了，怎么都要上48g显存了。但a6000的价格和5000 ada的价格类似啊，为啥不选a6000呢。

godspeed66 发表于 2023-11-16 16:06

本帖最后由 godspeed66 于 2023-11-16 16:07 编辑

q3again0605 发表于 2023-11-16 15:00
显存带宽影响大吗，5000 ada应该是256位宽的，6000 ada和4090是384的。的确卡在点上，baichuan2 13b，qwe ...

目前主流的ChatGLM-6B系列、MOSS-16B、百川13B，微调和推理都够用，显存控制器使用率峰值50%，一般在10%以下，因此显存带宽够用；此外PCIE4.0-X8的槽位带宽峰值和日常使用率也基本在50%以下，因此PCIE4.0-X8的槽位带宽也够；

为什么推荐5000 ADA是因为：

1. 5000 ADA是新卡；

2. 5000 ADA支持FP8（这个未来需求）；同时，32G显存不满足的推理，48G显存也基本不能满足；；

3. 5000 ADA 的Tensor 性能（fp16 Tensor=1044.4 TFLOPS/4=261.1TFLOPS）是A6000Tensor 性能（fp16 Tensor=309.7 TFLOPS4 =77.425TFLOPS ）的3.37倍；

数据参考：https://www.chiphell.com/forum.php?mod=redirect&goto=findpost&ptid=2530683&pid=52982553

因此对于初学者，RTX 5000 ADA相较A6000更有优势，就算卖二手也更好卖，毕竟是今年的新卡；而A6000已经沦为上代卡了，就性价比不如3090*4

godspeed66 发表于 2023-11-16 16:20

本帖最后由 godspeed66 于 2023-11-16 16:22 编辑

vinwim 发表于 2023-11-16 14:01
请问如果只用数据并行，数据交换实际影响大吗？我看b站有人测三张4060ti训练速度和一张4090差不多。 ...

从3090时代就没有GPU的PCIE TO PCIE了

参见数据：https://www.chiphell.com/thread-2495282-1-1.html

而且实测推理和微调，2张RTX4090 24GB 比 1张RTX 6000 ADA 48GB快很多！

RTX 6000 ADA 48GB 与RTX A6000 48GB，最大的优势是普通机箱，单机可以拥有4张卡共196GB的显存

wys1130 发表于 2023-11-16 16:38

GNOS 发表于 2023-11-10 21:33
最后还是选择双4080的方案，aog hero可以两个x8。国内科研环境是真的不好

只说硬件，如果24核cpu 不是硬性要求，性能类似的话。最低预算买个 b650中端或高端，或者弄个 x670e 也行，上一个 7950x 。
因为 amd 的板子中高端都支持8+8 拆分，2条 cpie 4.0*8 应该是够用了，具体你有什么更专业的需求就不太懂了。

飘忽的青布衫 发表于 2023-11-16 16:39

MAC Book Pro 显存128GB

q3again0605 发表于 2023-11-16 19:05

godspeed66 发表于 2023-11-16 16:20
从3090时代就没有GPU的PCIE TO PCIE了

参见数据：https://www.chiphell.com/thread-2495282-1-1.html

谢谢。等你关于cpu的需求的评测：）如果有简单的挑选方式就好了，比如看cpuz分数或者r23啥的：）

godspeed66 发表于 2023-11-17 14:33

风铃飘凼发表于 2023-11-11 12:01
老哥，现在5000 ada也涨了一些，感觉比4090也体现不出多少性价比，感觉这块现在要不就一步到位，要不就走 ...

经确认至11月17日13：30， 5000 ada 价格很平稳 3.15一张，相较2.25万一张的4090，更有性价比，5000 ADA支持P2P，虽然比NVLINK差好多，但也比没有强。

页: [1]

Chiphell - 分享与交流用户体验's Archiver

求助：深度学习机器想用两个4080，主板怎么选？华硕ROGZ790 STRIX-A够用吗？