深度学习双4090公版装机方案

allenxml · 发表于 2024-5-1 12:45

本帖最后由 allenxml 于 2024-5-1 12:53 编辑

1.需求与痛点分析
1.1需求

本方案旨在搭建一个虚拟化环境，用于深度学习的开发和测试。关键需求如下：

高性能多GPU支持：需支持至少2个NVIDIA GeForce RTX 4090公版显卡，以确保足够的计算能力、显存容量和可并行方式处理模型的研究。
虚拟化环境：需在虚拟化平台上运行，充分发挥服务器CPU的多核心性能，并且允许显卡直通技术，以便虚拟机能够充分利用GPU资源。
高带宽PCIe连接：主板需要支持至少两个PCI Express 4.0 x16插槽，以实现高速并行数据传输，避免性能损失。

1.2痛点

主板和机箱的选择：市场上能够同时支持双4090显卡宽度及高带宽PCIe插槽的主板和机箱数量有限。
散热问题：双4090显卡在高负载工作时发热量大，需要有效的散热解决方案。
电源需求：双4090显卡及高性能处理器需要稳定且强大的电源供应。

2.解决方案
2.1硬件部分
2.1.1主板和处理器

主板：选择了超微 H12SSL 主板，它提供5个PCI Express 4.0 x16插槽，最远处两个PCI Express 4.0 x16插槽相距6个槽位，可有效支持双4090显卡的多种安装组合后还有空间安装其他PCIE设备，且支持高性能处理器和SLIMSAS转U.2口。这个主板成本在3200元，USB3.0转向1带2头成本在100元。

处理器：采用 AMD EPYC 7642，这款处理器具备足够的核心数，能够优化虚拟化性能并提供充足的计算资源。成本4700元。

2.1.2显卡和机箱

显卡：双NVIDIA GeForce RTX 4090公版显卡，主要用于执行计算密集型的深度学习任务。二手2个京东带票卡成本29000元。
机箱：选择追风者PK620工作站版机箱，它不仅可以容纳E-ATX规格的主板，还能够支持双显卡配置并提供良好的散热条件。机箱成本1399元，风扇成本200元，散热器成本300元。

2.1.3内存、SSD和电源

内存和SSD：采用海力士32GB*8=256GB 内存，确保虚拟机和应用程序能够高效运行，并且可以验证CPU的通道是否都健全，验证是否奸商。成本450*8=3600元。2个致钛T7100 2T，二手京东带票成本1500元。
电源：选择海韵PX1600电源，提供1600W的稳定输出和10A电源线接口，足以在家用10A插座环境下支持整个系统的高负载运行。二手京东带票成本2400元。

2.2软件部分
2.2.1虚拟化平台

虚拟化环境：使用 VMware ESXi 8，这是一个稳定且功能强大的虚拟化管理平台，支持不关机切换GPU直通功能，允许物理GPU资源直接分配给虚拟机。
GPU虚拟机：部署 Ubuntu 22.04，并部署了docker环境，经过优化以利用GPU资源进行模型微调和推理。
非GPU虚拟机：其他虚拟机可以部署用于CPU密集型的应用，如数据分析、web服务等。

结论

通过上述硬件和软件的组合，本方案能够有效解决双RTX 4090显卡在虚拟化环境下的部署和性能优化需求。高性能的硬件配置保证了处理速度和响应能力，而强大的虚拟化平台则为深度学习开发测试提供了灵活性和扩展性。此外，经过精心选择的机箱和电源解决了散热和电力供应的挑战，确保整个系统的稳定运行。这样的配置不仅符合当前的技术需求，还具备非常高的性价比和扩展空间。

fatppmm · 发表于 2024-5-1 14:38

我是用pve，把核显接显示器

舒方 · 发表于 2024-5-1 16:44

内存涨价真不少啊

allenxml · 发表于 2024-5-1 16:51

fatppmm 发表于 2024-5-1 14:38
我是用pve，把核显接显示器

其他硬件呢？PVE监控如何？用esxi考虑配合超微板子监控还可以，超融合节点用的PVE7.4

21mm · 发表于 2024-5-1 17:06

显卡直通损失大吗？这个级别了为啥还要套娃呢？

allenxml · 发表于 2024-5-1 18:11

21mm 发表于 2024-5-1 17:06
显卡直通损失大吗？这个级别了为啥还要套娃呢？

第一个问题：
直通没什么损失。

第二个问题：
因为有限资金内要模拟验证一些东西。
1.从深度学习的角度出发，并行技术中有数据并行、流水线并行、张量并行等多种并行技术，各自因为并行原理不同导致对通信带宽要求不同。一般单机内多卡是张量并行，多机之间是数据并行和流水并行。有了虚拟化环境，方便模拟多机间通信。
2.从业务系统的角度出发，并不是系统所有组件都需要GPU的，比如简单的open-webui+ollama架构，前端的open-webui包括可能的负载均衡就不需要GPU。这种多组件可以部署在不同的虚拟机上，也可以以基于GPU的和基于CPU来区分容器环境。

fatppmm · 发表于 2024-5-1 18:54

allenxml 发表于 2024-5-1 16:51
其他硬件呢？PVE监控如何？用esxi考虑配合超微板子监控还可以，超融合节点用的PVE7.4 ...

给学生做深度学习，z790 hero 可以延长线接2台4090，现在就接1台，14900k的cpu，其他一般的配置

我的机子，哈哈

pve能够充分利用核显，pve监控感觉别esxi要好

fatppmm · 发表于 2024-5-1 18:55

allenxml 发表于 2024-5-1 18:11
第一个问题：
直通没什么损失。

ollama3也用上open-webui了吗？

allenxml · 发表于 2024-5-1 20:18

fatppmm 发表于 2024-5-1 18:55
ollama3也用上open-webui了吗？

ollama支持llama3，ollama3是啥没理解
我前几天用的X670E Hero，结果第二个PCIE槽位怎么都无法识别4090，换4060ti 16G也不行，只有不外置供电的卡才能识别和点亮，所以索性换成标准的工作站/服务器品牌板子了

搞基薛定谔 · 发表于 2024-5-1 20:22

单纯推理的话，可以使用两张4090吗？如果可以的话，大概的方法有哪些？

21mm · 发表于 2024-5-2 03:24

allenxml 发表于 2024-5-1 18:11
第一个问题：
直通没什么损失。

对第二个问题第二点狡辩一下：
如果复杂环境两张显卡布局不一定能协调过来特别是直通过去后。ollama这个完全可以容器化运行并且调用gpu，且根据需求自动调度，灵活借用。套用个虚拟机系统话，硬件调度要人工协调，反而不方便了。
关于第二个问题第一个点，我觉得纯物理的更方便一些，无非拆张显卡出去，vm的内网交换有时候不走真实的网络数据的。

ruo101 · 发表于 2024-5-2 06:46

怎么我感觉直接做2台单路4090的机器效能更高？

fut888 · 发表于 2024-5-2 09:57

ruo101 发表于 2024-5-2 06:46
怎么我感觉直接做2台单路4090的机器效能更高？

单路才24g，推理支持双卡48g不需要nvlink，所以2者差一个宇宙了

allenxml · 发表于 2024-5-2 10:28

搞基薛定谔发表于 2024-5-1 20:22
单纯推理的话，可以使用两张4090吗？如果可以的话，大概的方法有哪些？

vLLM、Triton等推理框架

我是这么理解的，推理的过程是两个阶段
第一个是input的文本转化为向量化的token后进入模型推理的预填充阶段。这里更看的是GPU的运算速度。
第二个是推理后生成的token成为下一个token的输入，即n-1的token是n的token的输入，这个是解码阶段。这里可以理解为batch size=1。
根据transformer模型，生成token的原理是查询Q和健K的转置做点积后通过softmax加权求和后与值V进行点积（这里忽略除以维度的平方）。推理中Q在变化，KV其实没有变化，为了优化推理过程，对KV进行缓存。当用户多的时候，解码阶段更看的是GPU的显存吞吐能力。
因此可以知道推理需要的时GPU能放下模型权重和KV缓存，模型权重是一份，KV缓存则是根据用户数量线性增加的。当用户少的时候KV缓存很少，当用户大的时候KV缓存占比就非常大了。

考虑4090显存容量和吞吐量都和H100等计算卡没法比，因此在小规模推理验证和测试上可以作为性价比的尝试，大规模还是老老实实的H100吧。

allenxml · 发表于 2024-5-2 10:30

ruo101 发表于 2024-5-2 06:46
怎么我感觉直接做2台单路4090的机器效能更高？

PCIE 4.0 X 16的之间的速度比10Gbps或者100Gbps快多了，而400Gbps的网卡成本超过了没有显卡的额外配一台的机器的成本。

allenxml · 发表于 2024-5-2 10:31

21mm 发表于 2024-5-2 03:24
对第二个问题第二点狡辩一下：
如果复杂环境两张显卡布局不一定能协调过来特别是直通过去后。ollama这 ...

直通网卡点对点互联就可以走网卡了，我的配置里面有双口X540

allenxml · 发表于 2024-5-2 10:33

fatppmm 发表于 2024-5-1 18:54
给学生做深度学习，z790 hero 可以延长线接2台4090，现在就接1台，14900k的cpu，其他一般的配置

我的机 ...

五一回来考虑换PVE看看，整合加入现有的PVE超融合集群

onemind · 发表于 2024-5-3 21:15

学习，赞！

q3again0605 · 发表于 2024-5-3 22:06

这个阶段可能L20推理卡更合适一点，个人向的话，cpu和主板都可以换成消费级可能也不错，保持有2个x16的支持拆分的主板，为了未来升级。我觉的7950或者13900 14900可能性价比更好，但楼主的配置也挺合理的，而且价格也合适，学习。去试试github上的打开p2p的驱动，对于要用到双卡，数据交换大的应该提升大！

allenxml · 发表于 2024-5-4 14:11

q3again0605 发表于 2024-5-3 22:06
这个阶段可能L20推理卡更合适一点，个人向的话，cpu和主板都可以换成消费级可能也不错，保持有2个x16的支持 ...

是的，当时消费级就买了ROG X670E Hero，可惜第二个槽位只要接需要外接供电的显卡就识别不了，4090和4060ti都是如此，7950X和7800x3d都试过也不行，无奈只能退货老老实实选用工作站/服务器级别主板。除了CPU的单核心IPC不行外，板子和U的成本都差不多。

q3again0605 · 发表于 2024-5-4 15:47

allenxml 发表于 2024-5-4 14:11
是的，当时消费级就买了ROG X670E Hero，可惜第二个槽位只要接需要外接供电的显卡就识别不了，4090和4060 ...

我还没跑通我的业务流，所以配件都买了但是第二块显卡还没买，我看应该等到50系再买了。当初也看了这个机箱但是最后还是买了meshify XL。

elegantFish · 发表于 2024-5-4 17:35

fatppmm 发表于 2024-5-1 18:54
给学生做深度学习，z790 hero 可以延长线接2台4090，现在就接1台，14900k的cpu，其他一般的配置

我的机 ...

大佬，能不能抽空花5分钟理理线

fatppmm · 发表于 2024-5-4 19:34

elegantFish 发表于 2024-5-4 17:35
大佬，能不能抽空花5分钟理理线

能用就将就着了，

建议柠檬 · 发表于 2024-5-4 21:05

这才是生产力的正确导向吧。。。。

24X7还是别买消费级了
哪怕你要上149K 795X你也用个W680、for ws的B650

wujin941005 · 发表于 2024-5-5 23:56

公司里买了追风者PK620，Z790 Creator，一个卡横装一个卡竖装

allenxml · 发表于 2024-5-6 00:31

wujin941005 发表于 2024-5-5 23:56
公司里买了追风者PK620，Z790 Creator，一个卡横装一个卡竖装

分享一下效果呗

maghana · 发表于 2024-5-6 11:04

2080ti改22g ×8怎么样

xivisi · 发表于 2024-5-6 13:11

maghana 发表于 2024-5-6 11:04
2080ti改22g ×8怎么样

4090 * 1> 3090 * 2 > 2080ti 22G * 4

xivisi · 发表于 2024-5-6 13:19

想整 ASUS WRX80E主板+5975WX PCIE槽够够的，CPU单核性能也不差。就是有点贵

惊天大萝卜 · 发表于 2024-5-6 13:24

这cpu散热器撑得住7642满载吗？

账号		自动登录	找回密码
密码			加入我们

[显卡] 深度学习双4090公版装机方案

评分

浏览过的版块