allenxml 发表于 2024-5-1 12:45

深度学习双4090公版装机方案

本帖最后由 allenxml 于 2024-5-1 12:53 编辑

1.需求与痛点分析
1.1需求本方案旨在搭建一个虚拟化环境,用于深度学习的开发和测试。关键需求如下:
[*]高性能多GPU支持:需支持至少2个NVIDIA GeForce RTX 4090公版显卡,以确保足够的计算能力、显存容量和可并行方式处理模型的研究。
[*]虚拟化环境:需在虚拟化平台上运行,充分发挥服务器CPU的多核心性能,并且允许显卡直通技术,以便虚拟机能够充分利用GPU资源。
[*]高带宽PCIe连接:主板需要支持至少两个PCI Express 4.0 x16插槽,以实现高速并行数据传输,避免性能损失。
1.2痛点
[*]主板和机箱的选择:市场上能够同时支持双4090显卡宽度及高带宽PCIe插槽的主板和机箱数量有限。
[*]散热问题:双4090显卡在高负载工作时发热量大,需要有效的散热解决方案。
[*]电源需求:双4090显卡及高性能处理器需要稳定且强大的电源供应。

2.解决方案
2.1硬件部分
2.1.1主板和处理器
[*]主板:选择了超微 H12SSL 主板,它提供5个PCI Express 4.0 x16插槽,最远处两个PCI Express 4.0 x16插槽相距6个槽位,可有效支持双4090显卡的多种安装组合后还有空间安装其他PCIE设备,且支持高性能处理器和SLIMSAS转U.2口。这个主板成本在3200元,USB3.0转向1带2头成本在100元。



[*]处理器:采用 AMD EPYC 7642,这款处理器具备足够的核心数,能够优化虚拟化性能并提供充足的计算资源。成本4700元。
2.1.2显卡和机箱
[*]显卡:双NVIDIA GeForce RTX 4090公版显卡,主要用于执行计算密集型的深度学习任务。二手2个京东带票卡成本29000元。
[*]机箱:选择 追风者PK620工作站版 机箱,它不仅可以容纳E-ATX规格的主板,还能够支持双显卡配置并提供良好的散热条件。机箱成本1399元,风扇成本200元,散热器成本300元。
2.1.3内存、SSD和电源

[*]内存和SSD:采用 海力士32GB*8=256GB 内存,确保虚拟机和应用程序能够高效运行,并且可以验证CPU的通道是否都健全,验证是否奸商。成本450*8=3600元。2个致钛T71002T,二手京东带票成本1500元。
[*]电源:选择 海韵PX1600电源,提供1600W的稳定输出和10A电源线接口,足以在家用10A插座环境下支持整个系统的高负载运行。二手京东带票成本2400元。
2.2软件部分
2.2.1虚拟化平台
[*]虚拟化环境:使用 VMware ESXi 8,这是一个稳定且功能强大的虚拟化管理平台,支持不关机切换GPU直通功能,允许物理GPU资源直接分配给虚拟机。
[*]GPU虚拟机:部署 Ubuntu 22.04,并部署了docker环境,经过优化以利用GPU资源进行模型微调和推理。
[*]非GPU虚拟机:其他虚拟机可以部署用于CPU密集型的应用,如数据分析、web服务等。


结论通过上述硬件和软件的组合,本方案能够有效解决双RTX 4090显卡在虚拟化环境下的部署和性能优化需求。高性能的硬件配置保证了处理速度和响应能力,而强大的虚拟化平台则为深度学习开发测试提供了灵活性和扩展性。此外,经过精心选择的机箱和电源解决了散热和电力供应的挑战,确保整个系统的稳定运行。这样的配置不仅符合当前的技术需求,还具备非常高的性价比和扩展空间。






fatppmm 发表于 2024-5-1 14:38

我是用pve,把核显接显示器

舒方 发表于 2024-5-1 16:44

内存涨价真不少啊

allenxml 发表于 2024-5-1 16:51

fatppmm 发表于 2024-5-1 14:38
我是用pve,把核显接显示器

其他硬件呢?PVE监控如何?用esxi考虑配合超微板子监控还可以,超融合节点用的PVE7.4

21mm 发表于 2024-5-1 17:06

显卡直通损失大吗? 这个级别了为啥还要套娃呢?

allenxml 发表于 2024-5-1 18:11

21mm 发表于 2024-5-1 17:06
显卡直通损失大吗? 这个级别了为啥还要套娃呢?

第一个问题:
直通没什么损失。

第二个问题:
因为有限资金内要模拟验证一些东西。
1.从深度学习的角度出发,并行技术中有数据并行、流水线并行、张量并行等多种并行技术,各自因为并行原理不同导致对通信带宽要求不同。一般单机内多卡是张量并行,多机之间是数据并行和流水并行。有了虚拟化环境,方便模拟多机间通信。
2.从业务系统的角度出发,并不是系统所有组件都需要GPU的,比如简单的open-webui+ollama架构,前端的open-webui包括可能的负载均衡就不需要GPU。这种多组件可以部署在不同的虚拟机上,也可以以基于GPU的和基于CPU来区分容器环境。

fatppmm 发表于 2024-5-1 18:54

allenxml 发表于 2024-5-1 16:51
其他硬件呢?PVE监控如何?用esxi考虑配合超微板子监控还可以,超融合节点用的PVE7.4 ...

给学生做深度学习,z790 hero 可以延长线接2台4090,现在就接1台,14900k的cpu,其他一般的配置

我的机子,哈哈

https://static.chiphell.com/forum/202401/09/231827g04pll3zlllbs150.jpg

pve能够充分利用核显,pve监控感觉别esxi要好

fatppmm 发表于 2024-5-1 18:55

allenxml 发表于 2024-5-1 18:11
第一个问题:
直通没什么损失。



ollama3也用上open-webui了吗?

allenxml 发表于 2024-5-1 20:18

fatppmm 发表于 2024-5-1 18:55
ollama3也用上open-webui了吗?

ollama支持llama3,ollama3是啥没理解
我前几天用的X670E Hero,结果第二个PCIE槽位怎么都无法识别4090,换4060ti 16G也不行,只有不外置供电的卡才能识别和点亮,所以索性换成标准的工作站/服务器品牌板子了

搞基薛定谔 发表于 2024-5-1 20:22

单纯推理的话,可以使用两张4090吗?如果可以的话,大概的方法有哪些?

21mm 发表于 2024-5-2 03:24

allenxml 发表于 2024-5-1 18:11
第一个问题:
直通没什么损失。



对第二个问题第二点 狡辩一下:
如果复杂环境两张显卡布局不一定能协调过来 特别是直通过去后。ollama这个完全可以容器化运行并且调用gpu,且根据需求自动调度,灵活借用。套用个虚拟机系统话,硬件调度要人工协调,反而不方便了。
关于第二个问题第一个点,我觉得纯物理的更方便一些,无非拆张显卡出去,vm的内网交换有时候不走真实的网络数据的。

ruo101 发表于 2024-5-2 06:46

怎么我感觉直接做2台单路4090的机器效能更高?

fut888 发表于 2024-5-2 09:57

ruo101 发表于 2024-5-2 06:46
怎么我感觉直接做2台单路4090的机器效能更高?

单路才24g,推理支持双卡48g不需要nvlink,所以2者差一个宇宙了

allenxml 发表于 2024-5-2 10:28

搞基薛定谔 发表于 2024-5-1 20:22
单纯推理的话,可以使用两张4090吗?如果可以的话,大概的方法有哪些?

vLLM、Triton等推理框架

我是这么理解的,推理的过程是两个阶段
第一个是input的文本转化为向量化的token后进入模型推理的预填充阶段。这里更看的是GPU的运算速度。
第二个是推理后生成的token成为下一个token的输入,即n-1的token是n的token的输入,这个是解码阶段。这里可以理解为batch size=1。
根据transformer模型,生成token的原理是查询Q和健K的转置做点积后通过softmax加权求和后与值V进行点积(这里忽略除以维度的平方)。推理中Q在变化,KV其实没有变化,为了优化推理过程,对KV进行缓存。当用户多的时候,解码阶段更看的是GPU的显存吞吐能力。
因此可以知道推理需要的时GPU能放下模型权重和KV缓存,模型权重是一份,KV缓存则是根据用户数量线性增加的。当用户少的时候KV缓存很少,当用户大的时候KV缓存占比就非常大了。

考虑4090显存容量和吞吐量都和H100等计算卡没法比,因此在小规模推理验证和测试上可以作为性价比的尝试,大规模还是老老实实的H100吧。

allenxml 发表于 2024-5-2 10:30

ruo101 发表于 2024-5-2 06:46
怎么我感觉直接做2台单路4090的机器效能更高?

PCIE 4.0 X 16的之间的速度比10Gbps或者100Gbps快多了,而400Gbps的网卡成本超过了没有显卡的额外配一台的机器的成本。

allenxml 发表于 2024-5-2 10:31

21mm 发表于 2024-5-2 03:24
对第二个问题第二点 狡辩一下:
如果复杂环境两张显卡布局不一定能协调过来 特别是直通过去后。ollama这 ...

直通网卡点对点互联就可以走网卡了,我的配置里面有双口X540

allenxml 发表于 2024-5-2 10:33

fatppmm 发表于 2024-5-1 18:54
给学生做深度学习,z790 hero 可以延长线接2台4090,现在就接1台,14900k的cpu,其他一般的配置

我的机 ...

五一回来考虑换PVE看看,整合加入现有的PVE超融合集群

onemind 发表于 2024-5-3 21:15

学习,赞!

q3again0605 发表于 2024-5-3 22:06

这个阶段可能L20推理卡更合适一点,个人向的话,cpu和主板都可以换成消费级可能也不错,保持有2个x16的支持拆分的主板,为了未来升级。我觉的7950或者13900 14900可能性价比更好,但楼主的配置也挺合理的,而且价格也合适,学习。去试试github上的打开p2p的驱动,对于要用到双卡,数据交换大的应该提升大!

allenxml 发表于 2024-5-4 14:11

q3again0605 发表于 2024-5-3 22:06
这个阶段可能L20推理卡更合适一点,个人向的话,cpu和主板都可以换成消费级可能也不错,保持有2个x16的支持 ...

是的,当时消费级就买了ROG X670E Hero,可惜第二个槽位只要接需要外接供电的显卡就识别不了,4090和4060ti都是如此,7950X和7800x3d都试过也不行,无奈只能退货老老实实选用工作站/服务器级别主板。除了CPU的单核心IPC不行外,板子和U的成本都差不多。

q3again0605 发表于 2024-5-4 15:47

allenxml 发表于 2024-5-4 14:11
是的,当时消费级就买了ROG X670E Hero,可惜第二个槽位只要接需要外接供电的显卡就识别不了,4090和4060 ...

我还没跑通我的业务流,所以配件都买了但是第二块显卡还没买,我看应该等到50系再买了。当初也看了这个机箱但是最后还是买了meshify XL。

elegantFish 发表于 2024-5-4 17:35

fatppmm 发表于 2024-5-1 18:54
给学生做深度学习,z790 hero 可以延长线接2台4090,现在就接1台,14900k的cpu,其他一般的配置

我的机 ...

大佬,能不能抽空花5分钟理理线[生病]

fatppmm 发表于 2024-5-4 19:34

elegantFish 发表于 2024-5-4 17:35
大佬,能不能抽空花5分钟理理线

能用就将就着了,[高傲]

建议柠檬 发表于 2024-5-4 21:05

这才是生产力的正确导向吧。。。。

24X7还是别买消费级了
哪怕你要上149K 795X你也用个W680、for ws的B650

wujin941005 发表于 2024-5-5 23:56

公司里买了追风者PK620,Z790 Creator,一个卡横装一个卡竖装

allenxml 发表于 2024-5-6 00:31

wujin941005 发表于 2024-5-5 23:56
公司里买了追风者PK620,Z790 Creator,一个卡横装一个卡竖装

分享一下效果呗

maghana 发表于 2024-5-6 11:04

2080ti改22g ×8怎么样

xivisi 发表于 2024-5-6 13:11

maghana 发表于 2024-5-6 11:04
2080ti改22g ×8怎么样

4090 * 1> 3090 * 2> 2080ti 22G * 4

xivisi 发表于 2024-5-6 13:19

想整 ASUS WRX80E主板+5975WXPCIE槽够够的,CPU单核性能也不差。就是有点贵

惊天大萝卜 发表于 2024-5-6 13:24

这cpu散热器撑得住7642满载吗?
页: [1] 2
查看完整版本: 深度学习双4090公版装机方案