找回密码
 加入我们
搜索
      
查看: 11336|回复: 33

[显卡] 深度学习双4090公版装机方案

[复制链接]
发表于 2024-5-1 12:45 | 显示全部楼层 |阅读模式
本帖最后由 allenxml 于 2024-5-1 12:53 编辑

1.需求与痛点分析
1.1需求
本方案旨在搭建一个虚拟化环境,用于深度学习的开发和测试。关键需求如下:
  • 高性能多GPU支持:需支持至少2个NVIDIA GeForce RTX 4090公版显卡,以确保足够的计算能力、显存容量和可并行方式处理模型的研究。
  • 虚拟化环境:需在虚拟化平台上运行,充分发挥服务器CPU的多核心性能,并且允许显卡直通技术,以便虚拟机能够充分利用GPU资源。
  • 高带宽PCIe连接:主板需要支持至少两个PCI Express 4.0 x16插槽,以实现高速并行数据传输,避免性能损失。
1.2痛点
  • 主板和机箱的选择:市场上能够同时支持双4090显卡宽度及高带宽PCIe插槽的主板和机箱数量有限。
  • 散热问题:双4090显卡在高负载工作时发热量大,需要有效的散热解决方案。
  • 电源需求:双4090显卡及高性能处理器需要稳定且强大的电源供应。

2.解决方案

2.1硬件部分

2.1.1主板和处理器
  • 主板:选择了超微 H12SSL 主板,它提供5个PCI Express 4.0 x16插槽,最远处两个PCI Express 4.0 x16插槽相距6个槽位,可有效支持双4090显卡的多种安装组合后还有空间安装其他PCIE设备,且支持高性能处理器和SLIMSAS转U.2口。这个主板成本在3200元,USB3.0转向1带2头成本在100元。
MBD-H12SSL-I-O_919-1500kb.jpg
图片1.png
  • 处理器:采用 AMD EPYC 7642,这款处理器具备足够的核心数,能够优化虚拟化性能并提供充足的计算资源。成本4700元。
2.1.2显卡和机箱
  • 显卡:双NVIDIA GeForce RTX 4090公版显卡,主要用于执行计算密集型的深度学习任务。二手2个京东带票卡成本29000元。
  • 机箱:选择 追风者PK620工作站版 机箱,它不仅可以容纳E-ATX规格的主板,还能够支持双显卡配置并提供良好的散热条件。机箱成本1399元,风扇成本200元,散热器成本300元。
2.1.3内存、SSD和电源
  • 内存和SSD:采用 海力士32GB*8=256GB 内存,确保虚拟机和应用程序能够高效运行,并且可以验证CPU的通道是否都健全,验证是否奸商。成本450*8=3600元。2个致钛T7100  2T,二手京东带票成本1500元。
  • 电源:选择 海韵PX1600电源,提供1600W的稳定输出和10A电源线接口,足以在家用10A插座环境下支持整个系统的高负载运行。二手京东带票成本2400元。
2.2软件部分

2.2.1虚拟化平台
  • 虚拟化环境:使用 VMware ESXi 8,这是一个稳定且功能强大的虚拟化管理平台,支持不关机切换GPU直通功能,允许物理GPU资源直接分配给虚拟机。
  • GPU虚拟机:部署 Ubuntu 22.04,并部署了docker环境,经过优化以利用GPU资源进行模型微调和推理。
  • 非GPU虚拟机:其他虚拟机可以部署用于CPU密集型的应用,如数据分析、web服务等。


结论
通过上述硬件和软件的组合,本方案能够有效解决双RTX 4090显卡在虚拟化环境下的部署和性能优化需求。高性能的硬件配置保证了处理速度和响应能力,而强大的虚拟化平台则为深度学习开发测试提供了灵活性和扩展性。此外,经过精心选择的机箱和电源解决了散热和电力供应的挑战,确保整个系统的稳定运行。这样的配置不仅符合当前的技术需求,还具备非常高的性价比和扩展空间。
4090x2-1500kb.jpg
ESXi8.png
ubuntu22.04-nvidia-smi.png
docker-ollama.png



评分

参与人数 1邪恶指数 +10 收起 理由
绿茵豪门 + 10 支持一下

查看全部评分

发表于 2024-5-1 14:38 | 显示全部楼层
我是用pve,把核显接显示器
发表于 2024-5-1 16:44 来自手机 | 显示全部楼层
内存涨价真不少啊
 楼主| 发表于 2024-5-1 16:51 | 显示全部楼层
fatppmm 发表于 2024-5-1 14:38
我是用pve,把核显接显示器

其他硬件呢?PVE监控如何?用esxi考虑配合超微板子监控还可以,超融合节点用的PVE7.4
发表于 2024-5-1 17:06 | 显示全部楼层
显卡直通损失大吗? 这个级别了为啥还要套娃呢?
 楼主| 发表于 2024-5-1 18:11 | 显示全部楼层
21mm 发表于 2024-5-1 17:06
显卡直通损失大吗? 这个级别了为啥还要套娃呢?

第一个问题:
直通没什么损失。

第二个问题:
因为有限资金内要模拟验证一些东西。
1.从深度学习的角度出发,并行技术中有数据并行、流水线并行、张量并行等多种并行技术,各自因为并行原理不同导致对通信带宽要求不同。一般单机内多卡是张量并行,多机之间是数据并行和流水并行。有了虚拟化环境,方便模拟多机间通信。
2.从业务系统的角度出发,并不是系统所有组件都需要GPU的,比如简单的open-webui+ollama架构,前端的open-webui包括可能的负载均衡就不需要GPU。这种多组件可以部署在不同的虚拟机上,也可以以基于GPU的和基于CPU来区分容器环境。
发表于 2024-5-1 18:54 | 显示全部楼层
allenxml 发表于 2024-5-1 16:51
其他硬件呢?PVE监控如何?用esxi考虑配合超微板子监控还可以,超融合节点用的PVE7.4 ...

给学生做深度学习,z790 hero 可以延长线接2台4090,现在就接1台,14900k的cpu,其他一般的配置

我的机子,哈哈



pve能够充分利用核显,pve监控感觉别esxi要好
发表于 2024-5-1 18:55 | 显示全部楼层
allenxml 发表于 2024-5-1 18:11
第一个问题:
直通没什么损失。

ollama3也用上open-webui了吗?
 楼主| 发表于 2024-5-1 20:18 | 显示全部楼层
fatppmm 发表于 2024-5-1 18:55
ollama3也用上open-webui了吗?

ollama支持llama3,ollama3是啥没理解
我前几天用的X670E Hero,结果第二个PCIE槽位怎么都无法识别4090,换4060ti 16G也不行,只有不外置供电的卡才能识别和点亮,所以索性换成标准的工作站/服务器品牌板子了
发表于 2024-5-1 20:22 来自手机 | 显示全部楼层
单纯推理的话,可以使用两张4090吗?如果可以的话,大概的方法有哪些?
发表于 2024-5-2 03:24 | 显示全部楼层
allenxml 发表于 2024-5-1 18:11
第一个问题:
直通没什么损失。

对第二个问题第二点 狡辩一下:
如果复杂环境两张显卡布局不一定能协调过来 特别是直通过去后。ollama这个完全可以容器化运行并且调用gpu,且根据需求自动调度,灵活借用。套用个虚拟机系统话,硬件调度要人工协调,反而不方便了。
关于第二个问题第一个点,我觉得纯物理的更方便一些,无非拆张显卡出去,vm的内网交换有时候不走真实的网络数据的。
发表于 2024-5-2 06:46 | 显示全部楼层
怎么我感觉直接做2台单路4090的机器效能更高?
发表于 2024-5-2 09:57 | 显示全部楼层
ruo101 发表于 2024-5-2 06:46
怎么我感觉直接做2台单路4090的机器效能更高?

单路才24g,推理支持双卡48g不需要nvlink,所以2者差一个宇宙了

 楼主| 发表于 2024-5-2 10:28 | 显示全部楼层
搞基薛定谔 发表于 2024-5-1 20:22
单纯推理的话,可以使用两张4090吗?如果可以的话,大概的方法有哪些?

vLLM、Triton等推理框架

我是这么理解的,推理的过程是两个阶段
第一个是input的文本转化为向量化的token后进入模型推理的预填充阶段。这里更看的是GPU的运算速度。
第二个是推理后生成的token成为下一个token的输入,即n-1的token是n的token的输入,这个是解码阶段。这里可以理解为batch size=1。
根据transformer模型,生成token的原理是查询Q和健K的转置做点积后通过softmax加权求和后与值V进行点积(这里忽略除以维度的平方)。推理中Q在变化,KV其实没有变化,为了优化推理过程,对KV进行缓存。当用户多的时候,解码阶段更看的是GPU的显存吞吐能力。
因此可以知道推理需要的时GPU能放下模型权重和KV缓存,模型权重是一份,KV缓存则是根据用户数量线性增加的。当用户少的时候KV缓存很少,当用户大的时候KV缓存占比就非常大了。

考虑4090显存容量和吞吐量都和H100等计算卡没法比,因此在小规模推理验证和测试上可以作为性价比的尝试,大规模还是老老实实的H100吧。
 楼主| 发表于 2024-5-2 10:30 | 显示全部楼层
ruo101 发表于 2024-5-2 06:46
怎么我感觉直接做2台单路4090的机器效能更高?

PCIE 4.0 X 16的之间的速度比10Gbps或者100Gbps快多了,而400Gbps的网卡成本超过了没有显卡的额外配一台的机器的成本。
 楼主| 发表于 2024-5-2 10:31 | 显示全部楼层
21mm 发表于 2024-5-2 03:24
对第二个问题第二点 狡辩一下:
如果复杂环境两张显卡布局不一定能协调过来 特别是直通过去后。ollama这 ...

直通网卡点对点互联就可以走网卡了,我的配置里面有双口X540
 楼主| 发表于 2024-5-2 10:33 | 显示全部楼层
fatppmm 发表于 2024-5-1 18:54
给学生做深度学习,z790 hero 可以延长线接2台4090,现在就接1台,14900k的cpu,其他一般的配置

我的机 ...


五一回来考虑换PVE看看,整合加入现有的PVE超融合集群
发表于 2024-5-3 21:15 | 显示全部楼层
学习,赞!
发表于 2024-5-3 22:06 | 显示全部楼层
这个阶段可能L20推理卡更合适一点,个人向的话,cpu和主板都可以换成消费级可能也不错,保持有2个x16的支持拆分的主板,为了未来升级。我觉的7950或者13900 14900可能性价比更好,但楼主的配置也挺合理的,而且价格也合适,学习。去试试github上的打开p2p的驱动,对于要用到双卡,数据交换大的应该提升大!
 楼主| 发表于 2024-5-4 14:11 | 显示全部楼层
q3again0605 发表于 2024-5-3 22:06
这个阶段可能L20推理卡更合适一点,个人向的话,cpu和主板都可以换成消费级可能也不错,保持有2个x16的支持 ...

是的,当时消费级就买了ROG X670E Hero,可惜第二个槽位只要接需要外接供电的显卡就识别不了,4090和4060ti都是如此,7950X和7800x3d都试过也不行,无奈只能退货老老实实选用工作站/服务器级别主板。除了CPU的单核心IPC不行外,板子和U的成本都差不多。
发表于 2024-5-4 15:47 | 显示全部楼层
allenxml 发表于 2024-5-4 14:11
是的,当时消费级就买了ROG X670E Hero,可惜第二个槽位只要接需要外接供电的显卡就识别不了,4090和4060 ...

我还没跑通我的业务流,所以配件都买了但是第二块显卡还没买,我看应该等到50系再买了。当初也看了这个机箱但是最后还是买了meshify XL。
发表于 2024-5-4 17:35 | 显示全部楼层
fatppmm 发表于 2024-5-1 18:54
给学生做深度学习,z790 hero 可以延长线接2台4090,现在就接1台,14900k的cpu,其他一般的配置

我的机 ...

大佬,能不能抽空花5分钟理理线
发表于 2024-5-4 19:34 | 显示全部楼层
elegantFish 发表于 2024-5-4 17:35
大佬,能不能抽空花5分钟理理线

能用就将就着了,
发表于 2024-5-4 21:05 | 显示全部楼层
这才是生产力的正确导向吧。。。。

24X7还是别买消费级了
哪怕你要上149K 795X你也用个W680、for ws的B650

发表于 2024-5-5 23:56 | 显示全部楼层
公司里买了追风者PK620,Z790 Creator,一个卡横装一个卡竖装
 楼主| 发表于 2024-5-6 00:31 来自手机 | 显示全部楼层
wujin941005 发表于 2024-5-5 23:56
公司里买了追风者PK620,Z790 Creator,一个卡横装一个卡竖装

分享一下效果呗
发表于 2024-5-6 11:04 来自手机 | 显示全部楼层
2080ti改22g ×8怎么样
发表于 2024-5-6 13:11 | 显示全部楼层
maghana 发表于 2024-5-6 11:04
2080ti改22g ×8怎么样

4090 * 1> 3090 * 2  > 2080ti 22G * 4
发表于 2024-5-6 13:19 | 显示全部楼层
想整 ASUS WRX80E主板+5975WX  PCIE槽够够的,CPU单核性能也不差。就是有点贵
发表于 2024-5-6 13:24 | 显示全部楼层
这cpu散热器撑得住7642满载吗?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-9-21 06:13 , Processed in 0.017359 second(s), 11 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表