用于深度学习的图像工作站咨询各位前辈

usky 发表于 2023-5-30 09:20

用途：深度学习做时间序列和NLP相关模型训练，之前一直用自己的家的小电脑3060玩玩简单的lstm和简易阉割transformer，没资源做大模型
现在实验室有资源采购工作站，不知道dell这个配置用来做训练是否合理

机箱：Precision 7960 塔式 2200W 机箱
处理器：intel 志强 w9-3495x
内存：128GB ，4*32GB ddr5 ECC
显卡：nvidia RTX6000 ADA 48GB*2块
操作系统boot：英特尔 1-2 NVMe PCIe 固态硬盘 Front FlexBay Boot + SATA
硬盘控制器：英特尔集成控制器含 1-2 Front Flex Bay PCIe NVMe 硬盘
硬盘1：2TB m.2 PCIE nvme
硬盘2：8TB 7200RPM HDD
显示器：dell U2723qx

同时好像还是thinkstation px也是新出的工作站，看配置和整体功能类似，价格比dell偏高，但也在预算内，请问如何选择，谢谢

wzy1208apk 发表于 2023-5-30 10:04

这一套要多少钱呀，好口水

gtv 发表于 2023-5-30 10:11

建议将2块a6000 换成A800 PCIE 80GB，
钱不够就降CPU规格

你这2块卡看着加起来显存很大，实则无法nvlink 互联，用起来也是慢
不如上单卡80GB
同时 ADA 里的RT core对DL无用

myway 发表于 2023-5-30 10:46

DELL、HP、Lenovo这种国际牌子厂商，在工作站使用NV卡，大概率限制NVLink，必须使用专业卡才可以。
消费类的GeForce别指望

21mm 发表于 2023-5-30 10:50

奔着一辆宝马三系去了。

usky 发表于 2023-5-30 15:51

wzy1208apk 发表于 2023-5-30 10:04
这一套要多少钱呀，好口水

20w以内吧

usky 发表于 2023-5-30 15:54

gtv 发表于 2023-5-30 10:11
建议将2块a6000 换成A800 PCIE 80GB，
钱不够就降CPU规格

的确好像这代rtx6000没nvlink了，但是换a800 估计要大调了，要换有显示输出的板u整个机型都要调整，主要单位不让ssh远程链接吗，一旦这么连还要涉及好多安全问题基本不会ssh，都是只能在个人脚下查显示器当个人工作站使用。
还有就是不知道a800的算力和a6000ada差距有多大训练时间会不会很长
ps：transformer此类的模型不知道双卡不做nvlink有没有并行的方法调用，这个之前没研究过

usky 发表于 2023-5-30 15:55

myway 发表于 2023-5-30 10:46
DELL、HP、Lenovo这种国际牌子厂商，在工作站使用NV卡，大概率限制NVLink，必须使用专业卡才可以。
消费类 ...

不太明白，请问需要怎么调整配置吗

HEXD 发表于 2023-5-30 16:06

gtv 发表于 2023-5-30 10:11
建议将2块a6000 换成A800 PCIE 80GB，
钱不够就降CPU规格

换了A800，还得加个亮机卡做显示输出吧~

gtv 发表于 2023-5-30 16:10

usky 发表于 2023-5-30 15:54
的确好像这代rtx6000没nvlink了，但是换a800 估计要大调了，要换有显示输出的板u整个机型都要调整，主要 ...

A800的带宽要强于A6000， DL 现在主要bottleneck是memory 访问。

A6000 最大的优势是支持fp8以及transformer engine。

如果考虑20w的预算可以上两块A100 PCIE 40GB，支持nvlink 互联。

不用nvlink 无非走pcie通道，就是慢，也不是不能跑。

当然加钱上H800 系列才能两全其美.

gtv 发表于 2023-5-30 16:13

HEXD 发表于 2023-5-30 16:06
换了A800，还得加个亮机卡做显示输出吧~

没错，老黄精准定位

HEXD 发表于 2023-5-30 16:18

gtv 发表于 2023-5-30 16:13
没错，老黄精准定位

也怪抠戴不加个IPMI

usky 发表于 2023-5-30 16:22

gtv 发表于 2023-5-30 16:10
A800的带宽要强于A6000， DL 现在主要bottleneck是memory 访问。

A6000 最大的优势是支持fp8以及transfo ...

处理器：intel 志强 w5-3435x

显卡：nvidia a100 40G*2 nvlink
nvidia p4 亮机

这样合理一些吗

gtv 发表于 2023-5-30 18:21

usky 发表于 2023-5-30 16:22
处理器：intel 志强 w5-3435x

显卡：nvidia a100 40G*2 nvlink

合理不过要想好这个方案加起来显存就80g 意味着只能加载llm 差不多十几B这样的模型而且涉及到nvlink 虽然比pcie快但依然有通信开销，不如单卡。

页: [1]

Chiphell - 分享与交流用户体验's Archiver

用于深度学习的图像工作站咨询各位前辈