usky 发表于 2023-5-30 09:20

用于深度学习的图像工作站咨询各位前辈

用途:深度学习 做时间序列和NLP相关模型训练,之前一直用自己的家的小电脑3060玩玩简单的lstm和简易阉割transformer,没资源做大模型
现在实验室有资源采购工作站,不知道dell这个配置用来做训练是否合理

机箱:Precision 7960 塔式 2200W 机箱
处理器:intel 志强 w9-3495x
内存:128GB ,4*32GB ddr5 ECC
显卡:nvidia RTX6000 ADA 48GB*2块
操作系统boot:英特尔 1-2 NVMe PCIe 固态硬盘 Front FlexBay Boot + SATA
硬盘控制器:英特尔集成控制器含 1-2 Front Flex Bay PCIe NVMe 硬盘
硬盘1:2TB m.2 PCIE nvme
硬盘2:8TB 7200RPM HDD
显示器:dell U2723qx

同时好像还是thinkstation px也是新出的工作站,看配置和整体功能类似,价格比dell偏高,但也在预算内,请问如何选择,谢谢

wzy1208apk 发表于 2023-5-30 10:04

这一套要多少钱呀,好口水

gtv 发表于 2023-5-30 10:11

建议将2块a6000 换成A800 PCIE 80GB,
钱不够就降CPU规格

你这2块卡 看着加起来显存很大,实则无法nvlink 互联,用起来也是慢
不如上单卡80GB
同时 ADA 里的RT core对DL无用

myway 发表于 2023-5-30 10:46

DELL、HP、Lenovo这种国际牌子厂商,在工作站使用NV卡,大概率限制NVLink,必须使用专业卡才可以。
消费类的GeForce别指望

21mm 发表于 2023-5-30 10:50

奔着一辆宝马三系去了。

usky 发表于 2023-5-30 15:51

wzy1208apk 发表于 2023-5-30 10:04
这一套要多少钱呀,好口水

20w以内吧

usky 发表于 2023-5-30 15:54

gtv 发表于 2023-5-30 10:11
建议将2块a6000 换成A800 PCIE 80GB,
钱不够就降CPU规格



的确好像这代rtx6000没nvlink了,但是换a800 估计要大调了,要换有显示输出的板u整个机型都要调整,主要单位不让ssh远程链接吗,一旦这么连还要涉及好多安全问题基本不会ssh,都是只能在个人脚下查显示器当个人工作站使用。
还有就是不知道a800的算力和a6000ada差距有多大 训练时间会不会很长
ps:transformer此类的模型不知道双卡不做nvlink有没有并行的方法调用,这个之前没研究过

usky 发表于 2023-5-30 15:55

myway 发表于 2023-5-30 10:46
DELL、HP、Lenovo这种国际牌子厂商,在工作站使用NV卡,大概率限制NVLink,必须使用专业卡才可以。
消费类 ...

不太明白,请问需要怎么调整配置吗

HEXD 发表于 2023-5-30 16:06

gtv 发表于 2023-5-30 10:11
建议将2块a6000 换成A800 PCIE 80GB,
钱不够就降CPU规格



换了A800,还得加个亮机卡做显示输出吧~

gtv 发表于 2023-5-30 16:10

usky 发表于 2023-5-30 15:54
的确好像这代rtx6000没nvlink了,但是换a800 估计要大调了,要换有显示输出的板u整个机型都要调整,主要 ...

A800的带宽要强于A6000, DL 现在主要bottleneck是memory 访问。

A6000 最大的优势是支持fp8以及transformer engine。

如果考虑20w的预算 可以上两块A100 PCIE 40GB,支持nvlink 互联。

不用nvlink 无非走pcie通道,就是慢,也不是不能跑。

当然 加钱上H800 系列 才能两全其美.

gtv 发表于 2023-5-30 16:13

HEXD 发表于 2023-5-30 16:06
换了A800,还得加个亮机卡做显示输出吧~

没错,老黄精准定位

HEXD 发表于 2023-5-30 16:18

gtv 发表于 2023-5-30 16:13
没错,老黄精准定位

也怪抠戴不加个IPMI

usky 发表于 2023-5-30 16:22

gtv 发表于 2023-5-30 16:10
A800的带宽要强于A6000, DL 现在主要bottleneck是memory 访问。

A6000 最大的优势是支持fp8以及transfo ...

处理器:intel 志强 w5-3435x

显卡:nvidia a100 40G*2 nvlink
nvidia p4 亮机

这样合理一些吗

gtv 发表于 2023-5-30 18:21

usky 发表于 2023-5-30 16:22
处理器:intel 志强 w5-3435x

显卡:nvidia a100 40G*2 nvlink


合理 不过要想好这个方案加起来显存就80g 意味着只能加载llm 差不多十几B这样的模型 而且涉及到nvlink 虽然比pcie快 但依然有通信开销,不如单卡。
页: [1]
查看完整版本: 用于深度学习的图像工作站咨询各位前辈