xigins 发表于 2023-10-15 17:42

求推荐一个高速顺序读取1TB的存储方案

场景是做机器学习,数据集有接近1tb,每次训练都要全部读取一遍,现在瓶颈卡在ssd读取速度上了
目前想到的方案
1. 消费级ssd单盘,2GB/s(目前)
2. ssd组raid0 应该能翻倍?
3. 换企业级固态,连续读取能保持6GB/s不?

对存储容量需求不大,4tb以上就可以,主要是有不间断的读取需求

playclan 发表于 2023-10-15 18:01

消费级读取不会掉速吧

xigins 发表于 2023-10-15 18:04

playclan 发表于 2023-10-15 18:01
消费级读取不会掉速吧

看性能监控是一阵一阵的波动,大多数时候到不了标称的读速

狮子歌歌 发表于 2023-10-15 18:27

4.0的企业固态适合你,官网标称都是反向虚标,看看能不能满足你的要求。

caoyuxin 发表于 2023-10-15 18:41

消费级现在已经直接6GB/S了吧,不差钱的话,直接上 EPY7003插4T内存

garfield0018 发表于 2023-10-15 19:43

xigins 发表于 2023-10-15 18:04
看性能监控是一阵一阵的波动,大多数时候到不了标称的读速

读取好像也得优化多序列读取才能达到标称速度。
而且如果是4k小文件多,那raid0没什么提升。

weindy 发表于 2023-10-15 19:54

或者考虑下傲腾内存?配亚马逊拆机平台也没多少钱。

Garming 发表于 2023-10-15 20:10

机器学习的那个数据集,单文件应该比较小吧,那raid0用处不是特别大啊

zengfanxiang 发表于 2023-10-15 20:15

要不要考虑下给服务器配个UPS。
再扩大1TB内存,直接把数据集放内存里[偷笑]

Phil_Libra 发表于 2023-10-15 20:39

P5800X raid 0,请[偷笑]

赫敏 发表于 2023-10-15 22:34

本帖最后由 赫敏 于 2023-10-15 09:43 编辑

我咋觉得是你的程序本身IO性能不行?优化一下索引或者数据结构吧。卡2g读取像是大文件+小文件混合读取的结果,而且不是纯顺序

赫敏 发表于 2023-10-15 22:37

caoyuxin 发表于 2023-10-15 05:41
消费级现在已经直接6GB/S了吧,不差钱的话,直接上 EPY7003插4T内存

6g你也看看什么情况吧。你忘了4k随机那一行还没有盘破百吗

caoyuxin 发表于 2023-10-15 22:44

赫敏 发表于 2023-10-15 22:37
6g你也看看什么情况吧。你忘了4k随机那一行还没有盘破百吗

不是说顺序么?

赫敏 发表于 2023-10-15 22:48

caoyuxin 发表于 2023-10-15 09:44
不是说顺序么?

他这肯定不是。估计用的现成代码

大白兔女乃子 发表于 2023-10-15 22:49

不说预算就是P5800X RAID0

huihuige 发表于 2023-10-16 09:04

对啊 也没说是什么类型
纯顺序读取1T的大文件?
还是零碎的几K的小文件?

xigins 发表于 2023-10-16 11:47

huihuige 发表于 2023-10-16 09:04
对啊 也没说是什么类型
纯顺序读取1T的大文件?
还是零碎的几K的小文件? ...

每个文件几百M,纯顺序读取

A2305 发表于 2023-10-16 11:50

做机器学习还是考虑企业级固态,前提是解决散热问题[困惑]

imyz 发表于 2023-10-16 12:03

感觉可以尝试第二代傲腾内存(DCPMM),内容就在内存中,基本属于不需要大量读取

前提是对机器兼容性要求高

meizulyh 发表于 2023-10-16 12:29

有个叫达墨的什么PSLC,看然天一测试好像不掉速。

zhuifeng88 发表于 2023-10-16 12:37

你这大概率不是ssd io性能不够而是你的dataloader实现不合适

huihuige 发表于 2023-10-16 13:50

xigins 发表于 2023-10-16 11:47
每个文件几百M,纯顺序读取

现在用的是什么SSD?通道是直连CPU的PCIE4.0X4么?

无奈的精灵 发表于 2023-10-16 13:52

本帖最后由 无奈的精灵 于 2023-10-16 13:53 编辑

P5800X 3.2TBx2 RAID0 全盘读取6GB/s+ x2解君愁

xigins 发表于 2023-10-16 22:25

huihuige 发表于 2023-10-16 13:50
现在用的是什么SSD?通道是直连CPU的PCIE4.0X4么?

现在用的梵想s790 4tb,走的主板桥接,影响大么

xigins 发表于 2023-10-16 22:30

收集楼里的意见,记录一下这两天做的优化
文件系统改成xfs,文件压缩格式改成lz4(原来zstd导致解压性能消耗大,跑不满带宽),这两项加速了大概30%
todo接口改成cpu直连
傲腾内存和企业级固态:感觉主要解决的是高并发和平凡写入的任务,在当前场景下用处不大,而且价格要几十倍,实在买不起,暂时不考虑了. 以后换HEDT再说

老饭 发表于 2023-10-16 22:34

intel P5316

huihuige 发表于 2023-10-16 23:15

xigins 发表于 2023-10-16 22:25
现在用的梵想s790 4tb,走的主板桥接,影响大么

桥接是什么意思?转接卡?
看你25楼的回复
还有系统格式和文件压缩?
那是得慢
否则s690直读怎么都有5000+的速度

建议柠檬 发表于 2023-10-16 23:19

傲腾内存解君愁


3647现在CPU不贵 准系统价格也还OK

BetaHT 发表于 2023-10-16 23:30

买1T内存。

厌夜 发表于 2023-10-17 00:02

改你的代码,你那个cpu/gpu处理速度能到2G/s?不能的话就不是硬盘问题嘛。
页: [1]
查看完整版本: 求推荐一个高速顺序读取1TB的存储方案