求推荐一个高速顺序读取1TB的存储方案
场景是做机器学习,数据集有接近1tb,每次训练都要全部读取一遍,现在瓶颈卡在ssd读取速度上了目前想到的方案
1. 消费级ssd单盘,2GB/s(目前)
2. ssd组raid0 应该能翻倍?
3. 换企业级固态,连续读取能保持6GB/s不?
对存储容量需求不大,4tb以上就可以,主要是有不间断的读取需求 消费级读取不会掉速吧 playclan 发表于 2023-10-15 18:01
消费级读取不会掉速吧
看性能监控是一阵一阵的波动,大多数时候到不了标称的读速 4.0的企业固态适合你,官网标称都是反向虚标,看看能不能满足你的要求。 消费级现在已经直接6GB/S了吧,不差钱的话,直接上 EPY7003插4T内存 xigins 发表于 2023-10-15 18:04
看性能监控是一阵一阵的波动,大多数时候到不了标称的读速
读取好像也得优化多序列读取才能达到标称速度。
而且如果是4k小文件多,那raid0没什么提升。 或者考虑下傲腾内存?配亚马逊拆机平台也没多少钱。 机器学习的那个数据集,单文件应该比较小吧,那raid0用处不是特别大啊
要不要考虑下给服务器配个UPS。
再扩大1TB内存,直接把数据集放内存里[偷笑] P5800X raid 0,请[偷笑] 本帖最后由 赫敏 于 2023-10-15 09:43 编辑
我咋觉得是你的程序本身IO性能不行?优化一下索引或者数据结构吧。卡2g读取像是大文件+小文件混合读取的结果,而且不是纯顺序
caoyuxin 发表于 2023-10-15 05:41
消费级现在已经直接6GB/S了吧,不差钱的话,直接上 EPY7003插4T内存
6g你也看看什么情况吧。你忘了4k随机那一行还没有盘破百吗 赫敏 发表于 2023-10-15 22:37
6g你也看看什么情况吧。你忘了4k随机那一行还没有盘破百吗
不是说顺序么? caoyuxin 发表于 2023-10-15 09:44
不是说顺序么?
他这肯定不是。估计用的现成代码 不说预算就是P5800X RAID0 对啊 也没说是什么类型
纯顺序读取1T的大文件?
还是零碎的几K的小文件? huihuige 发表于 2023-10-16 09:04
对啊 也没说是什么类型
纯顺序读取1T的大文件?
还是零碎的几K的小文件? ...
每个文件几百M,纯顺序读取 做机器学习还是考虑企业级固态,前提是解决散热问题[困惑] 感觉可以尝试第二代傲腾内存(DCPMM),内容就在内存中,基本属于不需要大量读取
前提是对机器兼容性要求高 有个叫达墨的什么PSLC,看然天一测试好像不掉速。 你这大概率不是ssd io性能不够而是你的dataloader实现不合适 xigins 发表于 2023-10-16 11:47
每个文件几百M,纯顺序读取
现在用的是什么SSD?通道是直连CPU的PCIE4.0X4么? 本帖最后由 无奈的精灵 于 2023-10-16 13:53 编辑
P5800X 3.2TBx2 RAID0 全盘读取6GB/s+ x2解君愁 huihuige 发表于 2023-10-16 13:50
现在用的是什么SSD?通道是直连CPU的PCIE4.0X4么?
现在用的梵想s790 4tb,走的主板桥接,影响大么 收集楼里的意见,记录一下这两天做的优化
文件系统改成xfs,文件压缩格式改成lz4(原来zstd导致解压性能消耗大,跑不满带宽),这两项加速了大概30%
todo接口改成cpu直连
傲腾内存和企业级固态:感觉主要解决的是高并发和平凡写入的任务,在当前场景下用处不大,而且价格要几十倍,实在买不起,暂时不考虑了. 以后换HEDT再说 intel P5316 xigins 发表于 2023-10-16 22:25
现在用的梵想s790 4tb,走的主板桥接,影响大么
桥接是什么意思?转接卡?
看你25楼的回复
还有系统格式和文件压缩?
那是得慢
否则s690直读怎么都有5000+的速度 傲腾内存解君愁
3647现在CPU不贵 准系统价格也还OK
买1T内存。 改你的代码,你那个cpu/gpu处理速度能到2G/s?不能的话就不是硬盘问题嘛。
页:
[1]