找回密码
 加入我们
搜索
      
查看: 4753|回复: 29

[存储] 求推荐一个高速顺序读取1TB的存储方案

[复制链接]
发表于 2023-10-15 17:42 | 显示全部楼层 |阅读模式
场景是做机器学习,数据集有接近1tb,每次训练都要全部读取一遍,现在瓶颈卡在ssd读取速度上了
目前想到的方案
1. 消费级ssd单盘,2GB/s(目前)
2. ssd组raid0 应该能翻倍?
3. 换企业级固态,连续读取能保持6GB/s不?

对存储容量需求不大,4tb以上就可以,主要是有不间断的读取需求
发表于 2023-10-15 18:01 | 显示全部楼层
消费级读取不会掉速吧
 楼主| 发表于 2023-10-15 18:04 | 显示全部楼层
playclan 发表于 2023-10-15 18:01
消费级读取不会掉速吧

看性能监控是一阵一阵的波动,大多数时候到不了标称的读速
发表于 2023-10-15 18:27 | 显示全部楼层
4.0的企业固态适合你,官网标称都是反向虚标,看看能不能满足你的要求。
发表于 2023-10-15 18:41 | 显示全部楼层
消费级现在已经直接6GB/S了吧,不差钱的话,直接上 EPY  7003插4T内存
发表于 2023-10-15 19:43 | 显示全部楼层
xigins 发表于 2023-10-15 18:04
看性能监控是一阵一阵的波动,大多数时候到不了标称的读速

读取好像也得优化多序列读取才能达到标称速度。
而且如果是4k小文件多,那raid0没什么提升。
发表于 2023-10-15 19:54 来自手机 | 显示全部楼层
或者考虑下傲腾内存?配亚马逊拆机平台也没多少钱。
发表于 2023-10-15 20:10 | 显示全部楼层
机器学习的那个数据集,单文件应该比较小吧,那raid0用处不是特别大啊
发表于 2023-10-15 20:15 | 显示全部楼层
要不要考虑下给服务器配个UPS。
再扩大1TB内存,直接把数据集放内存里
发表于 2023-10-15 20:39 | 显示全部楼层
P5800X raid 0,请
发表于 2023-10-15 22:34 来自手机 | 显示全部楼层
本帖最后由 赫敏 于 2023-10-15 09:43 编辑

我咋觉得是你的程序本身IO性能不行?优化一下索引或者数据结构吧。卡2g读取像是大文件+小文件混合读取的结果,而且不是纯顺序

发表于 2023-10-15 22:37 来自手机 | 显示全部楼层
caoyuxin 发表于 2023-10-15 05:41
消费级现在已经直接6GB/S了吧,不差钱的话,直接上 EPY  7003插4T内存

6g你也看看什么情况吧。你忘了4k随机那一行还没有盘破百吗
发表于 2023-10-15 22:44 来自手机 | 显示全部楼层
赫敏 发表于 2023-10-15 22:37
6g你也看看什么情况吧。你忘了4k随机那一行还没有盘破百吗

不是说顺序么?
发表于 2023-10-15 22:48 来自手机 | 显示全部楼层
caoyuxin 发表于 2023-10-15 09:44
不是说顺序么?

他这肯定不是。估计用的现成代码
发表于 2023-10-15 22:49 | 显示全部楼层
不说预算就是P5800X RAID0
发表于 2023-10-16 09:04 | 显示全部楼层
对啊 也没说是什么类型
纯顺序读取1T的大文件?
还是零碎的几K的小文件?
 楼主| 发表于 2023-10-16 11:47 | 显示全部楼层
huihuige 发表于 2023-10-16 09:04
对啊 也没说是什么类型
纯顺序读取1T的大文件?
还是零碎的几K的小文件? ...

每个文件几百M,纯顺序读取
发表于 2023-10-16 11:50 | 显示全部楼层
做机器学习还是考虑企业级固态,前提是解决散热问题
发表于 2023-10-16 12:03 | 显示全部楼层
感觉可以尝试第二代傲腾内存(DCPMM),内容就在内存中,基本属于不需要大量读取

前提是对机器兼容性要求高
发表于 2023-10-16 12:29 | 显示全部楼层
有个叫达墨的什么PSLC,看然天一测试好像不掉速。
发表于 2023-10-16 12:37 | 显示全部楼层
你这大概率不是ssd io性能不够而是你的dataloader实现不合适
发表于 2023-10-16 13:50 | 显示全部楼层
xigins 发表于 2023-10-16 11:47
每个文件几百M,纯顺序读取

现在用的是什么SSD?通道是直连CPU的PCIE4.0X4么?
发表于 2023-10-16 13:52 | 显示全部楼层
本帖最后由 无奈的精灵 于 2023-10-16 13:53 编辑

P5800X 3.2TBx2 RAID0 全盘读取6GB/s+ x2解君愁
 楼主| 发表于 2023-10-16 22:25 | 显示全部楼层
huihuige 发表于 2023-10-16 13:50
现在用的是什么SSD?通道是直连CPU的PCIE4.0X4么?

现在用的梵想s790 4tb,走的主板桥接,影响大么
 楼主| 发表于 2023-10-16 22:30 | 显示全部楼层
收集楼里的意见,记录一下这两天做的优化
文件系统改成xfs,文件压缩格式改成lz4(原来zstd导致解压性能消耗大,跑不满带宽),这两项加速了大概30%
todo接口改成cpu直连
傲腾内存和企业级固态:感觉主要解决的是高并发和平凡写入的任务,在当前场景下用处不大,而且价格要几十倍,实在买不起,暂时不考虑了. 以后换HEDT再说
发表于 2023-10-16 22:34 | 显示全部楼层
intel P5316
发表于 2023-10-16 23:15 | 显示全部楼层
xigins 发表于 2023-10-16 22:25
现在用的梵想s790 4tb,走的主板桥接,影响大么

桥接是什么意思?转接卡?
看你25楼的回复
还有系统格式和文件压缩?
那是得慢
否则s690直读怎么都有5000+的速度
发表于 2023-10-16 23:19 | 显示全部楼层
傲腾内存解君愁


3647现在CPU不贵 准系统价格也还OK
发表于 2023-10-16 23:30 | 显示全部楼层
买1T内存。
发表于 2023-10-17 00:02 | 显示全部楼层
改你的代码,你那个cpu/gpu处理速度能到2G/s?不能的话就不是硬盘问题嘛。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 16:11 , Processed in 0.012352 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表