找回密码
 加入我们
搜索
      
查看: 128437|回复: 194

[NAS] 告别单盘组建TrueNAS SCALE终极家用OpenZFS File Server, VM & More

 火... [复制链接]
发表于 2022-3-26 20:14 | 显示全部楼层 |阅读模式
本帖最后由 jerrytsao 于 2022-4-7 04:08 编辑

关于存储, 讨论的实在太多了, 我这里也分享一些个人感受

A. 单盘各自使用 vs 多盘以某种方式混在一起使用

在此之前, 我的HDD数据一直都以单盘的形式存在, 从12年前的1TB/2TB到后来的4TB, 8TB以及16TB, 且一直保留容量X2递增更换

主要原因有两点

1) 早期对各种RAID以及存储文件系统没有做深入研究, 只是觉得空气单盘如果坏了大不了开盘拿数据, 如果不重要的数据甚至可以直接不要了换新

2) 软RAID特别是Win OS RAID等脱离系统之后就要重新弄, 且OS出问题就容易挂, 硬RAID则直接不考虑, 卡贵而且折腾起来太麻烦

最近几年, 随着网速的加快, 下载4K UHD原盘文件夹动不动超80GB, 加上qBittorrent这个吃资源的家伙对单盘HDD造成了很大压力

日益觉得存储和PC一起有很重的累赘感和拖累感, 剥离开来是势在必行, 而和PC分家也意味着和单盘说再见

B. 磁盘冗余阵列(RAID)用什么模式, 普通标准RAID, 非标准RAID, 还是专门的存储文件系统?

说到RAID, 一个基本知识但很多人依旧混淆的概念 - RAID不是备份, RAID是为了Storage阵列有更强的Data Resiliency

Resiliency可以从好几方面来看, 冗余模式, 数据完整性, 纠错性能, 容错能力, 以及存储分层等

Win下软RAID刚上面提到了是一个相当不靠谱的选择, 除非上硬RAID, Storage Spaces虽不是传统RAID但差异不算太大且性能悲催

Linux下软RAID有众所周知的mdadm, 群晖的Synology Hybrid RAID(SHR)其实就是Linux软RAID魔改版

非标准RAID里面近年来比较火的有UnRAID, SnapRAID, FlexRAID等, 但总体来说这几个有各自的缺点, 且大多数对性能几乎无提升

存储文件系统方面则有Linux下的Btrfs, 多平台企业级存储ZFS, 以及近年来很多大规模阵列采用的分布式存储Ceph

选择建议

1) Budget用户或存储小白, 喜欢一块盘一块盘的添加, 且不关心性能, 可以选择SnapRAID

2) 不差钱且不喜欢太折腾, 直接无脑群辉, 利用其强大的软件优势

3) 喜欢折腾且精通Linux选择就很多了, ZFS, mdadm, Btrfs等等都可以

4) 喜欢折腾但不喜欢代码输入, 同时需要GUI可视化界面, 追求性能, 那就用TrueNAS CORE或者TrueNAS SCALE

TrueNAS CORE基于FreeBSD, 而基于Linux的TrueNAS SCALE随着将来效能优化会变得越来越强大, 推荐TrueNAS新用户直接上SCALE

C. 关于ZFS/OpenZFS/TrueNAS

TrueNAS是iXsystems下OpenZFS GUI操作系统品牌名, 旗下主要产品有TrueNAS CORE(原先的FreeNAS)和刚发布正式版没多久的TrueNAS SCALE

ZFS是Oracle甲骨文开发的文件系统, 自家用的专有文件系统叫Oracle ZFS, 而Port过来的开源版本就叫做OpenZFS, 目前依然在积极开发中

ZFS应该是当今最健壮的HDD存储文件系统, 但要玩爽ZFS有几个前提一定要先了解

1) 影响性能最大的因素永远是RAM主存, 所以成本计算上内存一定不能省, 具体容量根据你HDD Pool大小定, 但个人认为不应小于64GB

2) ZFS最早是针对HDD开发的文件系统, SSD并非最佳搭档, 特别是高性能PCIe Gen 4 SSD无法发挥其全部性能

好消息是即将推出的OpenZFS 3.0(TrueNAS要等到23年)对NVMe SSD甚至PMem做了大量新功能和优化, 今后用于SSD存储文件的前景相当乐观



3) ZFS在盘位上最好提前部署, 比如一期的实际可用容量是否够你用, 以及今后准备如何扩展加容量

从上图可以看到3.0版本会更新期待已久的RAID-Z单盘扩展, 虽然从目前测试看来我觉得体验一般, 但对预算紧缺组ZFS的人来说这绝对是天大的好消息

这里顺带说一下OpenZFS 2.1新增的dRAID vs RAID-Z

dRAID适合于一次性固定投入大量盘数的环境, 比如你一次性弄24-96盘, 以后不再增加

低于20盘数就没有必要走dRAID了, 而且短期内dRAID在同Pool下也无法扩展磁盘数量

RAID-Z适合分批次加同样磁盘vdev的用户, 比如第一次先弄12盘Vdev 1, 等钱包充足或者容量不够了再弄12盘在同Pool下添加Vdev 2

dRAID主要解决了很多人担忧的长时间Resilvering(ZFS重组)使得中途另外磁盘挂掉, 进而导致整个Pool Degraded的问题

但RAID-Z同样也有办法来减少风险, 那就是前几年新增的Allocation Classes

将Metadata放在专门的SSD Special Vdev大大加速了Resilvering时间, 同时可以指定<某个Block Size的文件运行在IOPS高太多的SSD上

另外注意RAID-Z适合于视频等大文件为主的流文件(也就是持续读写), 如果Pool纯粹用于数据库+小Block Size毫无疑问还是选择Mirror镜像


扯了这么多下面进入正文, 先来看下这台基本拉满的服务器配置

Case: Fractal Design Define 7 XL

PSU: Super Flower LEADEX G1000W

CPU: AMD EPYC Milan 7T83

MB: Supermicro H12SSL-NT Or ASRock Rack ROMED8-2T

HBA: 2*Broadcom 9400-16i

DRAM: 8*64GB=512GB Samsung DDR4-3200 2R RDIMM M393A8G40AB2-CWE

OS Boot: 2*Samsung PM9A3 1.92TB M.2 2-Way Mirror

Metadata Vdev: 3*Samsung PM9A3 3.84TB U.2 3-Way Mirror

Slog Vdev: 2*Intel Optane 900P 280GB U.2 2-Way Mirror

L2ARC: N/A

Data SSD: Memblaze PBlaze5 D700 11TB U.2

Data HDD: 24*Seagate X18 18TB

2块OS盘M.2 22110以及用于各种Vdev的6块2.5" U.2 SSD全家福




三块9400-16i, 上面两块是原厂货, 最上面那块之前故障了所以跑去海鲜市场买了一块

收到后发现"国产OEM仿品"(最下面那块)泛滥TB/海鲜/eBay, 不过固件/BIOS/EFI更新都正常, 也就将就着用吧




7XL总览




开机两块HBA检测





此处强烈推荐OS安装神器Ventoy, 只需点击一次安装, 放入ISO文件即可, 再也不用反复rufus做启动盘...



这次24块X18 ST18000NM000J有去年7月和去年11月两个Batch, 自带都还是SN01固件, 而官网有新固件SN02, 所以需要一个个手动升级




TrueNAS SCALE安装界面选择磁盘



新建Pool界面, 可以看到1个数据池下有Data, Cache, Log, Hot Spare, Metadata和Dedup共6种Vdev类型

Data顾名思义就是数据

Cache就是L2ARC二级读缓存, 一级缓存当然就是RAM

Log指的是Slog用于加速Sync同步写入速度

Hot Spare就是大家熟知的热备

Metadata即上面已经提到的Allocation Classes, 统称Special Vdev

Dedup AKA De-duplication数据去重, 属于变相的数据压缩, 一般不建议使用, 一方面会占用大量主存, 另一方面会降低性能



具体Vdev配置, 这里顺便说明选择上述硬件配置的理由

RAM: 8条64GB DDR4-3200 2R RDIMM, 512GB能满足500TiB Pool(1GB/1TB)的"坊间最佳要求", 无论科学与否内存越大对ZFS只有正作用

OS启动盘: 2块Samsung PM9A3 1.92TB M.2做2-Way镜像, 评测见此, 主要考虑22110+防掉电保护

Metadata Vdev: 3块Samsung PM9A3 3.84TB U.2做3-Way镜像, 评测见此, 一般来说Metadata容量可按0.3%去算

如果基本都是视频大文件所需要百分比更小, 但假如很多随机小块的话则可选择1%, 可以运行以下命令获取更准确的块大小统计
  1. zdb -Lbbbs POOLNAME
复制代码

由于此Vdev是将原本放在HDD的Metadata移到随机IOPS快很多的SSD上, 一旦坏了整个Pool的数据也毁了, 需要至少2块组镜像, 推荐3-4块也不为过

Slog Vdev: 2块Intel Optane 900P 280GB U.2做2-Way镜像, 自从Optane SSD发布之后便成为ZFS Slog御用盘, 没有之一

最佳Slog盘当属P4801X 100GB, 这里选择900P 280GB主要同时兼顾容价比和耐久度

此Vdev可以随时删除, 因此镜像不是必须, 而容量则和网络直接相关, 10GbE理论上只需要5s*1.25GB/s=6.25GB

注意Slog只在Sync同步写时起作用, Async异步写时就是靠主存, 以下是关于Standard, Sync Always和Sync Disabled三者的区别
sync=standard: sync writes are written 2 times (first to LOG, second as normal write every ~5 seconds)
                          async write are written only once (every ~5 seconds)
sync=always: sync & async writes are written 2 times (first to LOG, second as normal write every ~5 seconds)
sync=disabled: sync & async writes are written only once (every ~5 seconds)

Cache Vdev: 无, L2ARC只在主存不够的情况下建议使用, 否则很可能会起反作用

Data SSD Vdev: 1块Memblaze PBlaze5 D700 11TB U.2, 评测见此

单独新建一个SSD单盘Pool, 主要原因是为了BT软件, 第一次组ZFS很容易忽略的情况是P2P所导致的磁盘碎片

一旦HDD池里用BT软件, 只有重写文件才能Defrag, 而由于ZFS本身COW特性就是"碎片"式文件系统, 等到后期容量不够用再整理是不可能的

有了SSD Pool, 意味着可以在qBittorrent里设置"Keep incomplete torrents in:"指向到SSD, 下载完毕后自动完整移到HDD Pool, 完美解决碎片化问题

Data HDD Vdev:  一期24盘组2个12-Wide RAID-Z2 Vdevs, 最大可用空间为325.2TiB(1MiB Record Size)和299.1TiB(128KiB Record Size)

家用一般只推荐Z2(Z1太危险, Z3没有必要), 12盘通常来说是Z2的宽度极限, 像16-24盘这样太宽的单Z2 Vdev只有可怜的单盘IOPS且安全系数直线下降

未来容量扩展其实相当方便, 添加12块同型号磁盘组新的Vdev, 然后加入到原有的Pool当中

如36盘组3个Vdevs可以达到487.8TiB(1MiB)和448.7TiB(128KiB), 而96盘组8个Vdevs则可以达到1,301.5TiB(1MiB)和1,197TiB(128KiB)

此种扩展方式的另一个优点是, 新增1个Vdev的同时可以增加一个单盘的IOPS, 对整个HDD Pool的随机性能都有帮助



Pool Status页面可以清晰查看Pool和Vdev的完整结构



Disks页面可以找到各磁盘的序列号, 容量, 以及所属Pool



开启SMART Tests后, 即可在Reporting页面查看各磁盘的温度信息

这里建议Scrub和SMART Long岔开两周各一次, 第1周某日Scrub, 第2周同日SMART, 第3周同日Scrub, 第4周同日SMART, 每月如此循环




Storage主页可以查Pool和Dataset的基本数据, 注意这里的可用容量299.1TiB是基于128KiB Record Size的预估



改成1MiB之后实际可用容量为325.2TiB, 但不会在ZFS上显示, 可以在文件信息里看到实际磁盘占用, 会比原本小一些



设置里的Boot页面可以看到当前OS盘里的TrueNAS系统版本和体积, 如果有过升级会保留之前的版本



Dataset页面设置一览, 主要修改Compression Level, Record Size, ACL Type和Metadata (Special) Small Block Size



首页信息全览



下一步是设置Sharing, 先弄个简单的SMB



为了不影响Root用户设置, Credentials下新建一个User, 默认打钩Samba Authentication



然后在Windows上映射磁盘即可



C8DH上只有2.5GbE, 随便测一下稳定在极限280MB/s上下

除了SMB之外, 还可以给ATV整个WebDAV, 或者弄个iSCSI Block Storage折腾更高的带宽和更低的延迟



SCALE的一大特点就是更多的Application, 默认很少只有7个(包括Plex, Nextcloud, Chia等), 需要在里面添加TrueCharts Catalog




添加完之后, 就拥有了多达194个App, 包括常用的TrueCommand, qBittorrent, Emby等等, 能涵盖各类需求, 比FreeBSD的Jail强大太多



SCALE相比CORE另一个优势当然就是Linux KVM了, 虽然目前还没法和VMWare之类相比, 但SCALE的潜力很大, 同OpenZFS一起拥有很高的天花板




2022-03-29 Update 10GbE

连上12900K默认+Z690 Formula的AQC113



未作任何巨帧等优化Windows 11初步跑10GbE SMB, 1MiB Record Size下LZ4要比ZSTD更快一些

Windows SMB默认Async写入, 所以不会经过900P加速, 但可以看到PM9A3的Special Vdev加速让整个HDD Pool随机性能直接变成SATA SDD级别




HDD Pool持续读取稳稳被10GbE限制




2022-04-06 Update 40GbE

因为有了sunneyboy的这个SCALE vs CORE帖子, 开始折腾之前扔在垃圾堆N年的"古董级"网卡


由于之前两块ConnectX-4 VPI MCX456A-ECAT 2*100GbE Lenovo OEM(4年前的测试见此)不知为何闲置着就挂了

反倒是更早eBay买的ConnectX-3 Pro VPI MCX354A-FCCT 2*40GbE还活着, 只能先将就用着



一上机发现网卡显示不出来, 但是Shell里输lspci能看到设备, Google后发现大概率是端口类型默认是IB的原因

突然想起来上次用mlxconfig改过端口是坏掉的100G, 这两块40G之前只在Windows下改过端口类型, 但并没有用mlxconfig修改并写入EEPROM

果断拔下插到Windows, 下载安装MFT(Mellanox Firmware Tools)工具包, 输入mlxconfig命令修改默认VPI(InfiniBand)为ETH(Ethernet)
  1. mlxconfig -d mt4103_pciconf0 set LINK_TYPE_P1=2 LINK_TYPE_P2=2
复制代码





另外其实默认不改端口也可以显示出来, 就是需要在系统设置->高级里的Sysctl添加Variable, 和FreeBSD TrueNAS CORE下Tunables是一个道理

不过还是建议上面直接EEPROM里写入以太网的方法兼容性更好
  1. sys.device.mlx4_core0.mlx4_port0 = eth
  2. sys.device.mlx4_core0.mlx4_port1 = eth
复制代码




mlxconfig改完后重新插上就可以在TrueNAS SCALE自动显示40G ETH网卡了



手上DAC铜缆只有两条HPE OEM 845406-B21, 对应Mellanox MCP1600-C003 3米, 意外发现QSFP28 100G线材也能用在QSFP+ 40G端口上

由于QSFP+ 40G, QSFP28 100G, QSFP56 200G, QSFP-DD 400G以及QSFP-DD800 800G都采用了相同大小规格的收发器, 线缆向后兼容也并不意外



在Windows的MCX354A网卡上设置单独的网关10.0.0.X和IP 10.0.0.X, 并在TrueNAS端MCX354A改IP地址为10.0.0.X, 即可握手40GbE



如此就可以做到PC和TrueNAS之间走40GbE, 同时不影响PC和TrueNAS已有的10GbE和局域网内其它设备以及WAN外网的互联

这个时候在这台PC上可以通过两个IP地址进入TrueNAS Dashboard, 默认10GbE通过交换机的192.168.X.X, 以及网卡之间互插的10.0.0.X



我这边TrueNAS SCALE HDD 2*Z2 40GbE SMB测出来的极限为27GbE, 毕竟不能和多年FreeBSD优化相比, 加上Win本身的限制, 不过会慢慢会优化的



CDM v8.0.4跑1GiB(SMT On), Special Vdev提升整个HDD Pool部分随机性能>SATA SSD, 在没有RDMA的情况下算是不错了


[Read]
  SEQ    1MiB (Q=  1, T= 1):  2242.112 MB/s [   2138.2 IOPS] <   467.34 us>
  SEQ    1MiB (Q=  8, T= 1):  3196.626 MB/s [   3048.5 IOPS] <  2615.14 us>
  RND    4KiB (Q=  1, T= 1):    80.535 MB/s [  19661.9 IOPS] <    50.75 us>
  RND    4KiB (Q= 32, T=16):   435.586 MB/s [ 106344.2 IOPS] <  4803.52 us>

[Write]
  SEQ    1MiB (Q=  1, T= 1):  1176.851 MB/s [   1122.3 IOPS] <   890.14 us>
  SEQ    1MiB (Q=  8, T= 1):  1669.667 MB/s [   1592.3 IOPS] <  4985.51 us>
  RND    4KiB (Q=  1, T= 1):    46.335 MB/s [  11312.3 IOPS] <    88.27 us>
  RND    4KiB (Q= 32, T=16):   143.955 MB/s [  35145.3 IOPS] < 13889.98 us>

[Mix] Read 70%/Write 30%
  SEQ    1MiB (Q=  1, T= 1):  1746.924 MB/s [   1666.0 IOPS] <   599.57 us>
  SEQ    1MiB (Q=  8, T= 1):  2363.504 MB/s [   2254.0 IOPS] <  3541.11 us>
  RND    4KiB (Q=  1, T= 1):    49.138 MB/s [  11996.6 IOPS] <    83.01 us>
  RND    4KiB (Q= 32, T=16):   177.827 MB/s [  43414.8 IOPS] < 11661.94 us>

TrueNAS SCALE HDD 2*Z2 -> PC拷贝88GB的数个大视频文件, 平均在2.4GB/s上下, 为消除任何Q1T1读写瓶颈PC端采用的磁盘是P5800X 1.6TB



PC -> TrueNAS SCALE HDD 2*Z2拷贝88GB的数个大视频文件, 1MiB Record Size + LZ4实时压缩导致速度稍慢, 平均在1.4GB/s上下



这一波测试之后机器应该不会移到弱电箱而是在书房待着了, 接下来准备换上200GbE互联折腾RDMA和NVMe-oF Target/Initiator Offloads

评分

参与人数 8邪恶指数 +410 收起 理由
猪圈 + 10 就是NB
灯下狐 + 200
kpchan + 110 就 很 离 谱 ,离 嗨 晒 谱 。
mkkkno1 + 10 就是NB
wesleyxy + 20 就是NB
醉酒棕熊 + 20 666
gtx9 + 20 J叔大作6666
LunaSea + 20 就是NB

查看全部评分

 楼主| 发表于 2022-3-26 21:46 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-26 21:48 编辑
goat 发表于 2022-3-26 20:21
unraid直接不建议是因为收费吗


UnRAID更多的是Marketing, 就像一个魔改版JBOD, Parity不完全, Reliability也不够, 还要付费, 唯一的强项可能就是那个Community和Apps
 楼主| 发表于 2022-3-26 23:12 | 显示全部楼层
linchen0950 发表于 2022-3-26 21:00
超过26个硬盘,编号是sdaa开始吗

嗯, Linux都一样的
 楼主| 发表于 2022-3-26 23:14 | 显示全部楼层
oldnetdog 发表于 2022-3-26 21:45
J叔不是写了24块盘,不知道咋安装上的。


晚些会定制个32盘机箱, 目前8盘放在外面的笼子, 不想用机柜...
 楼主| 发表于 2022-3-26 23:34 | 显示全部楼层
堕天使星颖 发表于 2022-3-26 23:23
FlexRAID官网都没了。。


这东西一直没细看, 已经Dead了 推荐列表里删掉
 楼主| 发表于 2022-3-26 23:42 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-26 23:45 编辑
T.JOHN 发表于 2022-3-26 22:39
我并不觉得scale性能会比core差到哪里去,openzfs代码统一以后区别只是freebsd和linux两个底层操作系统较量 ...


选ZSTD无后缀, ZSTD-1还是ZSTD-19, 看了些文档还不是很明确, 7T83确实应该利用其压缩/解压性能优势
 楼主| 发表于 2022-3-27 23:04 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-27 23:28 编辑
T.JOHN 发表于 2022-3-27 10:44
偏向省空间选5,偏向性能得选1,或者负值。可以参考 https://community.centminmod.com/threads/round-4- ...


每个原盘文件夹下(除BDMV子文件夹之外)有一些小文件, 其它基本都是视频文件了

反正CPU性能高, 主存容量也够大, 我直接选了ZSTD-19, 对视频文件也没啥影响
 楼主| 发表于 2022-3-28 00:38 | 显示全部楼层
T.JOHN 发表于 2022-3-28 00:26
19我只能说充分利用CPU
scrub和smart长测我觉得不用两周一次那么频繁的,一个月一次就很充分了。白 ...

建议不错     
 楼主| 发表于 2022-3-28 16:02 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-28 16:10 编辑
T.JOHN 发表于 2022-3-28 00:26
19我只能说充分利用CPU
scrub和smart长测我觉得不用两周一次那么频繁的,一个月一次就很充分了。白 ...


小试了下视频文件ZSTD-19是毫无意义了, 且传输变得非常不稳定, 我感觉TrueNAS似乎无法吃CPU多线程?

目测只有LZ4和ZSTD无后缀里二选一, ZSTD Level 1-5之间差异也不大, 另外好像ZSTD并不是一定比LZ4压缩比更高?




 楼主| 发表于 2022-3-28 19:36 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-28 19:42 编辑
T.JOHN 发表于 2022-3-28 17:21
如果实测LZ4比ZSTD还好的话,那肯定用LZ4了,虽然这个结果和我测得不一样。

是否支持多线程取决于Truena ...


感谢测试, 你这个应该是128KiB Record Size下的吧, 我刚才还是在Win下SMB简单测试了下128KiB, LZ4倒没有压缩变大的情况



首先7T83线程占用没啥大问题, 是昨晚观察错误

其次确认1MiB对CPU的压力相比128KiB大很多, 毕竟128K下视频文件几乎没有压缩, 128K下开ZSTD-19传输就比较稳定, 只有稍多一丢丢波动

我这数据肯定选1MiB, Google一搜有太多测试证明1MiB大多数情况下没有副作用, 除非全是数据库小文件, 我还是选ZSTD无后缀好了



 楼主| 发表于 2022-3-29 13:42 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-29 13:48 编辑
T.JOHN 发表于 2022-3-28 20:10
是的,我是用默认128KiB做的测试,看来应该是recordsize差异造成的测试结果不同。
看来1MiB确实非常适合 ...


连上12900K默认+Z690 Formula的AQC113, 未作任何巨帧等优化Windows 11初步跑10GbE SMB, 我觉得还是用回LZ4吧...






 楼主| 发表于 2022-3-29 13:56 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-29 14:16 编辑
leeosx 发表于 2022-3-26 23:53
大佬。我全默认设置 18个18t...为啥samba共享下面读写速度基本上就是600/200的样子raidz2...文件是单个60 ...


我PC上换到10GbE试了, 没有任何网络性能上的大问题, 就是1MiB+压缩会影响一点持续写入
 楼主| 发表于 2022-3-30 13:58 | 显示全部楼层
kingkiss 发表于 2022-3-27 08:23
期待关于网络配置和测试的文章,我也组了个TRUENAS SCALE,全NVME固态池25G网卡SMB读取只能跑1.2G/S还很不 ...


有没有设primarycache=metadata, NVMe SSD建议等OpenZFS 3.0上线看DirectIO实际表现, 能真正绕过ARC/RAM
 楼主| 发表于 2022-3-30 14:08 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-30 14:18 编辑
MatthewLXJ 发表于 2022-3-29 09:10
太强了...7T83的NAS。
之前尝试过TrueNas scale和core做全机械纯存储的NAS,尝试搭配CX3 pro 40G eth ...


目前很多测试看下来, TrueNAS/Windows 11极限都在25GbE左右, 所以40G/100G往上没有两头都支持的RDMA是干不到的, 可以尝试下KSMBD

HDD回到单盘JBOD, 那还需要SMB Direct的网络? 你如果设置了SSD Special Vdev肯定不会慢的, 我这HDD Pool随机性能直接变SATA SSD



 楼主| 发表于 2022-3-31 10:16 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-3-31 10:18 编辑
sunneyboy 发表于 2022-3-31 05:26
J大佬,我的nas10块6T HDD,8块sata ssd 1.46T,池建议怎么创建能保证性能。谢谢


建议弄2-3个960GB或1.92T DWPD=1的数据中心NVMe SSD镜像组那个Special Vdev, SATA SSD的话怎么说呢, 还是单独组个池吧
 楼主| 发表于 2022-4-1 02:16 | 显示全部楼层
sunneyboy 发表于 2022-3-31 12:48
组Special Vdev性能会提升吗? 同平台TrueNAS SCALE比CORE慢了很多

我原贴里已经详细解释了啊...还有那最后那个CDM随机读写
 楼主| 发表于 2022-4-1 02:18 | 显示全部楼层
dominicchen 发表于 2022-3-31 13:18
J大,问下,GEN8能装这个TrueNAS SCALE 么?能不能装在U盘上?还是必须装在SSD上呢? ...

和是不是Gen 8没关系, 最好单独SSD做Boot
 楼主| 发表于 2022-4-1 02:22 | 显示全部楼层
明石的果汁 发表于 2022-3-31 15:29
我也装了一个True nas  用了 12T*36  480G*2 系统   双万兆做的BOND 标准浪潮服务器来弄的。用于商用备份
S ...

3个12盘Pool? 还有个Pool做啥用, 2*10GbE速度如何?
 楼主| 发表于 2022-4-1 02:26 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-4-1 02:36 编辑
leavelost 发表于 2022-3-31 20:19
向LZ求助,新买的9405W-16i,刷了最近的P22 mix固件,接了P4510的4T盘(也是最近固件0184),跑分不正常, ...

https://www.chiphell.com/thread-2316899-1-1.html
https://www.chiphell.com/thread-1819639-1-1.html

关于这个问题我之前有说过好多次, Broadcom(LSI)这类HBA卡依然需要走SOC芯片, 并不适合PCIe NVMe SSD, 跑不满很正常

你需要的是超微Retimer拆分卡, 如Gen 4的AOC-SLG4-4E4T/AOC-SLG4-2E4T, 或Gen 3的AOC-SLG3-4E4T和AOC-SLG3-2E4T, 服务器上都用这种

HomeLab日常可以用我首页那种SZ产转接卡拆分PCIe Gen 4 x4/x4或者x4/x4/x4/x4, 这也是最直通最无损耗的方式




 楼主| 发表于 2022-4-1 10:34 | 显示全部楼层
明石的果汁 发表于 2022-4-1 09:15
对,12盘一个组,最后一个组还未使用,速度没做测试,很快就拉完了,跟商用的华为集中存储也差不了太多, ...

我肯定没有这种需求...你这种我觉得上Ceph啊
 楼主| 发表于 2022-4-1 13:58 | 显示全部楼层
sunhaine 发表于 2022-4-1 11:46
请教下,三星DDR4 3200 ECC内存去哪里买比较靠谱呢


TB/海鲜市场找呗
 楼主| 发表于 2022-4-2 13:48 | 显示全部楼层
nlnjnj 发表于 2022-4-2 11:17
帮顶下顺便也交个作业,很多参考了您的选择

https://www.chiphell.com/forum.php?mod=viewthread&ti ...

666666   
 楼主| 发表于 2022-4-6 02:02 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-4-7 04:08 编辑

2022-04-06 Update 40GbE

因为有了sunneyboy的这个SCALE vs CORE帖子, 开始折腾之前扔在垃圾堆N年的"古董级"网卡


由于之前两块ConnectX-4 VPI MCX456A-ECAT 2*100GbE Lenovo OEM(4年前的测试见此)不知为何闲置着就挂了

反倒是更早eBay买的ConnectX-3 Pro VPI MCX354A-FCCT 2*40GbE还活着, 只能先将就用着



一上机发现网卡显示不出来, 但是Shell里输lspci能看到设备, Google后发现大概率是端口类型默认是IB的原因

突然想起来上次用mlxconfig改过端口是坏掉的100G, 这两块40G之前只在Windows下改过端口类型, 但并没有用mlxconfig修改并写入EEPROM

果断拔下插到Windows, 下载安装MFT(Mellanox Firmware Tools)工具包, 输入mlxconfig命令修改默认VPI(InfiniBand)为ETH(Ethernet)
  1. mlxconfig -d mt4103_pciconf0 set LINK_TYPE_P1=2 LINK_TYPE_P2=2
复制代码





另外其实默认不改端口也可以显示出来, 就是需要在系统设置->高级里的Sysctl添加Variable, 和FreeBSD TrueNAS CORE下Tunables是一个道理

不过还是建议上面直接EEPROM里写入以太网的方法兼容性更好
  1. sys.device.mlx4_core0.mlx4_port0 = eth
  2. sys.device.mlx4_core0.mlx4_port1 = eth
复制代码




mlxconfig改完后重新插上就可以在TrueNAS SCALE自动显示40G ETH网卡了



手上DAC铜缆只有两条HPE OEM 845406-B21, 对应Mellanox MCP1600-C003 3米, 意外发现QSFP28 100G线材也能用在QSFP+ 40G端口上

由于QSFP+ 40G, QSFP28 100G, QSFP56 200G, QSFP-DD 400G以及QSFP-DD800 800G都采用了相同大小规格的收发器, 线缆向后兼容也并不意外



在Windows的MCX354A网卡上设置单独的网关10.0.0.X和IP 10.0.0.X, 并在TrueNAS端MCX354A改IP地址为10.0.0.X, 即可握手40GbE



如此就可以做到PC和TrueNAS之间走40GbE, 同时不影响PC和TrueNAS已有的10GbE和局域网内其它设备以及WAN外网的互联

这个时候在这台PC上可以通过两个IP地址进入TrueNAS Dashboard, 默认10GbE通过交换机的192.168.X.X, 以及网卡之间互插的10.0.0.X



我这边TrueNAS SCALE HDD 2*Z2 40GbE SMB测出来的极限为27GbE, 毕竟不能和多年FreeBSD优化相比, 加上Win本身的限制, 不过会慢慢会优化的



CDM v8.0.4跑1GiB(SMT On), Special Vdev提升整个HDD Pool部分随机性能>SATA SSD, 在没有RDMA的情况下算是不错了


[Read]
  SEQ    1MiB (Q=  1, T= 1):  2242.112 MB/s [   2138.2 IOPS] <   467.34 us>
  SEQ    1MiB (Q=  8, T= 1):  3196.626 MB/s [   3048.5 IOPS] <  2615.14 us>
  RND    4KiB (Q=  1, T= 1):    80.535 MB/s [  19661.9 IOPS] <    50.75 us>
  RND    4KiB (Q= 32, T=16):   435.586 MB/s [ 106344.2 IOPS] <  4803.52 us>

[Write]
  SEQ    1MiB (Q=  1, T= 1):  1176.851 MB/s [   1122.3 IOPS] <   890.14 us>
  SEQ    1MiB (Q=  8, T= 1):  1669.667 MB/s [   1592.3 IOPS] <  4985.51 us>
  RND    4KiB (Q=  1, T= 1):    46.335 MB/s [  11312.3 IOPS] <    88.27 us>
  RND    4KiB (Q= 32, T=16):   143.955 MB/s [  35145.3 IOPS] < 13889.98 us>

[Mix] Read 70%/Write 30%
  SEQ    1MiB (Q=  1, T= 1):  1746.924 MB/s [   1666.0 IOPS] <   599.57 us>
  SEQ    1MiB (Q=  8, T= 1):  2363.504 MB/s [   2254.0 IOPS] <  3541.11 us>
  RND    4KiB (Q=  1, T= 1):    49.138 MB/s [  11996.6 IOPS] <    83.01 us>
  RND    4KiB (Q= 32, T=16):   177.827 MB/s [  43414.8 IOPS] < 11661.94 us>

TrueNAS SCALE HDD 2*Z2 -> PC拷贝88GB的数个大视频文件, 平均在2.4GB/s上下, 为消除任何Q1T1读写瓶颈PC端采用的磁盘是P5800X 1.6TB



PC -> TrueNAS SCALE HDD 2*Z2拷贝88GB的数个大视频文件, 1MiB Record Size + LZ4实时压缩导致速度稍慢, 平均在1.4GB/s上下



这一波测试之后机器应该不会移到弱电箱而是在书房待着了, 接下来准备换上200GbE互联折腾RDMA和NVMe-oF Target/Initiator Offloads

 楼主| 发表于 2022-4-7 14:22 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-4-7 14:46 编辑
Smartcraft 发表于 2022-4-6 22:38
@jerrytsao,200GbE需要在NVMe target上叠SSD RAID的了吧。Intel平台有VROC RAID0可以使用。但是我测试的时 ...

没用过VROC那垃圾...两块P5800X 1.6TB在TrueNAS内建一个单独的SSD Pool, 然后可以试试primary cache=metadata

两块Stripe Barebone极限持续读写混合带宽在15GB/s左右, 100GbE稍微不够点, 200GbE理论余量就很多了



接下来准备做的测试是Zvol做Linux NVMe-oF Target, 效率还不错的StarWind Windows NVMe-oF做Initiator

不过在OpenZFS 3.0的DirectIO到来之前, NVMe SSD在ZFS上的表现不用期望太多

 楼主| 发表于 2022-4-8 17:08 | 显示全部楼层
本帖最后由 jerrytsao 于 2022-4-8 17:10 编辑
衡山路道长 发表于 2022-4-8 17:04
大佬可以出一个配置rdma的教程吗?我现在pc端是mcx515a-cdat truenas端是mcx516a-cdat mellanox aoc直连
...


我还没开始, SH快递停工导致CX-6 200G卡寄不出来, 周末先用CX-3 Pro 40G试试NVMe-oF
 楼主| 发表于 2022-4-26 21:02 | 显示全部楼层
mlnet 发表于 2022-4-25 18:32
请问为啥不用iscsi挂载呢


计划被拖了下, 等折腾RDMA和NVMe-oF Target/Initiator Offloads的时候弄iSCSI Target
 楼主| 发表于 2022-5-9 16:22 | 显示全部楼层
hapshon 发表于 2022-5-7 20:32
J叔请教个问题,请问你的HBA 9400-16i是否设置了顺序启动?,我是9400-8i在bios里没找到顺序启动相关的设置 ...


我没去动过, 修改要用storcli, 方法User Guide有 https://docs.broadcom.com/doc/MR-TM-SW-UG
 楼主| 发表于 2022-5-9 16:44 | 显示全部楼层
hanyou7 发表于 2022-5-9 14:35
补充一个32G大文件的测试

不错的双路测试
 楼主| 发表于 2022-5-10 11:32 | 显示全部楼层
hanyou7 发表于 2022-5-9 17:20
nvme的池 性能在大文件才有点点提升 正常使用和hdd池没什么区别
纠结要不要把nvme给hdd做元数据 ...

PCIe NVMe SSD Pool在ZFS 3.0出来之前限制较大, 有多余磁盘的话还不如给HDD Pool做Special Vdev
 楼主| 发表于 2022-6-9 02:52 | 显示全部楼层
sc80t 发表于 2022-6-8 23:23
楼主现在换新箱子了吗?32盘是机柜式还是塔式?

d7xl使用情况怎么样:现在这种室外30来度的天气,不开空 ...

还没有, 必须是普通塔式机箱, 否则机柜选择无限多...D7 XL很稳没毛病
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-6-30 19:29 , Processed in 0.018108 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表