找回密码
 加入我们
搜索
      
查看: 3597|回复: 4

[软件] zfs的压缩和重复数据删除 鱼和熊掌不可兼得

[复制链接]
发表于 2023-10-26 18:46 | 显示全部楼层 |阅读模式
一直以来都有疑问 ZFS DDT表里的数据块是按啥分割的最近有闲心就自己试验了一把

DDT-sha256-zap-duplicate: 16 entries, size 4480 on disk, 1024 in core
DDT-sha256-zap-unique: 2198 entries, size 13396 on disk, 2974 in core

实验之前的数据 重复块和不重复块分别是16个和2198个

将recordsize调整到1M,然后复制了一个接近12M的文件进数据集

DDT-sha256-zap-duplicate: 16 entries, size 4480 on disk, 1024 in core
DDT-sha256-zap-unique: 2210 entries, size 13323 on disk, 2958 in core

2210 - 2198 = 12,不重复块增加了12个,正好和recordsize大小一致,删除这个文件复原块,然后将recordsize调整到512K

然后又把这个文件复制进数据集

DDT-sha256-zap-duplicate: 16 entries, size 4480 on disk, 1024 in core
DDT-sha256-zap-unique: 2222 entries, size 13251 on disk, 2942 in core

2222-2198 = 24,正好增加了一倍

结论:重复数据删除块大小按照recordsize大小分割,越大的块重复概率就越小,压缩则相反,块越大 压缩采样越多 压缩率越高,所以一般来说 只开压缩就好
发表于 2023-10-26 18:50 | 显示全部楼层
原则上,没有个十倍八倍的重复率,就不考虑开dedup

发表于 2023-10-27 20:49 | 显示全部楼层
同意鱼与熊掌

重复数据删除感觉上在VM储存上比较实用,而这种情况下压缩反而会造成额外的CPU开销。

而压缩比较适合低频存储,曾经我也认为那一点点压缩率带来的收益并不是很大,直到我接手了两个200TB级别的存储,压缩率再低,在绝对数量上也会变得很可观。
发表于 2023-10-27 22:06 | 显示全部楼层
听说过一个说法,对于机械硬盘,如果预期压缩率还可以的情况下,比如大量文本文件等,由于少写入节约的时间大于压缩浪费的时间,因此总写入还更快。未实际验证过,但听起来靠谱。

发表于 2023-10-27 23:21 | 显示全部楼层
存视频我啥都不开...
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-1 19:11 , Processed in 0.009252 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表