找回密码
 加入我们
搜索
      
查看: 17057|回复: 40

[NAS] pve 超融合 ceph性能问题

[复制链接]
发表于 2023-8-8 23:34 | 显示全部楼层 |阅读模式
用4个pve 8.0节点万兆互联与7块儿nvme 硬盘组了个ceph超融合集群,rbd写入性能奇差,只有机械盘的水平。

7块儿盘组下来性能还不到单盘零头有点儿难以接受,求指点,有什么建议的优化配置吗?
发表于 2023-8-8 23:54 | 显示全部楼层
在某乎有看到相关的优化,我也是个纯新手,膜拜一下大佬
分布式对于家用环境来说过于复杂,纯固态环境个人感觉没必要搞这个
标题《Ceph性能瓶颈分析与优化》
关于分布式的优化,追求极限和稳定的使用也算是两码事
发表于 2023-8-9 00:16 | 显示全部楼层
我用ubuntu装出来的ceph也是机械硬盘的性能,不过我的osd大部分是机械盘,混了几个固态在里面。

用ceph主要是考虑容错吧。。。。其实是我也不知道怎么优化性能。
 楼主| 发表于 2023-8-9 00:21 | 显示全部楼层
TWSzzz 发表于 2023-8-8 23:54
在某乎有看到相关的优化,我也是个纯新手,膜拜一下大佬
分布式对于家用环境来说过于复杂,纯固态环境个人 ...

到源码层面的优化没必要了,就是正常点儿有个50%的损耗也认了,现在看起来远不止这点儿损耗。
发表于 2023-8-9 07:20 来自手机 | 显示全部楼层
Baishui 发表于 2023-8-9 00:21
到源码层面的优化没必要了,就是正常点儿有个50%的损耗也认了,现在看起来远不止这点儿损耗。 ...

50% 损耗,要求太高了
分布式架构资源利用率远低于这个
新版。crimson 引擎试试呢
这个比 bluestore 好很多
发表于 2023-8-9 08:31 | 显示全部楼层
没玩过,可以换成VSAN试一下
发表于 2023-8-9 08:46 | 显示全部楼层
4节点7osd?不太明白怎么分配的,常规环境下,考虑生产系统的稳定一般都是每个节点使用相同数量容量的osd,另外你也得看自己分配了多少个副本?之前我用3节点,sata 480G X 18,10G光的环境搞过一个3副本的pool,跑满10G没疑问的。
发表于 2023-8-9 09:30 | 显示全部楼层
本帖最后由 JASON879 于 2023-8-9 09:33 编辑

玩nvme超融合存储25G网络起跳,最近在玩VSAN ESA 上的是100G网络。
发表于 2023-8-9 09:37 | 显示全部楼层
本帖最后由 MatthewLXJ 于 2023-8-9 09:42 编辑

之前发过关于ceph的性能测试,但是后续性能优化的部分没有继续写下去了,虽然尝试做了很多优化,但是性能距离我想象差距非常之大,基于PVE Ceph集群搭建(二):Ceph存储池搭建与基本性能测试
根据我当时的优化经历,可以从以下几个方面进行优化测试:

1.网络延迟
常用的万兆包括我此前测试的40G网络都属于ETH,可以尝试节点间ping看看延迟,换RDMA会有提升;
MTU 9000;

2.内存
每个内存尽可能大一些;

3.磁盘
每个磁盘都重新测试,判断有没有磁盘性能瓶颈,一个磁盘不行可能拖累整个pool;从我以前的经历来看,太想把所有HDD都用上,最后某些状态不好的盘导致整个pool性能差,盘多了以后排查也会非常困难;

4.Ceph conf
根据我之前测试OSD部分我做了如下配置修改,纯机械硬盘+NVME WAL的情况下对于pool的4k写有较大提升,纯NVME OSD需要修改,具体参考官方或者其他资料
  1. [osd]
  2.   osd_cache_size = 2048
  3.   osd_enable_op_tracker = false
  4.   osd_op_cache_size = 1024
  5.   osd_op_num_shards = 4
  6.   osd_op_num_threads_per_shard = 4
  7.   osd_op_threads = 8
  8.   osd_pg_threads = 8
  9.   osd_recovery_max_active = 4
  10.   throttler_perf_counter = false
复制代码


5.Bios优化
开启VT,关闭节能,建议关闭NUMA;

6.MDS与MON配置
MDS与MON建议都保留一个进行测试,放在性能最高的节点上,测试性能可以接受的话适当增加MON,但是MDS需要保证性能和内存;

7.其他
其他我只能说ceph与其他存储性能挺大的,真要大容量用起来还要保证性能的话对所有硬件配置要求都不低,我最后接近50个HDD+10块NVME,折腾到最后顺序读3.6G,顺序写1.1G,4k读90k,4k写14k,性能难以接受最后弃用了
发表于 2023-8-9 11:05 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2023-8-9 13:08 | 显示全部楼层
MatthewLXJ 发表于 2023-8-9 09:37
之前发过关于ceph的性能测试,但是后续性能优化的部分没有继续写下去了,虽然尝试做了很多优化,但是性能距 ...


我的顺序读写比例和这个类似,也顺序写和随机写性能奇差。。确实很难接受。
发表于 2023-8-9 13:10 来自手机 | 显示全部楼层
ceph垃圾的很
发表于 2023-8-9 13:27 | 显示全部楼层
家庭可以不考虑分布式,ZFS 也比 ceph 方便啊,2 个盘组 mirror,5 个盘组 RAID-Z,iops 敏感的丢 mirror
发表于 2023-8-9 17:41 | 显示全部楼层
XiaoFaye 发表于 2023-8-9 11:05
有没有可能ceph本来就不是什么好东西?

不适合节点数较少的用法。

节点数多了以后,还是很强的,特别是可靠性。
随便关掉一两个节点,不影响数据安全,集群依旧正常工作。
然后节点恢复上线,会自动完成数据同步。
发表于 2023-8-9 17:48 | 显示全部楼层
本帖最后由 hanyou7 于 2023-8-9 17:55 编辑

PVE没试过 之前12个P3700  3节点 40G内网 rbd顺序读写差不多有4G左右 你这个明显有问题 理论上单个rbd的读写是所有osd的带宽相加
发表于 2023-8-9 18:16 | 显示全部楼层
盘少不要用ceph,我在公司里搞的那套,SSD+HDD EC混合存储800多TB,RBD能跑满20G带宽,IOPS能跑到200多万
发表于 2023-8-9 20:26 | 显示全部楼层
Baishui 发表于 2023-8-9 00:21
到源码层面的优化没必要了,就是正常点儿有个50%的损耗也认了,现在看起来远不止这点儿损耗。 ...

ceph正常损耗是 67%吧

数据复制三份分别放到三个osd

再算上CPU和内存之间交换数据带来的额外延迟,我觉得性能损耗80%都有可能。

我用万兆网卡做的ceph,20多个osd,实际写速度也就百兆(100MB/s)
 楼主| 发表于 2023-8-11 01:36 | 显示全部楼层
hanyou7 发表于 2023-8-9 17:48
PVE没试过 之前12个P3700  3节点 40G内网 rbd顺序读写差不多有4G左右 你这个明显有问题 理论上单个rbd的读 ...

顺序写不是问题,4k随机写iops 900,和nfs或者本地磁盘有几十到几百倍的差距。。
发表于 2023-8-11 08:55 来自手机 | 显示全部楼层
Baishui 发表于 2023-8-11 01:36
顺序写不是问题,4k随机写iops 900,和nfs或者本地磁盘有几十到几百倍的差距。。 ...

4k随机的时候看看cpu和网络负载 我的没这么低 但是肯定比不上单盘
发表于 2023-12-14 17:58 | 显示全部楼层
试试moosefs
发表于 2023-12-20 23:31 | 显示全部楼层
我觉得CEPH挺坑的,不太适合做性能盘。没有看过,有人再CEPH上跑数据库的。所以,就是做一些对象存储的功能,基本上就当一个仓库来用的。
另外,自己搭建,我觉得主要是网络损耗多,电口的网线延迟加一点,然后走标准TCP网络,本身损失就非常高。所以,RDMA+光纤,应该能好很多。
发表于 2023-12-21 00:21 | 显示全部楼层
本帖最后由 myouc 于 2023-12-20 17:31 编辑

性能有多差?参考这个跑个分看看?只有万兆互联的话瓶颈估计在网络

哦对,你不会每个nvme独立作为一个osd吧?建议至少要分两个
 楼主| 发表于 2023-12-21 00:42 | 显示全部楼层
myouc 发表于 2023-12-21 00:21
性能有多差?参考这个跑个分看看?只有万兆互联的话瓶颈估计在网络

哦对,你不会每个nvme独立作为一个osd ...

就和链接里一样差,fio测就那样,试过一个nvme 4个osd没什么用。单盘本地挂载性能差不多能有十倍以上,特别是随机读写
发表于 2023-12-21 19:47 | 显示全部楼层
Baishui 发表于 2023-12-20 17:42
就和链接里一样差,fio测就那样,试过一个nvme 4个osd没什么用。单盘本地挂载性能差不多能有十倍以上,特 ...

链接那篇文章里面测的是机械盘啊,你这个不应该这么差,万兆内网的延迟多少?
 楼主| 发表于 2023-12-21 22:51 | 显示全部楼层
myouc 发表于 2023-12-21 19:47
链接那篇文章里面测的是机械盘啊,你这个不应该这么差,万兆内网的延迟多少? ...

1ms。。。网络规模并不大
发表于 2023-12-21 22:59 | 显示全部楼层
spyman1802 发表于 2023-12-20 23:31
我觉得CEPH挺坑的,不太适合做性能盘。没有看过,有人再CEPH上跑数据库的。所以,就是做一些对象存储的功能 ...

ceph性能没问题的,我在16年生产上ceph用到现在7年了,经历过多家不同公司,最大规模1.5PB,以前跑云计算虚拟机,现在k8s上跑rbd存储类和s3对象存储,用sata ssd做分层存储方案,rbd能跑到200万以上iops,数据库什么的在上面跑得飞起
发表于 2023-12-21 23:02 | 显示全部楼层
Baishui 发表于 2023-12-21 15:51
1ms。。。网络规模并不大

1ms有点高,正常应该0.1ms左右
企业微信截图_17031709069487.png
 楼主| 发表于 2023-12-21 23:18 | 显示全部楼层
本帖最后由 Baishui 于 2023-12-21 23:23 编辑
myouc 发表于 2023-12-21 23:02
1ms有点高,正常应该0.1ms左右


64 bytes from 192.168.x.246: icmp_seq=1 ttl=64 time=0.079 ms
64 bytes from 192.168.x.246: icmp_seq=2 ttl=64 time=0.077 ms
64 bytes from 192.168.x.246: icmp_seq=3 ttl=64 time=0.073 ms
64 bytes from 192.168.x.246: icmp_seq=4 ttl=64 time=0.066 ms
64 bytes from 192.168.x.246: icmp_seq=5 ttl=64 time=0.092 ms
64 bytes from 192.168.x.246: icmp_seq=6 ttl=64 time=0.087 ms
64 bytes from 192.168.x.246: icmp_seq=7 ttl=64 time=0.072 ms
64 bytes from 192.168.x.246: icmp_seq=8 ttl=64 time=0.060 ms
64 bytes from 192.168.x.246: icmp_seq=9 ttl=64 time=0.107 ms
64 bytes from 192.168.x.246: icmp_seq=10 ttl=64 time=0.078 ms

windows不显示更低的,linux下测试2个ceph节点间延迟差不多
 楼主| 发表于 2023-12-21 23:28 | 显示全部楼层
terryhux 发表于 2023-12-21 22:59
ceph性能没问题的,我在16年生产上ceph用到现在7年了,经历过多家不同公司,最大规模1.5PB,以前跑云计算 ...

对于4节点7 nvme 7 osd的架构有什么优化建议吗?ceph 版本17.2.6
发表于 2023-12-21 23:59 | 显示全部楼层
terryhux 发表于 2023-12-21 22:59
ceph性能没问题的,我在16年生产上ceph用到现在7年了,经历过多家不同公司,最大规模1.5PB,以前跑云计算 ...

赞同,刚翻了下大型公有云的建设架构,也是ceph
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 09:22 , Processed in 0.013836 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表