pve 超融合 ceph性能问题
用4个pve 8.0节点万兆互联与7块儿nvme 硬盘组了个ceph超融合集群,rbd写入性能奇差,只有机械盘的水平。7块儿盘组下来性能还不到单盘零头有点儿难以接受,求指点,有什么建议的优化配置吗? 在某乎有看到相关的优化,我也是个纯新手,膜拜一下大佬
分布式对于家用环境来说过于复杂,纯固态环境个人感觉没必要搞这个
标题《Ceph性能瓶颈分析与优化》
关于分布式的优化,追求极限和稳定的使用也算是两码事 我用ubuntu装出来的ceph也是机械硬盘的性能,不过我的osd大部分是机械盘,混了几个固态在里面。
用ceph主要是考虑容错吧。。。。其实是我也不知道怎么优化性能。 TWSzzz 发表于 2023-8-8 23:54
在某乎有看到相关的优化,我也是个纯新手,膜拜一下大佬
分布式对于家用环境来说过于复杂,纯固态环境个人 ...
[生病]到源码层面的优化没必要了,就是正常点儿有个50%的损耗也认了,现在看起来远不止这点儿损耗。 Baishui 发表于 2023-8-9 00:21
到源码层面的优化没必要了,就是正常点儿有个50%的损耗也认了,现在看起来远不止这点儿损耗。 ...
50% 损耗,要求太高了
分布式架构资源利用率远低于这个
新版。crimson 引擎试试呢
这个比 bluestore 好很多 没玩过,可以换成VSAN试一下 4节点7osd?不太明白怎么分配的,常规环境下,考虑生产系统的稳定一般都是每个节点使用相同数量容量的osd,另外你也得看自己分配了多少个副本?之前我用3节点,sata 480G X 18,10G光的环境搞过一个3副本的pool,跑满10G没疑问的。 本帖最后由 JASON879 于 2023-8-9 09:33 编辑
玩nvme超融合存储25G网络起跳,最近在玩VSAN ESA 上的是100G网络。 本帖最后由 MatthewLXJ 于 2023-8-9 09:42 编辑
之前发过关于ceph的性能测试,但是后续性能优化的部分没有继续写下去了,虽然尝试做了很多优化,但是性能距离我想象差距非常之大,基于PVE Ceph集群搭建(二):Ceph存储池搭建与基本性能测试。
根据我当时的优化经历,可以从以下几个方面进行优化测试:
1.网络延迟
常用的万兆包括我此前测试的40G网络都属于ETH,可以尝试节点间ping看看延迟,换RDMA会有提升;
MTU 9000;
2.内存
每个内存尽可能大一些;
3.磁盘
每个磁盘都重新测试,判断有没有磁盘性能瓶颈,一个磁盘不行可能拖累整个pool;从我以前的经历来看,太想把所有HDD都用上,最后某些状态不好的盘导致整个pool性能差,盘多了以后排查也会非常困难;
4.Ceph conf
根据我之前测试OSD部分我做了如下配置修改,纯机械硬盘+NVME WAL的情况下对于pool的4k写有较大提升,纯NVME OSD需要修改,具体参考官方或者其他资料
osd_cache_size = 2048
osd_enable_op_tracker = false
osd_op_cache_size = 1024
osd_op_num_shards = 4
osd_op_num_threads_per_shard = 4
osd_op_threads = 8
osd_pg_threads = 8
osd_recovery_max_active = 4
throttler_perf_counter = false
5.Bios优化
开启VT,关闭节能,建议关闭NUMA;
6.MDS与MON配置
MDS与MON建议都保留一个进行测试,放在性能最高的节点上,测试性能可以接受的话适当增加MON,但是MDS需要保证性能和内存;
7.其他
其他我只能说ceph与其他存储性能挺大的,真要大容量用起来还要保证性能的话对所有硬件配置要求都不低,我最后接近50个HDD+10块NVME,折腾到最后顺序读3.6G,顺序写1.1G,4k读90k,4k写14k,性能难以接受最后弃用了[偷笑] MatthewLXJ 发表于 2023-8-9 09:37
之前发过关于ceph的性能测试,但是后续性能优化的部分没有继续写下去了,虽然尝试做了很多优化,但是性能距 ...
[流汗] 我的顺序读写比例和这个类似,也顺序写和随机写性能奇差。。确实很难接受。 ceph垃圾的很 家庭可以不考虑分布式,ZFS 也比 ceph 方便啊,2 个盘组 mirror,5 个盘组 RAID-Z,iops 敏感的丢 mirror XiaoFaye 发表于 2023-8-9 11:05
有没有可能ceph本来就不是什么好东西?
不适合节点数较少的用法。
节点数多了以后,还是很强的,特别是可靠性。
随便关掉一两个节点,不影响数据安全,集群依旧正常工作。
然后节点恢复上线,会自动完成数据同步。 本帖最后由 hanyou7 于 2023-8-9 17:55 编辑
PVE没试过 之前12个P37003节点 40G内网 rbd顺序读写差不多有4G左右 你这个明显有问题 理论上单个rbd的读写是所有osd的带宽相加 盘少不要用ceph,我在公司里搞的那套,SSD+HDD EC混合存储800多TB,RBD能跑满20G带宽,IOPS能跑到200多万 Baishui 发表于 2023-8-9 00:21
到源码层面的优化没必要了,就是正常点儿有个50%的损耗也认了,现在看起来远不止这点儿损耗。 ...
ceph正常损耗是 67%吧
数据复制三份分别放到三个osd
再算上CPU和内存之间交换数据带来的额外延迟,我觉得性能损耗80%都有可能。
我用万兆网卡做的ceph,20多个osd,实际写速度也就百兆(100MB/s) hanyou7 发表于 2023-8-9 17:48
PVE没试过 之前12个P37003节点 40G内网 rbd顺序读写差不多有4G左右 你这个明显有问题 理论上单个rbd的读 ...
顺序写不是问题,4k随机写iops 900,和nfs或者本地磁盘有几十到几百倍的差距。。 Baishui 发表于 2023-8-11 01:36
顺序写不是问题,4k随机写iops 900,和nfs或者本地磁盘有几十到几百倍的差距。。 ...
4k随机的时候看看cpu和网络负载 我的没这么低 但是肯定比不上单盘 试试moosefs 我觉得CEPH挺坑的,不太适合做性能盘。没有看过,有人再CEPH上跑数据库的。所以,就是做一些对象存储的功能,基本上就当一个仓库来用的。
另外,自己搭建,我觉得主要是网络损耗多,电口的网线延迟加一点,然后走标准TCP网络,本身损失就非常高。所以,RDMA+光纤,应该能好很多。 本帖最后由 myouc 于 2023-12-20 17:31 编辑
性能有多差?参考这个跑个分看看?只有万兆互联的话瓶颈估计在网络
哦对,你不会每个nvme独立作为一个osd吧?建议至少要分两个 myouc 发表于 2023-12-21 00:21
性能有多差?参考这个跑个分看看?只有万兆互联的话瓶颈估计在网络
哦对,你不会每个nvme独立作为一个osd ...
[生病]就和链接里一样差,fio测就那样,试过一个nvme 4个osd没什么用。单盘本地挂载性能差不多能有十倍以上,特别是随机读写 Baishui 发表于 2023-12-20 17:42
就和链接里一样差,fio测就那样,试过一个nvme 4个osd没什么用。单盘本地挂载性能差不多能有十倍以上,特 ...
链接那篇文章里面测的是机械盘啊,你这个不应该这么差,万兆内网的延迟多少? myouc 发表于 2023-12-21 19:47
链接那篇文章里面测的是机械盘啊,你这个不应该这么差,万兆内网的延迟多少? ...
1ms。。。网络规模并不大 spyman1802 发表于 2023-12-20 23:31
我觉得CEPH挺坑的,不太适合做性能盘。没有看过,有人再CEPH上跑数据库的。所以,就是做一些对象存储的功能 ...
ceph性能没问题的,我在16年生产上ceph用到现在7年了,经历过多家不同公司,最大规模1.5PB,以前跑云计算虚拟机,现在k8s上跑rbd存储类和s3对象存储,用sata ssd做分层存储方案,rbd能跑到200万以上iops,数据库什么的在上面跑得飞起 Baishui 发表于 2023-12-21 15:51
1ms。。。网络规模并不大
1ms有点高,正常应该0.1ms左右
本帖最后由 Baishui 于 2023-12-21 23:23 编辑
myouc 发表于 2023-12-21 23:02
1ms有点高,正常应该0.1ms左右
64 bytes from 192.168.x.246: icmp_seq=1 ttl=64 time=0.079 ms
64 bytes from 192.168.x.246: icmp_seq=2 ttl=64 time=0.077 ms
64 bytes from 192.168.x.246: icmp_seq=3 ttl=64 time=0.073 ms
64 bytes from 192.168.x.246: icmp_seq=4 ttl=64 time=0.066 ms
64 bytes from 192.168.x.246: icmp_seq=5 ttl=64 time=0.092 ms
64 bytes from 192.168.x.246: icmp_seq=6 ttl=64 time=0.087 ms
64 bytes from 192.168.x.246: icmp_seq=7 ttl=64 time=0.072 ms
64 bytes from 192.168.x.246: icmp_seq=8 ttl=64 time=0.060 ms
64 bytes from 192.168.x.246: icmp_seq=9 ttl=64 time=0.107 ms
64 bytes from 192.168.x.246: icmp_seq=10 ttl=64 time=0.078 ms
windows不显示更低的,linux下测试2个ceph节点间延迟差不多 terryhux 发表于 2023-12-21 22:59
ceph性能没问题的,我在16年生产上ceph用到现在7年了,经历过多家不同公司,最大规模1.5PB,以前跑云计算 ...
对于4节点7 nvme 7 osd的架构有什么优化建议吗?ceph 版本17.2.6 terryhux 发表于 2023-12-21 22:59
ceph性能没问题的,我在16年生产上ceph用到现在7年了,经历过多家不同公司,最大规模1.5PB,以前跑云计算 ...
赞同,刚翻了下大型公有云的建设架构,也是ceph
页:
[1]
2