pve 超融合 ceph性能问题

Baishui · 发表于 2023-8-8 23:34

用4个pve 8.0节点万兆互联与7块儿nvme 硬盘组了个ceph超融合集群，rbd写入性能奇差，只有机械盘的水平。

7块儿盘组下来性能还不到单盘零头有点儿难以接受，求指点，有什么建议的优化配置吗？

TWSzzz · 发表于 2023-8-8 23:54

在某乎有看到相关的优化，我也是个纯新手，膜拜一下大佬
分布式对于家用环境来说过于复杂，纯固态环境个人感觉没必要搞这个
标题《Ceph性能瓶颈分析与优化》
关于分布式的优化，追求极限和稳定的使用也算是两码事

Mufasa · 发表于 2023-8-9 00:16

我用ubuntu装出来的ceph也是机械硬盘的性能，不过我的osd大部分是机械盘，混了几个固态在里面。

用ceph主要是考虑容错吧。。。。其实是我也不知道怎么优化性能。

Baishui · 发表于 2023-8-9 00:21

TWSzzz 发表于 2023-8-8 23:54
在某乎有看到相关的优化，我也是个纯新手，膜拜一下大佬
分布式对于家用环境来说过于复杂，纯固态环境个人 ...

到源码层面的优化没必要了，就是正常点儿有个50%的损耗也认了，现在看起来远不止这点儿损耗。

litguy · 发表于 2023-8-9 07:20

Baishui 发表于 2023-8-9 00:21
到源码层面的优化没必要了，就是正常点儿有个50%的损耗也认了，现在看起来远不止这点儿损耗。 ...

50% 损耗，要求太高了
分布式架构资源利用率远低于这个
新版。crimson 引擎试试呢
这个比 bluestore 好很多

nn1122 · 发表于 2023-8-9 08:31

没玩过，可以换成VSAN试一下

7155071 · 发表于 2023-8-9 08:46

4节点7osd？不太明白怎么分配的，常规环境下，考虑生产系统的稳定一般都是每个节点使用相同数量容量的osd，另外你也得看自己分配了多少个副本？之前我用3节点，sata 480G X 18，10G光的环境搞过一个3副本的pool，跑满10G没疑问的。

JASON879 · 发表于 2023-8-9 09:30

本帖最后由 JASON879 于 2023-8-9 09:33 编辑

玩nvme超融合存储25G网络起跳，最近在玩VSAN ESA 上的是100G网络。

MatthewLXJ · 发表于 2023-8-9 09:37

本帖最后由 MatthewLXJ 于 2023-8-9 09:42 编辑

之前发过关于ceph的性能测试，但是后续性能优化的部分没有继续写下去了，虽然尝试做了很多优化，但是性能距离我想象差距非常之大，基于PVE Ceph集群搭建（二）：Ceph存储池搭建与基本性能测试。
根据我当时的优化经历，可以从以下几个方面进行优化测试：

1.网络延迟
常用的万兆包括我此前测试的40G网络都属于ETH，可以尝试节点间ping看看延迟，换RDMA会有提升；
MTU 9000；

2.内存
每个内存尽可能大一些；

3.磁盘
每个磁盘都重新测试，判断有没有磁盘性能瓶颈，一个磁盘不行可能拖累整个pool；从我以前的经历来看，太想把所有HDD都用上，最后某些状态不好的盘导致整个pool性能差，盘多了以后排查也会非常困难；

4.Ceph conf
根据我之前测试OSD部分我做了如下配置修改，纯机械硬盘+NVME WAL的情况下对于pool的4k写有较大提升，纯NVME OSD需要修改，具体参考官方或者其他资料

[osd]
osd_cache_size = 2048
osd_enable_op_tracker = false
osd_op_cache_size = 1024
osd_op_num_shards = 4
osd_op_num_threads_per_shard = 4
osd_op_threads = 8
osd_pg_threads = 8
osd_recovery_max_active = 4
throttler_perf_counter = false

复制代码

5.Bios优化
开启VT，关闭节能，建议关闭NUMA；

6.MDS与MON配置
MDS与MON建议都保留一个进行测试，放在性能最高的节点上，测试性能可以接受的话适当增加MON，但是MDS需要保证性能和内存；

7.其他
其他我只能说ceph与其他存储性能挺大的，真要大容量用起来还要保证性能的话对所有硬件配置要求都不低，我最后接近50个HDD+10块NVME，折腾到最后顺序读3.6G，顺序写1.1G，4k读90k，4k写14k，性能难以接受最后弃用了

XiaoFaye · 发表于 2023-8-9 11:05

提示: 作者被禁止或删除内容自动屏蔽

Baishui · 发表于 2023-8-9 13:08

MatthewLXJ 发表于 2023-8-9 09:37
之前发过关于ceph的性能测试，但是后续性能优化的部分没有继续写下去了，虽然尝试做了很多优化，但是性能距 ...

我的顺序读写比例和这个类似，也顺序写和随机写性能奇差。。确实很难接受。

zhao137314 · 发表于 2023-8-9 13:10

ceph垃圾的很

litguy · 发表于 2023-8-9 13:27

家庭可以不考虑分布式，ZFS 也比 ceph 方便啊，2 个盘组 mirror，5 个盘组 RAID-Z，iops 敏感的丢 mirror

Mufasa · 发表于 2023-8-9 17:41

XiaoFaye 发表于 2023-8-9 11:05
有没有可能ceph本来就不是什么好东西？

不适合节点数较少的用法。

节点数多了以后，还是很强的，特别是可靠性。
随便关掉一两个节点，不影响数据安全，集群依旧正常工作。
然后节点恢复上线，会自动完成数据同步。

hanyou7 · 发表于 2023-8-9 17:48

本帖最后由 hanyou7 于 2023-8-9 17:55 编辑

PVE没试过之前12个P3700 3节点 40G内网 rbd顺序读写差不多有4G左右你这个明显有问题理论上单个rbd的读写是所有osd的带宽相加

terryhux · 发表于 2023-8-9 18:16

盘少不要用ceph，我在公司里搞的那套，SSD+HDD EC混合存储800多TB，RBD能跑满20G带宽，IOPS能跑到200多万

Mufasa · 发表于 2023-8-9 20:26

Baishui 发表于 2023-8-9 00:21
到源码层面的优化没必要了，就是正常点儿有个50%的损耗也认了，现在看起来远不止这点儿损耗。 ...

ceph正常损耗是 67%吧

数据复制三份分别放到三个osd

再算上CPU和内存之间交换数据带来的额外延迟，我觉得性能损耗80%都有可能。

我用万兆网卡做的ceph，20多个osd，实际写速度也就百兆（100MB/s）

Baishui · 发表于 2023-8-11 01:36

hanyou7 发表于 2023-8-9 17:48
PVE没试过之前12个P3700 3节点 40G内网 rbd顺序读写差不多有4G左右你这个明显有问题理论上单个rbd的读 ...

顺序写不是问题，4k随机写iops 900，和nfs或者本地磁盘有几十到几百倍的差距。。

hanyou7 · 发表于 2023-8-11 08:55

Baishui 发表于 2023-8-11 01:36
顺序写不是问题，4k随机写iops 900，和nfs或者本地磁盘有几十到几百倍的差距。。 ...

4k随机的时候看看cpu和网络负载我的没这么低但是肯定比不上单盘

jinjiang · 发表于 2023-12-14 17:58

试试moosefs

spyman1802 · 发表于 2023-12-20 23:31

我觉得CEPH挺坑的，不太适合做性能盘。没有看过，有人再CEPH上跑数据库的。所以，就是做一些对象存储的功能，基本上就当一个仓库来用的。
另外，自己搭建，我觉得主要是网络损耗多，电口的网线延迟加一点，然后走标准TCP网络，本身损失就非常高。所以，RDMA+光纤，应该能好很多。

myouc · 发表于 2023-12-21 00:21

本帖最后由 myouc 于 2023-12-20 17:31 编辑

性能有多差？参考这个跑个分看看？只有万兆互联的话瓶颈估计在网络

哦对，你不会每个nvme独立作为一个osd吧？建议至少要分两个

Baishui · 发表于 2023-12-21 00:42

myouc 发表于 2023-12-21 00:21
性能有多差？参考这个跑个分看看？只有万兆互联的话瓶颈估计在网络

哦对，你不会每个nvme独立作为一个osd ...

就和链接里一样差，fio测就那样，试过一个nvme 4个osd没什么用。单盘本地挂载性能差不多能有十倍以上，特别是随机读写

myouc · 发表于 2023-12-21 19:47

Baishui 发表于 2023-12-20 17:42
就和链接里一样差，fio测就那样，试过一个nvme 4个osd没什么用。单盘本地挂载性能差不多能有十倍以上，特 ...

链接那篇文章里面测的是机械盘啊，你这个不应该这么差，万兆内网的延迟多少？

Baishui · 发表于 2023-12-21 22:51

myouc 发表于 2023-12-21 19:47
链接那篇文章里面测的是机械盘啊，你这个不应该这么差，万兆内网的延迟多少？ ...

1ms。。。网络规模并不大

terryhux · 发表于 2023-12-21 22:59

spyman1802 发表于 2023-12-20 23:31
我觉得CEPH挺坑的，不太适合做性能盘。没有看过，有人再CEPH上跑数据库的。所以，就是做一些对象存储的功能 ...

ceph性能没问题的，我在16年生产上ceph用到现在7年了，经历过多家不同公司，最大规模1.5PB，以前跑云计算虚拟机，现在k8s上跑rbd存储类和s3对象存储，用sata ssd做分层存储方案，rbd能跑到200万以上iops，数据库什么的在上面跑得飞起

myouc · 发表于 2023-12-21 23:02

Baishui 发表于 2023-12-21 15:51
1ms。。。网络规模并不大

1ms有点高，正常应该0.1ms左右
企业微信截图_17031709069487.png

Baishui · 发表于 2023-12-21 23:18

本帖最后由 Baishui 于 2023-12-21 23:23 编辑

myouc 发表于 2023-12-21 23:02
1ms有点高，正常应该0.1ms左右

64 bytes from 192.168.x.246: icmp_seq=1 ttl=64 time=0.079 ms
64 bytes from 192.168.x.246: icmp_seq=2 ttl=64 time=0.077 ms
64 bytes from 192.168.x.246: icmp_seq=3 ttl=64 time=0.073 ms
64 bytes from 192.168.x.246: icmp_seq=4 ttl=64 time=0.066 ms
64 bytes from 192.168.x.246: icmp_seq=5 ttl=64 time=0.092 ms
64 bytes from 192.168.x.246: icmp_seq=6 ttl=64 time=0.087 ms
64 bytes from 192.168.x.246: icmp_seq=7 ttl=64 time=0.072 ms
64 bytes from 192.168.x.246: icmp_seq=8 ttl=64 time=0.060 ms
64 bytes from 192.168.x.246: icmp_seq=9 ttl=64 time=0.107 ms
64 bytes from 192.168.x.246: icmp_seq=10 ttl=64 time=0.078 ms

windows不显示更低的，linux下测试2个ceph节点间延迟差不多

Baishui · 发表于 2023-12-21 23:28

terryhux 发表于 2023-12-21 22:59
ceph性能没问题的，我在16年生产上ceph用到现在7年了，经历过多家不同公司，最大规模1.5PB，以前跑云计算 ...

对于4节点7 nvme 7 osd的架构有什么优化建议吗？ceph 版本17.2.6

星空小琛 · 发表于 2023-12-21 23:59

terryhux 发表于 2023-12-21 22:59
ceph性能没问题的，我在16年生产上ceph用到现在7年了，经历过多家不同公司，最大规模1.5PB，以前跑云计算 ...

赞同，刚翻了下大型公有云的建设架构，也是ceph

账号		自动登录	找回密码
密码			加入我们

XiaoFaye XiaoFaye 当前离线积分 -116	发表于 2023-8-9 11:05 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
XiaoFaye XiaoFaye 当前离线积分 -116
	回复举报

[NAS] pve 超融合 ceph性能问题