MatthewLXJ 发表于 2023-1-10 17:37

基于PVE Ceph集群搭建(一):集群40GbEx2聚合测试

本帖最后由 MatthewLXJ 于 2023-9-13 16:25 编辑

博客最新更新
基于PVE Ceph集群搭建(一):集群40GbEx2聚合测试
基于PVE Ceph集群搭建(二):Ceph存储池搭建与基本性能测试

该文章只是个人在HomeLab折腾过程中的一些经验记录,仅用于跑分需要或者个人学习使用。
该系列分享暂定分为四篇:

[*]集群40GbEx2聚合测试
[*]Ceph存储池搭建与基本性能测试
[*]Cephfs、RBD、NFS存储池性能调优
[*]HA、Migrate等基于Ceph的服务应用


最初的计划
1. 搭建基于PVE的HomeLab集群

    - 节点数量:7

    - 后续增加存储节点

2. 节点间以太网40GbEx2聚合

    - 更换光缆实现56GbEx2

    - 后续根据需要升级100GbEx2

3. Ceph分布式存储搭建

    - HDD作为主存储介质节点均匀分布

    - NVME作为OSD的DB/WAL缓存设备
   
    - OSD数量50左右,HDD容量500T,5T NVME(1% DB/WAL设备)

4. 所有服务上CEPH保证稳定性

    - 重要文件多副本

    - 虚拟机灵活迁移

    - 重要服务HA与备份

https://s2.loli.net/2023/01/10/B4HZdqve1VXJKij.png

本文章仅对集群间互联最重要的网络部分进行调试与测试,第二篇将更新对于Ceph存储池搭建与性能测试的介绍。

网络硬件部分就用当下最便宜的40GbE方案来实现,最初80一张的544+后悔买少了,考虑到端口数量的需求,把以前低价买的SX6012

改好静音后出掉换成了SX6036,甚至还赚了,买了一些40G模块、MPO以及几根Mellanox认证的56GbE DAC用于后续56GbE测试。

硬件部分
- server 1
CPU:AMD EPYC 7502QS x1
主板:Supermicro H12SSL-i
内存:三星3200 2R8 32G x8
网卡:HP 544+FLR CX-3 Pro x1

- client 1
CPU:Intel Xeon E5-2666v3 x2
主板:Dell R730xd
内存:三星2133 2R4 16G x4
网卡:HP 544+FLR CX-3 Pro x1

- client 2
CPU:Intel Xeon E5-2680v3 x2
主板:Dell R730xd
内存:三星2133 2R4 16G x4
网卡:HP 544+FLR CX-3 Pro x1

软件部分
软件/固件版本
promox-ve: 7.3-1 (running kernel: 5.15.74-1-pve)
ceph:17.2.5-pve1 quincy (stable)
iperf:2.0.14a (2 October 2020) pthreads
ethr: Comprehensive Network Performance Measurement Tool (Version: v1.0.0)
SX6036 MLNX-OS:PPC_M460EX 3.6.8010 2018-08-20 18:04:16 ppc
HP 544+FLR:FW version 2.42.5700

交换机聚合
enable
conf t                      (config模式)
lacp                        (开启lacp)
interface port-channel 1    (创建聚合端口1)
exit
interface ethernet 1/35-1/36 channel-group 1 mode active
查看聚合端口可以看到Actual speed显示2 X 40 Gbps,MTU设置为9000

https://s2.loli.net/2023/01/10/sx7XicyBKl32h8J.png

SX6036上共七个Port channel对应PVE中七个节点,PVE中无法配置LACP配置模式,交换机上设置LACP Active主动下发LACP设置。

https://s2.loli.net/2023/01/10/Vq4MbEhrol3KGnL.png

SX6036上LACP load balance默认选择source-destination-ip

https://s2.loli.net/2023/01/10/DvCbIhq8cRBHdJ6.png

三个节点分别创建三个聚合端口,如下图

https://s2.loli.net/2023/01/04/b32GHvCjhFAVNnY.png

PVE聚合设置
PVE上找到544+FLR对应的两个网卡名字,创建bond,Slaves填网口名字,Mode选择LACP(802.3ad),

Hash policy需要根据交换机配置来选择这里默认选择layer3+4:

`layer2`策略使用源和目标MAC地址以及以太网协议类型的异或;
`layer2+3`策略使用源和目标 MAC 地址和 IP 地址的异或;
`layer3+4`策略使用源端口和目标端口以及 IP 地址的异或。
https://s2.loli.net/2023/01/04/e6qZi7TuSGQ4LzM.png

iperf测试
PVE节点上安装sysstat来查看544+双口流量分布情况,在双口聚合的情况下,544+ pcie3.0 x8的带宽最大能跑到64G。
sar -n DEV 1 600
https://s2.loli.net/2023/01/10/95PsVKlOEitohGJ.png
注:source-destination-ip-mac-port代表source-destination-ip、source-destination-mac、source-destination-port三种模式同时开启。

实测下来只有在SX6036 LACP Load balance开启source-destination-port的情况下才能保证流量输出端口(server端)均衡,

流量输入端口(client端)在单窗口iperf下接近均衡,双口iperf下完全均衡,server端口流量均衡也因此才能突破40G单口限制,

但是仍然只达到了50G的速度,后续会换上56G DAC双口聚合来进行测试能否到达Pcie 3.0x8接近64G的极限性能。



指路第二篇基于PVE CEPH集群搭建(二):CEPH存储池搭建与基本性能测试

TWSzzz 发表于 2023-1-10 19:40

期待后面的内容,顶一下,7节点分布式,看起来就很离谱[狂笑]

allenxml 发表于 2023-1-10 20:02

PVE集成的ceph是傻瓜式安装,非常方便

alley86 发表于 2023-1-10 20:04

mark,期待后续

MatthewLXJ 发表于 2023-1-10 20:14

allenxml 发表于 2023-1-10 20:02
PVE集成的ceph是傻瓜式安装,非常方便

当前17.2版本bug比较少,可以用来折腾了[偷笑]

wxlg1117 发表于 2023-1-10 20:56

[困惑]iperf不是说10G以上网络会跑不满嘛

kingofworl 发表于 2023-1-10 20:57

mark,等第二章

MatthewLXJ 发表于 2023-1-10 20:59

wxlg1117 发表于 2023-1-10 20:56
iperf不是说10G以上网络会跑不满嘛

iperf3有中断问题跑不满,iperf单窗口多线程能跑满40G,多窗口100G没问题

playclan 发表于 2023-1-10 21:09

我的544+实际速度只有20G出头

马杰 发表于 2023-1-10 21:21

这个一定要做个记号,留作好好学习

liangxy 发表于 2023-1-10 21:22

MatthewLXJ 发表于 2023-1-10 20:14
当前17.2版本bug比较少,可以用来折腾了

大佬我看最新版是7.3啊,有啥bug吗?

Mufasa 发表于 2023-1-10 21:24

ceph对带宽要求这么高?
我准备用10G网络做ceph
iSCSI跑一点虚拟机用,应该没关系吧。

顺便等一下楼主的第二篇

我现在准备搞的ceph是基于ubuntu安装,手动进行,比较麻烦。
如果PVE可以傻瓜化安装,那么后续第二套就从ESXi切换到PVE了。

至于节点数多,这个倒是没啥,ceph节点数本来就多。。。。
我规划的两套ceph分别是5台物理机和9台物理机。

MatthewLXJ 发表于 2023-1-10 21:27

liangxy 发表于 2023-1-10 21:22
大佬我看最新版是7.3啊,有啥bug吗?

bug比较少可以

MatthewLXJ 发表于 2023-1-10 21:30

Mufasa 发表于 2023-1-10 21:24
ceph对带宽要求这么高?
我准备用10G网络做ceph
iSCSI跑一点虚拟机用,应该没关系吧。


看ceph池对速度的要求,10G对于一般HDD比较多,SSD比较少的话是够用了,顺序读写1G左右,不过OSD多了再加上一堆NVME当缓存就需要更高的带宽了,不过我也只是因为手上有几张544+加上交换机一整套都有就上40G聚合

Mufasa 发表于 2023-1-10 21:38

MatthewLXJ 发表于 2023-1-10 21:30
看ceph池对速度的要求,10G对于一般HDD比较多,SSD比较少的话是够用了,顺序读写1G左右,不过OSD多了再加 ...



我第一套ceph没有NVME盘,仅有的几个SSD打算当作普通OSD直接用,应该没事。

edelweiss_cxk 发表于 2024-4-24 22:53

我也正在学习PVE+CEPH,就是这个储存的性能太糟心了,目前配置是:
3台DELL R730XD,万兆互联,每台256GB内存,E5-2696 V4 88核心。
每台2块NVME 2T做WAL,
4块SSD 1T组SSD_POOL,
8块HDD 6T SAS组ceph_pool。
容错是挺不错的,有天断电一台服务器,上面的系统自动迁移到别地方去了,高HA可用,服务没收到影响。
就是读写速度台拉胯了。
请问各位大大,有没有别的高可用的双活或者别的HA方案?
这么牛逼的配置...............

MatthewLXJ 发表于 2024-4-25 20:16

edelweiss_cxk 发表于 2024-4-24 22:53
我也正在学习PVE+CEPH,就是这个储存的性能太糟心了,目前配置是:
3台DELL R730XD,万兆互联,每台256GB内存 ...

根据我后来的折腾就是放弃[偷笑],ceph性能真的很难提升,可以用很差来形容,主要还是木桶效应太明显了,不太适合家用,而且PVE的ceph我用下来感觉并不是很稳定,所以最后只是单纯的把ceph当做一个高可靠性的存储池来使用,真要性能还是得ZFS之类的

edelweiss_cxk 发表于 2024-4-26 12:49

MatthewLXJ 发表于 2024-4-25 20:16
根据我后来的折腾就是放弃,ceph性能真的很难提升,可以用很差来形容,主要还是木桶效应太明显了,不太适 ...

zfs能做容错之类的吗?HA 双活之类的?

edelweiss_cxk 发表于 2024-4-26 12:52

MatthewLXJ 发表于 2024-4-25 20:16
根据我后来的折腾就是放弃,ceph性能真的很难提升,可以用很差来形容,主要还是木桶效应太明显了,不太适 ...

哥们,假如我再增加4台服务器,CEPH性能会不会上去?

nsc117 发表于 2024-4-26 14:28

MatthewLXJ 发表于 2024-4-25 20:16
根据我后来的折腾就是放弃,ceph性能真的很难提升,可以用很差来形容,主要还是木桶效应太明显了,不太适 ...

太同意了!ceph实际应用中的性能与各种评测相差很远,也不如理论上的稳定,还是ZFS靠谱。有人了解国产超融合厂家smartX的ZBS吗?问厂家的销售,说虚拟化是基于KVM,但存储这个东西是完全自研的,比ceph屌很多,但我不怎么信。

nsc117 发表于 2024-4-26 14:28

edelweiss_cxk 发表于 2024-4-26 12:52
哥们,假如我再增加4台服务器,CEPH性能会不会上去?

你再增加10台性能都不一定上的去,ceph感觉是要几十台这个量级才能出效果的。

edelweiss_cxk 发表于 2024-4-26 14:48

nsc117 发表于 2024-4-26 14:28
你再增加10台性能都不一定上的去,ceph感觉是要几十台这个量级才能出效果的。 ...

ε=(´ο`*)))唉,好吧,大意了,那请问还有别的方案么?不想用EXSI,毕竟在公司偷偷玩,用盗版万一出问题就乐子大了.................

MatthewLXJ 发表于 2024-4-26 15:50

nsc117 发表于 2024-4-26 14:28
你再增加10台性能都不一定上的去,ceph感觉是要几十台这个量级才能出效果的。 ...

很同意,ceph得一定的体量+合理的硬件搭配性能才能上去,我这种垃圾佬去折腾性能真的不太行,各种垃圾的硬件往上堆最后性能也很垃圾

MatthewLXJ 发表于 2024-4-26 15:51

edelweiss_cxk 发表于 2024-4-26 12:49
zfs能做容错之类的吗?HA 双活之类的?

zfs好像没有这种功能,所以后来我也没有继续折腾HA之类的了,只保证数据可靠性

edelweiss_cxk 发表于 2024-4-27 08:00

MatthewLXJ 发表于 2024-4-26 15:51
zfs好像没有这种功能,所以后来我也没有继续折腾HA之类的了,只保证数据可靠性 ...

感谢老哥,我换了ZFS,用proxmox,可以实现HA功能,同时,速度刷刷的快啊啊
读16197MB/S,写13898MB/S.
随机4K IOPS读写都到45000以上了.............
浪费我一个月折腾CEPH,不如老哥你一句话啊

nsc117 发表于 2024-4-27 20:35

edelweiss_cxk 发表于 2024-4-26 14:48
ε=(´ο`*)))唉,好吧,大意了,那请问还有别的方案么?不想用EXSI,毕竟在公司偷偷玩,用盗版万一出问 ...

PVE啊,不要折腾ceph,有条件部署一下全闪ZFS,你会回来说牛逼

edelweiss_cxk 发表于 2024-4-27 20:44

nsc117 发表于 2024-4-27 20:35
PVE啊,不要折腾ceph,有条件部署一下全闪ZFS,你会回来说牛逼

这个条件暂时不具备咯,12盘的机器,插了9块6T SAS和3块SSD,已经很满意了
页: [1]
查看完整版本: 基于PVE Ceph集群搭建(一):集群40GbEx2聚合测试