找回密码
 加入我们
搜索
      
查看: 6157|回复: 26

[存储] 基于PVE Ceph集群搭建(一):集群40GbEx2聚合测试

[复制链接]
发表于 2023-1-10 17:37 | 显示全部楼层 |阅读模式
本帖最后由 MatthewLXJ 于 2023-9-13 16:25 编辑

博客最新更新
基于PVE Ceph集群搭建(一):集群40GbEx2聚合测试
基于PVE Ceph集群搭建(二):Ceph存储池搭建与基本性能测试

该文章只是个人在HomeLab折腾过程中的一些经验记录,仅用于跑分需要或者个人学习使用。
该系列分享暂定分为四篇:
  • 集群40GbEx2聚合测试
  • Ceph存储池搭建与基本性能测试
  • Cephfs、RBD、NFS存储池性能调优
  • HA、Migrate等基于Ceph的服务应用


最初的计划
1. 搭建基于PVE的HomeLab集群

    - 节点数量:7

    - 后续增加存储节点

2. 节点间以太网40GbEx2聚合

    - 更换光缆实现56GbEx2

    - 后续根据需要升级100GbEx2

3. Ceph分布式存储搭建

    - HDD作为主存储介质节点均匀分布

    - NVME作为OSD的DB/WAL缓存设备
   
    - OSD数量50左右,HDD容量500T,5T NVME(1% DB/WAL设备)

4. 所有服务上CEPH保证稳定性

    - 重要文件多副本

    - 虚拟机灵活迁移

    - 重要服务HA与备份



本文章仅对集群间互联最重要的网络部分进行调试与测试,第二篇将更新对于Ceph存储池搭建与性能测试的介绍。

网络硬件部分就用当下最便宜的40GbE方案来实现,最初80一张的544+后悔买少了,考虑到端口数量的需求,把以前低价买的SX6012

改好静音后出掉换成了SX6036,甚至还赚了,买了一些40G模块、MPO以及几根Mellanox认证的56GbE DAC用于后续56GbE测试。

硬件部分
- server 1
CPU:AMD EPYC 7502QS x1
主板:Supermicro H12SSL-i
内存:三星3200 2R8 32G x8
网卡:HP 544+FLR CX-3 Pro x1

- client 1
CPU:Intel Xeon E5-2666v3 x2
主板:Dell R730xd
内存:三星2133 2R4 16G x4
网卡:HP 544+FLR CX-3 Pro x1

- client 2
CPU:Intel Xeon E5-2680v3 x2
主板:Dell R730xd
内存:三星2133 2R4 16G x4
网卡:HP 544+FLR CX-3 Pro x1

软件部分
软件/固件版本
promox-ve: 7.3-1 (running kernel: 5.15.74-1-pve)
ceph:17.2.5-pve1 quincy (stable)
iperf:2.0.14a (2 October 2020) pthreads
ethr: Comprehensive Network Performance Measurement Tool (Version: v1.0.0)
SX6036 MLNX-OS:PPC_M460EX 3.6.8010 2018-08-20 18:04:16 ppc
HP 544+FLR:FW version 2.42.5700

交换机聚合
  1. enable
  2. conf t                      (config模式)
  3. lacp                        (开启lacp)
  4. interface port-channel 1    (创建聚合端口1)
  5. exit
  6. interface ethernet 1/35-1/36 channel-group 1 mode active
复制代码

查看聚合端口可以看到Actual speed显示2 X 40 Gbps,MTU设置为9000



SX6036上共七个Port channel对应PVE中七个节点,PVE中无法配置LACP配置模式,交换机上设置LACP Active主动下发LACP设置。



SX6036上LACP load balance默认选择source-destination-ip



三个节点分别创建三个聚合端口,如下图



PVE聚合设置
PVE上找到544+FLR对应的两个网卡名字,创建bond,Slaves填网口名字,Mode选择LACP(802.3ad),

Hash policy需要根据交换机配置来选择这里默认选择layer3+4:

`layer2`策略使用源和目标MAC地址以及以太网协议类型的异或;
`layer2+3`策略使用源和目标 MAC 地址和 IP 地址的异或;
`layer3+4`策略使用源端口和目标端口以及 IP 地址的异或。


iperf测试
PVE节点上安装sysstat来查看544+双口流量分布情况,在双口聚合的情况下,544+ pcie3.0 x8的带宽最大能跑到64G。
  1. sar -n DEV 1 600
复制代码


注:source-destination-ip-mac-port代表source-destination-ip、source-destination-mac、source-destination-port三种模式同时开启。

实测下来只有在SX6036 LACP Load balance开启source-destination-port的情况下才能保证流量输出端口(server端)均衡,

流量输入端口(client端)在单窗口iperf下接近均衡,双口iperf下完全均衡,server端口流量均衡也因此才能突破40G单口限制,

但是仍然只达到了50G的速度,后续会换上56G DAC双口聚合来进行测试能否到达Pcie 3.0x8接近64G的极限性能。



评分

参与人数 3邪恶指数 +31 收起 理由
醉酒棕熊 + 20
summerq + 5 受教了
Mufasa + 6 666

查看全部评分

发表于 2023-1-10 19:40 | 显示全部楼层
期待后面的内容,顶一下,7节点分布式,看起来就很离谱
发表于 2023-1-10 20:02 | 显示全部楼层
PVE集成的ceph是傻瓜式安装,非常方便
发表于 2023-1-10 20:04 | 显示全部楼层
mark,期待后续
 楼主| 发表于 2023-1-10 20:14 | 显示全部楼层
allenxml 发表于 2023-1-10 20:02
PVE集成的ceph是傻瓜式安装,非常方便

当前17.2版本bug比较少,可以用来折腾了
发表于 2023-1-10 20:56 | 显示全部楼层
iperf不是说10G以上网络会跑不满嘛
发表于 2023-1-10 20:57 | 显示全部楼层
mark,等第二章
 楼主| 发表于 2023-1-10 20:59 | 显示全部楼层
wxlg1117 发表于 2023-1-10 20:56
iperf不是说10G以上网络会跑不满嘛

iperf3有中断问题跑不满,iperf单窗口多线程能跑满40G,多窗口100G没问题
发表于 2023-1-10 21:09 | 显示全部楼层
我的544+实际速度只有20G出头
发表于 2023-1-10 21:21 | 显示全部楼层
这个一定要做个记号,留作好好学习
发表于 2023-1-10 21:22 | 显示全部楼层
MatthewLXJ 发表于 2023-1-10 20:14
当前17.2版本bug比较少,可以用来折腾了

大佬我看最新版是7.3啊,有啥bug吗?
发表于 2023-1-10 21:24 | 显示全部楼层
ceph对带宽要求这么高?
我准备用10G网络做ceph
iSCSI跑一点虚拟机用,应该没关系吧。

顺便等一下楼主的第二篇

我现在准备搞的ceph是基于ubuntu安装,手动进行,比较麻烦。
如果PVE可以傻瓜化安装,那么后续第二套就从ESXi切换到PVE了。

至于节点数多,这个倒是没啥,ceph节点数本来就多。。。。
我规划的两套ceph分别是5台物理机和9台物理机。
 楼主| 发表于 2023-1-10 21:27 来自手机 | 显示全部楼层
liangxy 发表于 2023-1-10 21:22
大佬我看最新版是7.3啊,有啥bug吗?

bug比较少可以
 楼主| 发表于 2023-1-10 21:30 来自手机 | 显示全部楼层
Mufasa 发表于 2023-1-10 21:24
ceph对带宽要求这么高?
我准备用10G网络做ceph
iSCSI跑一点虚拟机用,应该没关系吧。

看ceph池对速度的要求,10G对于一般HDD比较多,SSD比较少的话是够用了,顺序读写1G左右,不过OSD多了再加上一堆NVME当缓存就需要更高的带宽了,不过我也只是因为手上有几张544+加上交换机一整套都有就上40G聚合
发表于 2023-1-10 21:38 | 显示全部楼层
MatthewLXJ 发表于 2023-1-10 21:30
看ceph池对速度的要求,10G对于一般HDD比较多,SSD比较少的话是够用了,顺序读写1G左右,不过OSD多了再加 ...



我第一套ceph没有NVME盘,仅有的几个SSD打算当作普通OSD直接用,应该没事。
发表于 2024-4-24 22:53 | 显示全部楼层
我也正在学习PVE+CEPH,就是这个储存的性能太糟心了,目前配置是:
3台DELL R730XD,万兆互联,每台256GB内存,E5-2696 V4 88核心。
每台2块NVME 2T做WAL,
4块SSD 1T组SSD_POOL,
8块HDD 6T SAS组ceph_pool。
容错是挺不错的,有天断电一台服务器,上面的系统自动迁移到别地方去了,高HA可用,服务没收到影响。
就是读写速度台拉胯了。
请问各位大大,有没有别的高可用的双活或者别的HA方案?
这么牛逼的配置...............
 楼主| 发表于 2024-4-25 20:16 | 显示全部楼层
edelweiss_cxk 发表于 2024-4-24 22:53
我也正在学习PVE+CEPH,就是这个储存的性能太糟心了,目前配置是:
3台DELL R730XD,万兆互联,每台256GB内存 ...

根据我后来的折腾就是放弃,ceph性能真的很难提升,可以用很差来形容,主要还是木桶效应太明显了,不太适合家用,而且PVE的ceph我用下来感觉并不是很稳定,所以最后只是单纯的把ceph当做一个高可靠性的存储池来使用,真要性能还是得ZFS之类的
发表于 2024-4-26 12:49 | 显示全部楼层
MatthewLXJ 发表于 2024-4-25 20:16
根据我后来的折腾就是放弃,ceph性能真的很难提升,可以用很差来形容,主要还是木桶效应太明显了,不太适 ...

zfs能做容错之类的吗?HA 双活之类的?

发表于 2024-4-26 12:52 | 显示全部楼层
MatthewLXJ 发表于 2024-4-25 20:16
根据我后来的折腾就是放弃,ceph性能真的很难提升,可以用很差来形容,主要还是木桶效应太明显了,不太适 ...

哥们,假如我再增加4台服务器,CEPH性能会不会上去?
发表于 2024-4-26 14:28 | 显示全部楼层
MatthewLXJ 发表于 2024-4-25 20:16
根据我后来的折腾就是放弃,ceph性能真的很难提升,可以用很差来形容,主要还是木桶效应太明显了,不太适 ...

太同意了!ceph实际应用中的性能与各种评测相差很远,也不如理论上的稳定,还是ZFS靠谱。有人了解国产超融合厂家smartX的ZBS吗?问厂家的销售,说虚拟化是基于KVM,但存储这个东西是完全自研的,比ceph屌很多,但我不怎么信。
发表于 2024-4-26 14:28 | 显示全部楼层
edelweiss_cxk 发表于 2024-4-26 12:52
哥们,假如我再增加4台服务器,CEPH性能会不会上去?

你再增加10台性能都不一定上的去,ceph感觉是要几十台这个量级才能出效果的。
发表于 2024-4-26 14:48 | 显示全部楼层
nsc117 发表于 2024-4-26 14:28
你再增加10台性能都不一定上的去,ceph感觉是要几十台这个量级才能出效果的。 ...

ε=(´ο`*)))唉,好吧,大意了,那请问还有别的方案么?不想用EXSI,毕竟在公司偷偷玩,用盗版万一出问题就乐子大了.................
 楼主| 发表于 2024-4-26 15:50 | 显示全部楼层
nsc117 发表于 2024-4-26 14:28
你再增加10台性能都不一定上的去,ceph感觉是要几十台这个量级才能出效果的。 ...

很同意,ceph得一定的体量+合理的硬件搭配性能才能上去,我这种垃圾佬去折腾性能真的不太行,各种垃圾的硬件往上堆最后性能也很垃圾
 楼主| 发表于 2024-4-26 15:51 | 显示全部楼层
edelweiss_cxk 发表于 2024-4-26 12:49
zfs能做容错之类的吗?HA 双活之类的?

zfs好像没有这种功能,所以后来我也没有继续折腾HA之类的了,只保证数据可靠性
发表于 2024-4-27 08:00 | 显示全部楼层
MatthewLXJ 发表于 2024-4-26 15:51
zfs好像没有这种功能,所以后来我也没有继续折腾HA之类的了,只保证数据可靠性 ...

感谢老哥,我换了ZFS,用proxmox,可以实现HA功能,同时,速度刷刷的快啊啊
读16197MB/S,写13898MB/S.
随机4K IOPS读写都到45000以上了.............
浪费我一个月折腾CEPH,不如老哥你一句话啊
发表于 2024-4-27 20:35 | 显示全部楼层
edelweiss_cxk 发表于 2024-4-26 14:48
ε=(´ο`*)))唉,好吧,大意了,那请问还有别的方案么?不想用EXSI,毕竟在公司偷偷玩,用盗版万一出问 ...

PVE啊,不要折腾ceph,有条件部署一下全闪ZFS,你会回来说牛逼
发表于 2024-4-27 20:44 | 显示全部楼层
nsc117 发表于 2024-4-27 20:35
PVE啊,不要折腾ceph,有条件部署一下全闪ZFS,你会回来说牛逼

这个条件暂时不具备咯,12盘的机器,插了9块6T SAS和3块SSD,已经很满意了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-5-5 03:11 , Processed in 0.014264 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表