Mellanox SN2010 25GbE/100GbE 交换机 开箱
本帖最后由 Juzi丶 于 2021-10-2 16:13 编辑一大早到货了个大家伙[偷笑]
先来验明真身
19年生产的机器
具体型号是MSN2010-CB2F
预装Mellanox Onyx(Onyx其实就MLNX-OS的Ethernet版本马甲)
得益于ONIE(开放式网络安装环境)你还可以装SONiC(开源,免费)Cumulus Linux(闭源,许可证订阅)等等不同的系统
或者,自己开发一个!
抄一段官网的简介
NVIDIA MSN2010-CB2F 基于 Spectrum 的 25GbE/100GbE 1U 开放式以太网交换机,带有 Onyx 18 个 SFP28 和 4 个 QSFP28 端口 2 个电源 AC x86 CPU 短深度 P2C 气流
用于超融合基础设施和 ESF(以太网存储结构)的半宽 10/25GbE 和 100GbE 以太网交换机
SN2010 交换机是超融合和存储部署的理想架顶式 (ToR) 解决方案。SN2010 配备 18 个 10/25GbE 端口和 4 个可拆分的 40/100GbE 端口,可提供高达 1.7Tb/s 的总吞吐量。
所有基于 Spectrum 的交换机,包括 SN2010,都支持所有数据包大小的低延迟线速流量,并且可通过 ONIE 启动,支持 Cumulus Linux、Onyx 和其他具有广泛安装基础的开源操作系统,可驱动世界上最具创新性的数据中心基础设施。
SN2010 为 10/25GbE 和 100GbE 交换引入了低延迟,具有强大的数据、控制和管理平面实施,并提供最紧凑的外形和最低的功耗。
这是Mellanox为啥有黄仁勋NVIDIA呢
因为在2019年就NVIDIA以 69 亿美元收购 Mellanox
开箱可以看到配了两条C13电源线,一条COM口线,还有一个夹光纤和模块的工具
说明书,和官网文档一样
夹光纤和模块的工具(点名批评某为和某3C,几万的机器就配个破镊子)
当然附件这些是可以定制的,不同地方买到的机器可能不一样
全新未开封[可爱]
机器前面就是18个SFP28和4个QSFP28端口
屁股是两个电源插口,因为是半宽尺寸所以电源是内置的
看看铭牌(已打码),好家伙,Mellanox你的浓眉大眼也搞印度生产了[震惊]
插上管理口和COM口,插电开机的
一瞬间全部指示灯会亮起
完全开机大概要5分钟左右
系统完全自检完之后风扇会逐渐降速
根据温度区间风扇转速会在6000到13000之间
事不宜迟,先来个光模块UP一下端口[傻笑]
SFP28先来
用两个海信代工的华为OEM模块
单模1310,300米
[偷笑] 然后你会发现端口UP不起来,这是怎么回事呢
这是因为Mellanox MLNX-OS/Onyx会限制模块使用,包括但不限于单模和一些高功率模块/线材
那怎么办呢
当然是要解除这个限制了
不然小黄鱼上的便宜大碗的通讯余料不就没法用了
可以使用fae解除这些模块限制
fae cable-stamping-unlock 100g_lr4
fae cable-stamping-unlock 40g_lr4
fae cable-stamping-unlock eth_100g
fae cable-stamping-unlock eth_sfp_25g
解除限制后就可以正常使用了
再来是QSFP28
先用100G的DAC
QSFP28端口支持拆分为
2个50G/25G/10G/1G(两个通道一个端口,QSFP to 2x QSFP)或者4个25G/10G/1G(一个通道一个端口,QSFP to 4x SFP)
这里演示拆分为4个25G
命令(19口就是第一个QSFP28):
interface ethernet 1/19 module-type qsfp-split-4 force
用Innolight(旭创)TP-VC13T02P7-N00,预制4分支线缆
对端模块还是上面的海信OEM
完全没有问题
拆分后对应端口下多出拆分数量的端口
然后再来看看空载功耗
(config) # show power
-----------------------------------------------------------------------------------------
ModuleDevice SensorPower VoltageCurrentCapacityFeedStatus
-----------------------------------------------------------------------------------------
MGMT PS1 PS1 12V 29.85 12.04 2.48 460.00 AC OK
MGMT PS2 PS2 12V - - - 460.00 AC OK
Total power used : 29.85 Watts
Total power capacity : 920.00 Watts
Total power available : 890.15 Watts
Maximum consumed power of all turned on modules: 250.00 Watts
[偷笑] 没错,目前业界最低不是吹的,只能说博通电热丝是真的拉
安装访问受限系统功能的许可证后可以直接访问Linux shell
(config) # _shell
#
#
# lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 4
On-line CPU(s) list: 0-3
Thread(s) per core: 1
Core(s) per socket: 4
Socket(s): 1
Vendor ID: GenuineIntel
CPU family: 6
Model: 77
Model name: Intel(R) Atom(TM) CPUC2558@ 2.40GHz
Stepping: 8
CPU MHz: 2400.001
BogoMIPS: 4800.00
Virtualization: VT-x
L1d cache: 24K
L1i cache: 32K
L2 cache: 1024K
Flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm sse4_1 sse4_2 movbe popcnt tsc_deadline_timer aes rdrand lahf_lm 3dnowprefetch cpuid_fault epb pti tpr_shadow vnmi flexpriority ept vpid tsc_adjust smep erms ibpb ibrs stibp dtherm arat
#
# lspci
00:00.0 Host bridge: Intel Corporation Atom processor C2000 SoC Transaction Router (rev 03)
00:01.0 PCI bridge: Intel Corporation Atom processor C2000 PCIe Root Port 1 (rev 03)
00:02.0 PCI bridge: Intel Corporation Atom processor C2000 PCIe Root Port 2 (rev 03)
00:03.0 PCI bridge: Intel Corporation Atom processor C2000 PCIe Root Port 3 (rev 03)
00:0b.0 Co-processor: Intel Corporation Atom processor C2000 QAT (rev 03)
00:0e.0 Host bridge: Intel Corporation Atom processor C2000 RAS (rev 03)
00:0f.0 IOMMU: Intel Corporation Atom processor C2000 RCEC (rev 03)
00:13.0 System peripheral: Intel Corporation Atom processor C2000 SMBus 2.0 (rev 03)
00:14.0 Ethernet controller: Intel Corporation Ethernet Connection I354 (rev 03)
00:16.0 USB controller: Intel Corporation Atom processor C2000 USB Enhanced Host Controller (rev 03)
00:17.0 SATA controller: Intel Corporation Atom processor C2000 AHCI SATA2 Controller (rev 03)
00:18.0 SATA controller: Intel Corporation Atom processor C2000 AHCI SATA3 Controller (rev 03)
00:1f.0 ISA bridge: Intel Corporation Atom processor C2000 PCU (rev 03)
00:1f.3 SMBus: Intel Corporation Atom processor C2000 PCU SMBus (rev 03)
01:00.0 Ethernet controller: Mellanox Technologies MT52100
#
# free
total used free sharedbuff/cache available
Mem: 7990940 2332128 4986740 40656 672072 5354244
Swap: 0 0 0
#
# smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: StorFly VSFBM4XC016G-MLX2
Serial Number:
Firmware Version: 0202-000
User Capacity: 15,804,137,472 bytes
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Device is: Not in smartctl database
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is:SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Jan1 02:41:31 2001 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
#
# dmidecode
# dmidecode 3.0
Handle 0x003A, DMI type 17, 34 bytes
Memory Device
Array Handle: 0x0038
Error Information Handle: Not Provided
Total Width: 64 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: None
Locator: DIMM0
Bank Locator: BANK 0
Type: DDR3
Type Detail: Synchronous Unbuffered (Unregistered)
Speed: 1600 MHz
Manufacturer: Micron
Serial Number:
Asset Tag: 1BANK 0 DIMM0 AssetTag
Part Number: 18KSF1G72HZ-1G6P1
Rank: 2
Configured Clock Speed: 1600 MHz
可以看到机器配了一颗C2558,8G的DDR3 ECC 内存,16G的SATA SSD
Atom C2000,肯定有人会问,这不是会有暴毙BUG吗
其实可以用这个命令在Linux shell下查询CPU步进
#
# setpci -s 00:00.0 8.w
0003
#
返回是0003那就是安全的,不存在暴毙BUG
最后是mlxfwmanager的输出
# mlxfwmanager
Querying Mellanox devices firmware ...
Device #1:
----------
Device Type: Spectrum
Part Number: MSN2010-Cxxx_Ax
Description: Spectrum(TM) based 10GbE/100GbE 1U Open Ethernet switch with MLNX-OS; 18 SFP28 ports; 4 QSFP28 ports; 2 power supplies (AC); x86 dual core; Short depth; P2C airflow; Rail Kit; RoHS6
PSID: MT_0000000108
PCI Device Name:/dev/mst/mt52100_pci_cr0
Base MAC: 1c34da3ace40
Versions: Current Available
FW 13.2000.2162 N/A
Status: No matching image found
作为25GbE/100GbE交换机,相比使用博通方案的机器动辄100W以上的功耗非常适合家用,开源的SONiC支持方面也是官方持续跟进的,配套软件都比其他厂的机友好很多,功能不受各种许可证限制 本帖最后由 Juzi丶 于 2021-10-8 22:43 编辑
加楼说一下机器的初始和常用设置吧
必须两个电源都接上电
准备好PuTTY,或者你习惯的工具
前面板有两个RJ45接口
上面的是ETH管理口
下面的是Console口
首先先把上面的ETH管理口接上路由器,之后会获取DHCP分配的IP
第一次开机需要接下面的Console口
然后按下图设置,USB转Console线建议买FTDI芯片的
等屏幕上信息滚完之后按一下回车会出现控制台
输入默认账号和密码admin登陆控制台
NVIDIA Onyx Switch Management
switch-xxxxxx login: admin
Password:
Number of total successful connections since last 1 days: 0
Your password has been changed
NVIDIA Switch
第一句是问你是否进行初始设置
Do you want to use the wizard for initial configuration?
您想使用向导进行初始配置吗?
输入yes
然后跟着向导输入一些基本信息
Step 1: Hostname?
Step 2: Use DHCP on mgmt0 interface?
Step 3: Enable IPv6?
Step 4: Update time?
Step 5: Enable password hardening?
Step 6: Admin password (Must be typed)?
Step 6: Confirm admin password?
Step 7: Monitor password (Must be typed)?
Step 7: Confirm monitor password?
第 1 步:主机名?
第 2 步:在 mgmt0 接口上使用 DHCP?
第 3 步:启用 IPv6?
第 4 步:更新时间?
第 5 步:启用密码强度?
第 6 步:管理员密码(必须输入)?
第 6 步:确认管理员密码?
第 7 步:监控密码(必须输入)?
第 7 步:确认监控密码?
密码强度就是禁用简单密码,yes之后后面两个密码都需要大小写数字和符号
下面是我的示例
NVIDIA Onyx Switch Management
switch-xxxxxx login: admin
Password:
Number of total successful connections since last 1 days: 0
Your password has been changed
NVIDIA Switch
Configuration wizard
Do you want to use the wizard for initial configuration?
Step 1: Hostname?
Step 2: Use DHCP on mgmt0 interface?
Step 3: Enable IPv6? no
Step 4: Update time?
Step 5: Enable password hardening? no
Step 6: Admin password (Must be typed)?
Step 6: Confirm admin password?
Step 7: Monitor password (Must be typed)?
Step 7: Confirm monitor password?
You have entered the following information:
1. Hostname: switch-xxxxxx
2. Use DHCP on mgmt0 interface: yes
3. Enable IPv6: no
4. Update time: 2021/10/08 03:57:59
5. Enable password hardening: no
6. Admin password (Must be typed): (CHANGED)
7. Monitor password (Must be typed): (CHANGED)
To change an answer, enter the step number to return to.
Otherwise hit <enter> to save changes and exit.
Choice:
Zero-touch is disabled
Configuration changes saved.
To return to the wizard from the CLI, enter the "configuration jump-start"
command from configure mode.Launching CLI...
switch-xxxxxx >
然后进入配置模式,在CLI下修改任何配置都要先输入enable然后configure terminal
switch-xxxxxx >
switch-xxxxxx > enable
switch-xxxxxx # configure terminal
switch-xxxxxx (config) #
然后先解锁模块
switch-xxxxxx (config) # fae cable-stamping-unlock 100g_lr4
switch-xxxxxx (config) # fae cable-stamping-unlock 40g_lr4
switch-xxxxxx (config) # fae cable-stamping-unlock eth_100g
switch-xxxxxx (config) # fae cable-stamping-unlock eth_sfp_25g
任何更改都不会自动保存,CLI要输入命令保存,在WEB网页上的话就是右上角的SAVE或者存档标准
switch-xxxxxx (config) # configuration write
switch-xxxxxx (config) #
风扇转速会在25分钟左右降速到20%(6000~7000RPM)
开机后转速是60%,每5分钟左右降10%
上面初始配置设置了管理口DHCP获取IP,所以我们可以使用下面的命令获取管理口状态
switch-xxxxxx (config) # show interfaces mgmt0 brief
Interface mgmt0 status:
Comment :
VRF : mgmt
Admin up : yes
Link up : yes
DHCP running : yes
IP address : 10.0.0.181
Netmask : 255.0.0.0
IPv6 enabled : no
Speed : 1000Mb/s (auto)
Duplex : full (auto)
Interface type: ethernet
Interface source: bridge
Bonding master: vrf_mgmt
MTU : 1500
HW address : xx:xx:xx:xx:xx:xx
可以看到获取的IP是10.0.0.181
这时候就可以用IP登陆SSH控制台而不用Console了
同理,输入账号密码登陆,然后输入enable和configure terminal进入配置模式
使用25G/100G链路必须设置FEC
下面是示例
#关闭端口自动协商,设置端口速率为25G
switch-xxxxxx (config) # interface ethernet 1/7 speed 25G no-autoneg force
#设置FEC模式,可以看到有RS FC NO三个可以选,这里选择RS
switch-xxxxxx (config) # interface ethernet 1/7 fec-override
fc-fecno-fecrs-fec
switch-xxxxxx (config) # interface ethernet 1/7 fec-override rs-fec force
switch-xxxxxx (config) #
在电脑上Mellanox网卡的话,可以安装官网的驱动程序和MFT后使用mlxlink验证链路模式
MFT下的工具必须在管理员模式运行
mlxlink.bat -d mt4117_pciconf0的网卡的第一个接口
mlxlink.bat -d mt4117_pciconf0.1的网卡的第二个接口
下面是示例(Windows平台)
Windows PowerShell
版权所有 (C) Microsoft Corporation。保留所有权利。
尝试新的跨平台 PowerShell https://aka.ms/pscore6
PS C:\Windows\system32> cmd
Microsoft Windows [版本 10.0.19044.1237]
(c) Microsoft Corporation。保留所有权利。
C:\Windows\system32>cd C:\Program Files\Mellanox\WinMFT
C:\Program Files\Mellanox\WinMFT>
C:\Program Files\Mellanox\WinMFT>mlxfwmanager.exe
Querying Mellanox devices firmware ...
Device #1:
----------
Device Type: ConnectX4LX
Part Number: MCX4121A-ACU_Ax
Description: ConnectX-4 Lx EN network interface card; 25GbE dual-port SFP28; PCIe3.0 x8; UEFI Enabled; tall bracket
PSID: MT_0000000266
PCI Device Name:mt4117_pciconf0
Base MAC:
Versions: Current Available
FW 14.31.1014 N/A
PXE 3.6.0403 N/A
UEFI 14.24.0013 N/A
Status: No matching image found
C:\Program Files\Mellanox\WinMFT>mlxlink.bat -d mt4117_pciconf0.1
Operational Info
----------------
State : Active
Physical state : LinkUp
Speed : 25GbE
Width : 1x
FEC : Standard RS-FEC - RS(528,514)
Loopback Mode : No Loopback
Auto Negotiation : ON
Supported Info
--------------
Enabled Link Speed : 0x38007013 (25G,10G,1G)
Supported Cable Speed : 0x38007013 (25G,10G,1G)
Troubleshooting Info
--------------------
Status Opcode : 0
Group Opcode : N/A
Recommendation : No issue was observed.
C:\Program Files\Mellanox\WinMFT>
可以看到端口的FEC已经运行在RS模式(根据交换机上的数据自动协商)
用mlxcables查看模块型号,收发光等信息
mlxcables.bat -d mt4117_pciconf0_cable_0的网卡的第一个接口
mlxcables.bat -d mt4117_pciconf0_cable_1的网卡的第二个接口
C:\Program Files\Mellanox\WinMFT>mlxcables.bat -d mt4117_pciconf0_cable_1 -q
Querying Cables ....
Cable #1:
---------
Cable name : mt4117_pciconf0_cable_1
>> No FW data to show
-------- Cable EEPROM --------
Identifier : SFP/SFP+/SFP28 (03h)
Technology : Transceiver
Compliance : Unspecified
OUI : 0xac4afe
Vendor : Hisense
Serial number : UBU9C083728
Part number : LTF1325-BH1
Revision : A
Temperature : N/A
Length : 0 m
C:\Program Files\Mellanox\WinMFT>mlxcables.bat -d mt4117_pciconf0_cable_1 -DDM
Cable DDM:
----------
Temperature : 52C
Voltage : 3.2639V
RX Power : -1.1351dBm
TX Power : -2.1120dBm
TX Bias: 53.8300mA
----- Flags -----
Temperature:
[32m Alarmhigh: 0
[32m Warning high : 0
[32m Warning low: 0
[32m Alarmlow : 0
[0mVoltage:
[32m Alarmhigh: 0
[32m Warning high : 0
[32m Warning low: 0
[32m Alarmlow : 0
[0mRX/TX Power and TX Bias:
[32m RX Power alarmhigh : 0
[32m RX Power warning high: 0
[32m RX Power warning low : 0
[32m RX Power alarmlow: 0
[32m TX Power alarmhigh : 0
[32m TX Power warning high: 0
[32m TX Power warning low : 0
[32m TX Power alarmlow: 0
[32m TX Bias alarmhigh: 0
[32m TX Bias warning high : 0
[32m TX Bias warning low: 0
[32m TX Bias alarmlow : 0
[0m----- Thresholds -----
Temperature high alarm threshold : 95C
Temperature high warning threshold : 85C
Temperature lowwarning threshold : -40C
Temperature lowalarm threshold : -50C
Voltage high alarm threshold : 3.6300V
Voltage high warning threshold: 3.4650V
Voltage lowwarning threshold: 3.1350V
Voltage lowalarm threshold: 2.9700V
RX Power high alarm threshold : 5.0000dBm
RX Power high warn threshold: 2.0000dBm
RX Power lowwarn threshold: -10.5012dBm
RX Power lowalarm threshold : -13.4969dBm
TX Power high alarm threshold : 5.0000dBm
TX Power high warn threshold: 2.0000dBm
TX Power lowwarn threshold: -7.0006dBm
TX Power lowalarm threshold : -10.0000dBm
TX Bias high alarm threshold: 110.0000mA
TX Bias high warn threshold : 100.0000mA
TX Bias lowwarn threshold : 1.0000mA
TX Bias lowalarm threshold: 1.0000mA
有关交换机接口的其他设置可以看官方文档
https://docs.mellanox.com/display/Onyxv393202/Ethernet+Interfaces
https://docs.mellanox.com/display/Onyxv393202/Ethernet+Interface+Commands
RoCE文档
https://docs.mellanox.com/pages/viewpage.action?pageId=56986516
机箱管理
https://docs.mellanox.com/display/Onyxv393202/Chassis+Management
如果发现任何异常的地方可以抓取日志查看详情
如果日志出现下面错误
Oct7 04:28:57 switch-xxxxxx temp_control: : Read all qsfp temperatures properly:, changing dynamic ambient mode
Oct7 04:28:57 switch-xxxxxx temp_control: : Dynamic ambient usage: Enabled. NOT all qsfps were read properly
Oct7 04:28:57 switch-xxxxxx temp_control: : minimum chassis fan speed - previous current after reading ambient temperature of
Oct7 04:28:57 switch-xxxxxx temp_control: : Fan:, interval: ,in affected area, max temperatures: ASIC: X86: QSFP_CABLE: , Updating fan speed from: to:
注意这两句
Read all qsfp temperatures properly:, changing dynamic ambient mode
Dynamic ambient usage: Enabled. NOT all qsfps were read properly
意思就是temp_control没有正确读到模块的温度数据
哪怕执行
show interfaces ethernet x/x transceiver diagnostics
后能读取到模块温度
机箱管理还是照样会把风扇转速提高到最低40%(11000~12000PRM)
如果遇到这种情况请更换模块,或者用官方模块
(或者等nvidia良心发现修复一下,又或者换cumulus linux或者sonic,再或者你的使用环境可以无视风扇提速) 牛x啊 我要是重新装修我也来一套
当然用不到这么高级的就是了 [震惊]全新货,豪.我是想搞个25GbE洋L圾玩玩 口水一地 ebay?什么价啊 QSG 发表于 2021-10-2 14:29
ebay?什么价啊
ebay太贵,黄鱼有惊喜 wxlg1117 发表于 2021-10-2 14:13
全新货,豪.我是想搞个25GbE洋L圾玩玩
洋垃圾都是博通,家用完全行不通,功耗高发热大噪音高 一定不是家用[无奈] pp0pp 发表于 2021-10-2 15:15
一定不是家用
放机房我直接dx010了,哪用在意功耗散热噪音这些细节[无奈] 太高级了 qfx5120-48s使用者路过。。。。起飞的噪声 这才是CHH应该有的帖子[可爱] 按照lz说的搜了下黄鱼,好像还真是价格惊喜(虽然并不改变我买不起的事实……)
好奇接在上面的另一头的设备都是什么[喜欢] 还是mellanox sx6012适合俺 按照现在的SSD速度和阵列规模,确实10Gb的网络已经不太够用了[偷笑] 本帖最后由 天道太酬勤 于 2021-10-4 23:13 编辑
黄鱼价格确实有惊喜,已入清单
仔细搜了下,原来是定位超融合的设备,那更有兴趣了 等楼主家的网络搭配贴 CHH的家用感觉超出我想象了QAQ 你们说的惊喜是指得10000? 牛。
噪音怎么样? tedaz 发表于 2021-10-2 21:05
牛。
噪音怎么样?
和sx6012一样 test 发表于 2021-10-2 21:04
你们说的惊喜是指得10000?
[困惑]ebay上HPE版本要2500刀,Colfax Direct上原版要5000刀了 Juzi丶 发表于 2021-10-2 21:13
和sx6012一样
没用过sx6012,[流汗] 非常适合家用。。。。。呃,家里要搞啥啊 test 发表于 2021-10-2 21:04
你们说的惊喜是指得10000?
相比于官方价格实在是惊喜 什么土豪,也不会整这个家用吧,太超前了。 的确家用好选择 想问下,这类100g交换机是不是要比华为ce6820系列要好
hfyeqp 发表于 2021-10-3 02:13
想问下,这类100g交换机是不是要比华为ce6820系列要好
ce68xx的话只有极少数型号用的海思,剩下的都是博通方案的,要单比asic的话肯定spectrum要强