Chiphell - 分享与交流用户体验

标题: 【更新】EPYC 9004 / NVMe RAID / 100GbE / RDMA 全闪NAS搭建与测试分享 [打印本页]

作者: Dolfin    时间: 2023-9-6 22:59
标题: 【更新】EPYC 9004 / NVMe RAID / 100GbE / RDMA 全闪NAS搭建与测试分享
本帖最后由 Dolfin 于 2023-9-10 03:13 编辑

感受体验/规格参数,就像主观需求的和客观具备的对立统一,当需要被实现,特性被感知,就达到了平衡。初见SSD是2008年的Intel X25m,体验行云流水;而随着存储需求的增加便添置了DAS;再考虑到数据安全和共享,我部署了NAS。从机械到固态,机内存储向机外,直连变网络。现在又迈一步,就有了这个分享。

本文会围绕全闪服务器、NVMe存储、100GbE网络、RDMA等方面展开,来自直观感受和一手体验。我没有IT/运维/研发相关经验或背景,这分享理论不多,实验不少,扯东扯西,愿你乐意读下去。

家里这台威联通TS532X对我可用也够用,五盘位万兆ARM NAS。存储共享/快照备份是基本功,它做到了便利且可靠。至于更多服务,我用QPKG应用替掉了Docker,虚拟化交托给正经家伙。组网过程中,Mac mini配合雷电网桥,把万兆交换机也省了。

而满足就容易不知足,精简又惦记着繁复。想乘U.2大船,想捡机房垃圾。群晖就不给U.2,威联通h973AX给了但是丑,再挑就到h1090FU了,问价就是天价。我想加台NAS,乘船捡宝,可能本不需要。

(, 下载次数: 182)

当家用大厂没有合适选项时,我只能转向DIY或者选择商用成品。老零件能耗比差些,新装配又缺乏经验,为了省心省力,从产品规格还有经销渠道的透明度来看,最终我定了戴尔,当然HPE机型的那抹绿色是真的美。戴尔产品线划分了存储型和通用型,前者其实没有定位在NAS的产品,无论是Unity的扩展功能还是Isilon的分布特性都已超出需求。所以我选择了通用线的PowerEdge,刚好16代机型上市,买新不买旧。这里要特别感谢CHH的戴尔大佬champ协调购机。

PowerEdge R6615是一款1U单路CPU机架式服务器,基于AMD第四代EPYC 9004 Genoa处理器,至多128核心,支持12通道 DDR5-4800内存以及128条PCIe Gen 5通道。它为高密度设计,支持CPU液冷,可扩展16个E3.s SSD及3条PCIe板卡。

(, 下载次数: 175)

NVMe存储的性能表现受CPU影响尤为明显,特别是高并发高IOPS数据传输场景。以我的测试观察,在Windows Server平台,4个NVMe SSD高负载工作就可以占满16核的EPYC 9124。

值得一提的是,有测试显示在Linux平台,由于零拷贝存储堆栈、用户模式驱动程序、轮询模式等优化策略,相较于Windows,NVMe SSD对CPU的消耗要低一些。但总体而言,NVMe SSD在高负载情况下对CPU的需求仍然相当大。

PowerEdge R6615最高支持128核的EPYC 9754处理器,可通过12条DIMM扩展达3TB的DDR5-4800内存,双路CPU版本的R6625则将这一容量翻倍。我配置了EPYC 9124处理器,拥有3.0GHz基础频率(最大睿频3.7GHz),16核32线程及64M三级缓存,TDP 200W。Cinebench R23基准测试多核成绩27000,单核成绩1300。

(, 下载次数: 206)

在存储方面,PowerEdge R6615提供了多种灵活的配置选项。前置存储支持最多4个3.5寸驱动器,或10个2.5寸驱动器,或者16个E3.s驱动器。同时,还可以选择额外的后置存储,以支持两个额外的E3.s驱动器。对于NVMe驱动器,PowerEdge R6615支持PCIe Gen 5速率,但目前官方配置只提供E3.s Gen 5驱动器选项。U.2/U.3 驱动器目前仍然处于Gen 4阶段。

鉴于性价比和总存储容量的考虑,我倾向于选择10个2.5英寸前置存储的配置,不额外选配后置存储(以节约PCIe扩展)。尽管有16个E3.s驱动器的选项,但单盘最大容量及单位成本还与U.2/U.3 SSD存在差距,同时用于M.2 SSD转接方案是一种更为灵活和经济的选择。

我尝试在PowerEdge R6615安装非OEM的Kioxia CM6,它能很好的被iDRAC认出,我推测其他主流企业盘应该也没问题。即使是通过U.2转接的M.2 SSD,在操作系统中也可以被正确识别和使用。我将3块Kioxia CM6 960GB与1块Kioxia CD7 960GB组成了RAID 0。

(, 下载次数: 220)
10盘位2.5寸PCIe Gen5背板

(, 下载次数: 196)

BOSS卡,也称为启动存储优化卡,我选配了BOSS-N1控制卡+含1 M.2 480GB,SSD由SK hynix生产。与上一代服务器相比,这一代升级了M.2/PCIe Gen3的NVMe SSD,不再使用SATA协议。BOSS卡套件价格不低,不过性能差强人意,还只能运行在RAID模式。我就当省一个盘位安装操作系统。

(, 下载次数: 199)

PowerEdge R6615在网络部分也支持多种连接选项。这包括板载的嵌入式LOM 1GbE * 2电口网卡,用于基本的网络连接;板载的管理电口,用于通过iDRAC进行服务器的远程管理;可选的OCP 3.0网卡,并支持最多3个PCIe Gen 4/5网卡。要说明的是,R6615 提供的OCP 3.0使用的是PCIe 4.0 x8通道,相较上一代R6525/R7525的PCIe 4.0 x16通道有所减少,因此某些高性能的网卡可能在R6615上不可用(实测不支持Mellanox ConnectX 6 100GbE OCP 3.0网卡)。在我的配置中,我选择了博通BCM957504,这是一款支持25GbE * 4的OCP 3.0网卡。也同样支持ROCE v2,但开启RDMA后功耗会显著提升,大约增加20瓦。在PCIe网卡选择上,戴尔最高可选PCIe Gen 5的Mellanox ConnectX 7 400GbE网卡,我自己的ConnectX3 Pro和ConnectX4也可以被iDRAC和操作系统正常识别和使用。

(, 下载次数: 193)

(, 下载次数: 239)

第四代EPYC平台将PCIe Gen 4提升到了Gen 5。相较于上一代的PowerEdge R6515服务器,R6615增加了一条PCIe扩展插槽,最大支持3条PCIe扩展插槽。这包括两条PCIe 5.0 x16插槽和一条PCIe 4.0 x16插槽(总共三条半高插槽)。而需要使用全高PCIe板卡的话,只能使用其中的两条PCIe扩展插槽。在1U机架服务器的极限空间内,这些PCIe配置组合是通过多种类型的Riser卡(PCIe转接卡)实现的。

(, 下载次数: 199)

(, 下载次数: 172)

第14代PowerEdge服务器引入了多矢量冷却(MVC)热控制方案,第15代则升级为MVC 2.0版本。这一升级专注于服务器硬件设计、系统布局以及精确的热控管理,着重优化散热和电源管理。具体的优化涵盖了散热器的设计、T型主板的布局、传感器的分布以及散热和能耗算法的更新。这些改进旨在提高 CPU、电源和PCIe设备的冷却效率。
(, 下载次数: 194)
在实际使用中,我发现iDRAC里PCIe通风口被设置为自动,也没有气流控制。换Racadm查看系统热控制,显示PCIe slot LFM与Maximum PCIe Inlet Temperature Limit 均不支持,System CFM Support也没有授权,那就索性上手,看看散热这地方能动点什么。

1U服务器在家用环境中使用,常被诟病的是噪声。PowerEdge R6615安装了4组金牌风扇,共计16个风扇。每组风扇的规格为12V、2.5A、30W,最高转速可达23000 RPM。在iDRAC中,无法限制风扇的最高转速,只能设定最低转速,且不能低于入风温度传感器建议的转速,从IPMI/Racadm接入也无能为力,所以要么降低室温,要么做好声音隔离。

在22度室温下,风扇转速24% 7800 RPM,五米外的噪声还是不扰人的。不过要挨着睡觉,想进一步降噪的话,就把金牌风扇更换为标准风扇,规格是12V、1.2A、14.4W。iDRAC可以识别出8个风扇,室温19摄氏度,转速3000多,就非常安静了。

(, 下载次数: 206)

(, 下载次数: 183)

PowerEdge R6615提供多种电源选项以满足不同需求,可选单热插拔非冗余电源与双热插拔全冗余电源,功率涵盖700W/800W/1100W/1400W/1800W。

在功耗表现上,服务器装配了4块PCIe 4.0 U.2 SSD 与4口25GbE 网卡,在Performance Per Watt模式,Windows平衡方案下,待机功耗101W,满载功耗不到400W。

(, 下载次数: 215)

作为NAS存储,操作系统我采用Windows Server 2022,它对SMB提供了原生且全面的支持 ,特别是SMB Direct特性,可基于RDMA传输。

目前,Samba尚未支持SMB Direct。虽然在SDC 2018的主题演讲中有了原型(Samba SMB-Direct Status Update),但仍然存在硬件和驱动程序的兼容性问题,因此我暂时放弃了使用Linux。而据我所知,非Windows的操作系统/SDS中,只有WekaIO支持SMB Direct特性。

而我对其他存储系统的看法是,TureNAS可运行在裸金属上,更适合混合存储或者机械硬盘存储,尤其是有ZFS 需求的场景;QutsCloud也有出色的使用体验,与威联通成品NAS基本无异,它在虚拟化平台(如Hyper-V / ESXi)运行,具有良好的性能表现;同样运行在虚拟化上的戴尔Unity VSA,具备企业级存储的特性,也有免费的社区版;而Starwind SAN & NAS拥有简洁的Web管理方式,VSAN是Windows可实现NVMe-of的少有选择。

我的主要需求是网络文件存储,而不是网络块存储。关于块存储,Linux SPDK仍然是现在最佳的NVMe-of解决方案;我需要能够很好支持SMB,可以发挥NVMe SSD性能,又不依赖缓存的系统,那么Windows Server就自然成了第一选择。而后面的网络存储性能测试也将基于这个软硬件平台展开。

测试旨在评估网络存储的巅峰性能,将其拆解为IOPS、延迟和吞吐量的表现,以便比较不同配置组合之间的性能差异。另外,NAND SSD那些漂亮的规格是在高并发或深队列下实现的,所以测试使用了更多线程数与队列深度来推动更大的数值,而“真实世界”却鲜有任务场景需要如此多的线程和队列。也正因如此,很多人会关注存储在Q1T1的性能表现。
(, 下载次数: 175)

网络存储性能测试对NAS本地存储和多台客户端的SMB挂载存储进行了广泛的评估。我使用FIO、CDM和Amorphous Disk Mark等工具来测试随机读写的IOPS和延迟表现,以及顺序读写的吞吐性能。测试涵盖了多种硬件和网络配置,包括不同速度的以太网(10GbE、25GbE、40GbE、100GbE)连接、多种网卡配置(单卡、多卡、雷电网卡)、以及两种传输方式(RDMA和TCP/IP)。

测试平台
NAS 存储端
•        AMD EYPC 9124 3.0GHz,16C/32T,DDR5-4800 32GB
•        100GbE Mellanox ConnectX4,40GbE Mellanox ConnectX3 Pro, 25GbE Broadcom BCM97504
•        Kioxia CD 7 960GB * 1,Kioxia CM6 960GB * 3 (RAID 0)
•        Windows Server 2022 Datacenter

100GbE 客户端
•        Intel i7 9800X 3.8GHz, 8C/16T, DDR4-2666 128GB
•        100GbE Mellanox ConnectX4
•        HP EX 920 256GB
•        Windows Server 2022 Datacenter

双卡40GbE 客户端
•        Intel i7 9800X 3.8GHz, 8C/16T, DDR4-2666 128GB
•        40GbE Mellanox ConnectX3 Pro * 2
•        HP EX920 256GB
•        Windows Server 2022 Datacenter

40GbE 客户端
•        Intel i5 9400 2.9GHz, 6C/6T, DDR4-2133 8GB
•        40GbE Mellanox ConnectX3 Pro
•        HP EX900 500GB
•        Windows Server 2022 Datacenter

雷电 40GbE 客户端
•        Intel i5 12500H 2.5GHz, 12C/16T, DDR4-3200 16GB
•        40GbE Mellanox ConnectX4
•        HP EX920 1TB
•        Gigabyte Gaming box
•        Windows 11 Pro for Workstations

雷电 25GbE 客户端
•        Apple M1 3.2GHz, 8C/8T, LPDDR4X-4266 8GB
•        25GbE Mellanox ConnectX4
•        Apple SSD 256GB
•        Akitio Node Pro
•        MacOS 13.4.1

测试方法
NAS存储端和客户端通过Mellanox DAC线缆进行直连,不经过交换机。所有计算机PCIe 插槽仅安装了网卡。同时,BIOS设置中禁用所有与节能相关的选项;操作系统为 Windows Server 2022 21H2及Windows 11 Pro for Workstations 22H2, 并安装了最新的 Mellanox WinOF驱动程序。

Windows下电源模式设置为高性能或卓越性能,并关闭防火墙及病毒监测;在NAS存储端上创建共享文件夹,同时禁用了设备及Windows写入缓存。客户端通过映射网络驱动器对NAS 存储读写。

RDMA(SMB Direct)相关测试选择了100GbE客户端与40GbeE客户端,通过改变网卡 Network Direct Functionality 与 Network Direct Technology 实现RDMA的开关。并在终端、性能监视器及任务管理器中复核是否开启 RDMA。

测试使用FIO 3.35进行多功能IO负载测试。由于它内部设计的灵活性,能够调用不同操作系统的IO引擎来执行相同的工作负载(后续还会引入其他操作系统的测试数据)。在随机读写测试中,每个任务使用不同的队列深度和线程数,范围从Q1T1到Q32T32。测试过程中,绕过系统的页面缓冲区,将每个测试文件大小设定为32GB,数据块大小为4KiB,单项测试时长120秒。为了确保测试的随机性,采用了参数 -invalidate=1、-refill_buffers、-norandommap以及-randrepeat=0。至于顺序读写测试,使用了不同大小的数据块,从512B到512KiB,采用Q8T4设置,测试文件大小和测试时长与随机测试相同。整个测试过程历时一周,累计写入了150TB的测试文件。

(, 下载次数: 192)
在4K随机读取测试中,本地NAS存储在Q16T32达到了211万IOPS的峰值性能,而其他SMB客户端维持在约50万IOPS。使用40GbE ConnectX4网卡通过雷电3扩展,性能达到了23万IOPS。

然而,在100GbE RDMA配置下,相较于TCP/IP平均性能提升不足4%,甚至在某些测试中还出现下降。相比之下,使用40GbE网卡配置的RDMA平均性能提升了11%。

值得留意的是,搭载100GbE ConnectX4网卡的平台在硬件配置上,要明显优于搭载40GbE ConnectX3 Pro的平台,但测试表现却处于下风。而使用相同硬件配置的测试对比(只替换网卡),双卡40GbE配置的平均性能要超过单卡100GbE配置16%,在Q8T16和Q16T16测试中,甚至领先达50%。

(, 下载次数: 204)
NAS本地存储在Q1T1到Q8T16的测试段内,平均延迟都保持低于100微秒;SMB客户端里表现最好的依然是40GbE双卡配置,在Q8T16范围内平均延迟低于250微秒;RDMA的延迟表现要优于TCP/IP,差距在5%以内;垫底的依然是雷电 40GbE客户端,在Q4T4内平均延迟还可以维持低于150微秒,随后迅速攀升。

(, 下载次数: 165)
在到达Q16T32的阶段后,各测试端的4K随机写入IOPS趋于稳定。本地NAS存储达到121万IOPS,雷电3网卡达到21万IOPS,其他客户端都超过40万IOPS。双40GbE配置比单100GbE配置领先11%。而100GbE RDMA的表现对比TCP/IP平均落后7%,40GbE RDMA的表现也类似,同样落后7%。RDMA在随机写入IOPS测试中出现了负优化。

(, 下载次数: 196)
NAS本地存储在Q8T16测试段内,平均延迟始终低于100微秒;除雷电配置外的客户端在 Q8T8 测试段内(含)低于200微秒;和IOPS表现类似的是,RDMA表现出负优化,在 100GbE与40GbE网卡下开启 RDMA 会增加平均延迟12%与8%。

(, 下载次数: 245)
在数据块大小达到128KiB时,各测试端的顺序读取性能接近峰值。本地NAS存储达到了23GB/s,100GbE客户端达到了10GB/s,40GbE客户端达到了4.4GB/s,双卡40GbE客户端达到了9.2GB/s,雷电40GbE客户端达到了2.7GB/s。开启RDMA后,100GbE和40GbE网卡的吞吐量分别增加了19%和9%。

(, 下载次数: 196)
当数据块大小达到64KiB时,各测试端的性能接近巅峰状态,(除雷电客户端)。本地NAS存储、100GbE客户端和双40GbE客户端的顺序写入性能都超过了5.7GB/s,40GbE客户端达到了4.6GB/s,而雷电40GbE客户端则为2.3GB/s。开启RDMA后,100GbE和40GbE网卡的吞吐量分别受到了2%和-2%的影响。

至此,大部分测试结果基本达到了预期,双卡ConnectX3 Pro的配置在SMB 多通道的支持下表现出色,不论是随机读写测试中的IOPS和延迟表现,还是顺序读写的吞吐量表现都令人印象深刻。然而,测试中RDMA的开启会在某些方面表现出奇怪的负优化,特别是写入环节。我进行了反复测试和验证,也尝试了不同的测试工具和测试方法,但结果都呈现相似的趋势。这可能与工作负载类型、硬件和网络配置、操作系统、驱动程序或SMB协议等多种因素有关。或许在更大规模和更复杂的通信网络的环境中,RDMA对延迟、效率和拥塞的优化会更加显著,这需要进一步观察和研究。

那么网络传输中RDMA带来最显著的作用是什么? 是CPU 卸载( CPU Offload )
(, 下载次数: 224)
在Q8T4的顺序读写测试中,启用RDMA的100GbE ConnectX4平台平均降低了CPU负载27%和18%,而40GbE ConnectX3 Pro平台平均降低了CPU负载31%和19%。此外,在大数据块的顺序读写操作中,RDMA对CPU的卸载效果更为显著。

写到这里,我发现通篇都在尽量保持客观。而这个分享的初衷,其实就是动手验证想要的是否是需要的。体验一个产品可以很简单,光摆着就能开心,能用好更是满足。有需求有余量就上手,没有就打住,这种恰到好处倒会少了很多乐趣。

在动手的过程收获不少启发,也发现高科技也并不一定理所应当的好。知道了很多,未知的更多。很感谢CHH的大佬们给予的分享与帮助,翻看老帖时常给我新的灵感,也驱动了我写了这么多字。我现在该适度折腾,消停关机。



作者: 叶子烟    时间: 2023-9-6 23:03
目瞪口呆.jpg
作者: 老饭    时间: 2023-9-6 23:09
好奇多钱拿到的
作者: Oscarice    时间: 2023-9-6 23:10
非常害怕.jpg
作者: ilivy    时间: 2023-9-6 23:16
看了下发帖记录,这才是chh存在的意义
作者: conanhfl    时间: 2023-9-6 23:16
同时禁用了设备及Windows写入缓存


可以详细一点这个如何操作吗?
我把MCX555A的RDMA打开了结果传输资料时又跑到缓存上
缓存写回时SSD就暂停了传输,
不断重覆就像在跑云霄飞车
作者: ArmStronger    时间: 2023-9-6 23:37
惊掉下巴.gif
作者: Juzi丶    时间: 2023-9-6 23:38
这些都是“理论测试”,然而在实际应用中文件操作几乎(可能可以划掉几乎)没有应用可以使用到这种高队列高线程(windows下)
至于100Gbps去跑满没有RDMA的smb(128K),以这两年的处理器性能samba也一样能做到

而且windows并没有什么好的raid方案
硬件raid?zfsonwindows?两者的局限性都挺大...
作者: msdelphi    时间: 2023-9-6 23:40
2U的7525,都好吵
作者: momo77989724    时间: 2023-9-6 23:52
msdelphi 发表于 2023-9-6 23:40
2U的7525,都好吵

都吵得。。。只能自己买个2U壳子  自己上主板好点。
作者: wildbear    时间: 2023-9-7 00:04
这真的是家用么?
作者: nlnjnj    时间: 2023-9-7 00:20
家用上刀片 大概率是别墅 羡慕max
作者: 今晚大老虎    时间: 2023-9-7 06:35
个人意见哈, 最新的Dell EPYC服务器来跑NAS, 但是存储部分只有4T不到, 感觉有点本末倒置啊. 你这套硬件跑计算很合适,但是如果只是用来做NAS,不管是WinServer, 还是TrueNAS或者黑裙, 都大大的浪费了. 一个R730就能满足需求.

作者: 今晚大老虎    时间: 2023-9-7 06:38
nlnjnj 发表于 2023-9-7 00:20
家用上刀片 大概率是别墅 羡慕max

别墅的地下室都挡不住1U的高频噪音, 除非地下室做专业隔音,但是散热又是个问题.
作者: windie    时间: 2023-9-7 08:38
Dell的服务器风扇声音很响的,而且不停的
作者: feelmydick    时间: 2023-9-7 09:45
RDMA看来还是利大于弊,连最新的EPYC都能节省30%CPU负载

不过提升20W功耗也太高了,不知道CX4 LX小核心开启RDMA的话会提升多少功耗
作者: Dolfin    时间: 2023-9-7 09:53
feelmydick 发表于 2023-9-7 09:45
RDMA看来还是利大于弊,连最新的EPYC都能节省30%CPU负载

不过提升20W功耗也太高了,不知道CX4 LX小核心开 ...

那个幅度的负载降低是在客户端,EPYC那边因为没有并发,所以降负不明显。博通那个网卡是这样,RDMA耗的电省在CPU上了。
作者: Dolfin    时间: 2023-9-7 09:55
conanhfl 发表于 2023-9-6 23:16
可以详细一点这个如何操作吗?
我把MCX555A的RDMA打开了结果传输资料时又跑到缓存上
缓存写回时SSD就暂停 ...

Windows下吗?设备管理器-磁盘-属性,策略选快速删除就行了
作者: faninx    时间: 2023-9-7 09:58
坛友的实力总是超乎想象
作者: ableman    时间: 2023-9-7 10:06
应该买2U,风扇大噪音也小一点,硬盘位也多,1U散热太差,高负载上盖板都是热的
作者: z82638275    时间: 2023-9-7 10:15
非常害怕.jpg
作者: m4a1chbb    时间: 2023-9-7 10:21
我想问一下服务器如果用U2桌子M2转接的硬盘,那么阵列卡还需要么?
低端的阵列好像不支持nvme,
而且阵列卡的缓存可能还不如固态的。
作者: JASON879    时间: 2023-9-7 10:26
啧啧, 这机器口水一地
作者: Dolfin    时间: 2023-9-7 10:27
m4a1chbb 发表于 2023-9-7 10:21
我想问一下服务器如果用U2桌子M2转接的硬盘,那么阵列卡还需要么?
低端的阵列好像不支持nvme,
而且阵列卡 ...

NVMe SSD 建议与CPU直连,RAID需求使用软件定义存储
作者: mrshi    时间: 2023-9-7 10:51
提示: 作者被禁止或删除 内容自动屏蔽
作者: msdelphi    时间: 2023-9-7 10:53
7525可以换标准风扇降噪?
作者: imyz    时间: 2023-9-7 11:08
EPYC、全闪、100GbE...
作者: bxhaai    时间: 2023-9-7 11:16
wildbear 发表于 2023-9-7 00:04
这真的是家用么?

放在家里用就是家用
作者: Dolfin    时间: 2023-9-7 12:01
msdelphi 发表于 2023-9-7 10:53
7525可以换标准风扇降噪?

7525也有标准风扇,规格可以查查
作者: voandrew    时间: 2023-9-7 12:01
离大谱,但为啥我就那么喜欢呢?哈哈哈
这一台机器毁了一个房间的静谧啊。
作者: ren者    时间: 2023-9-7 12:26
牛B带闪电
作者: gtx9    时间: 2023-9-7 12:32
CPU如果上了高频率的9004F就更牛
作者: fairness    时间: 2023-9-7 12:44
这是真的专业。
作者: jop    时间: 2023-9-7 12:51
瑟瑟发抖.gif
作者: 大魔王    时间: 2023-9-7 13:33
专业,真他么专业。比小型公司的NAS都好
作者: goldgod    时间: 2023-9-7 13:41
好案例!值得学习
作者: goldgod    时间: 2023-9-7 13:41
本帖最后由 goldgod 于 2023-9-7 13:46 编辑
voandrew 发表于 2023-9-7 12:01
离大谱,但为啥我就那么喜欢呢?哈哈哈
这一台机器毁了一个房间的静谧啊。 ...


作者强调了把涵道风扇换成了普通风扇,不过转速降到了5400RPM呀,也有啸叫声音。我立刻想去找退役的730服务器
作者: voandrew    时间: 2023-9-7 13:54
goldgod 发表于 2023-9-7 13:41
作者强调了把涵道风扇换成了普通风扇,不过转速降到了5400RPM呀,也有啸叫声音。我立刻想去找退役的730服 ...

40mm的扇子,5000转速度,声音其实。。。挺烦人的。。。
作者: LightningWu    时间: 2023-9-7 14:53
性能过剩MAX
作者: Dolfin    时间: 2023-9-7 14:58
本帖最后由 Dolfin 于 2023-9-7 20:28 编辑
goldgod 发表于 2023-9-7 13:41
作者强调了把涵道风扇换成了普通风扇,不过转速降到了5400RPM呀,也有啸叫声音。我立刻想去找退役的730服 ...


(, 下载次数: 147)

室温降下来,转速就下来了。这是3000多转。
作者: Joe_Li    时间: 2023-9-7 15:18
我的天。。。。。
作者: PhysX    时间: 2023-9-7 16:02
图表做的不错
作者: 今晚大老虎    时间: 2023-9-7 19:12
goldgod 发表于 2023-9-7 13:41
作者强调了把涵道风扇换成了普通风扇,不过转速降到了5400RPM呀,也有啸叫声音。我立刻想去找退役的730服 ...

dell R730真乃神机也, 最后一代能风扇手动定数的服务器. 风扇锁定2000转, 除了气流风声, 基本听不到其他的噪音.
作者: 今晚大老虎    时间: 2023-9-7 19:16
Dolfin 发表于 2023-9-7 14:58
室温降下来,转速就下来了。这是17摄氏度,再降一度,就3000多转。

戴尔13代以后的服务器取消了用ipmi命令手动指定风扇转速的功能, 不然的话你这套机器的噪音可以控制的非常好, 放家里非常的爽.
作者: Dolfin    时间: 2023-9-7 20:31
voandrew 发表于 2023-9-7 13:54
40mm的扇子,5000转速度,声音其实。。。挺烦人的。。。

测试的时候开的bios system profile是性能模式,风扇也是性能。平时设到功率每瓦这个模式,噪音还能再降。十几度室温好点,3000多转
作者: goldgod    时间: 2023-9-7 21:10
[quote]今晚大老虎 发表于 2023-9-7 19:12
dell R730真乃神机也, 最后一代能风扇手动定数的服务器. 风扇锁定2000转, 除了气流风声, 基本听不到其他 ...[/qu
真不知道还能调转数。受教了!

作者: Apocalypse-Long    时间: 2023-9-7 21:46
大佬知道CPU的三缓在这个场景下会有什么提升么?
作者: goat    时间: 2023-9-7 23:00
msdelphi 发表于 2023-9-7 10:53
7525可以换标准风扇降噪?

小心插上直接拉满/不启动
作者: goat    时间: 2023-9-7 23:05
Dolfin 发表于 2023-9-7 14:58
室温降下来,转速就下来了。这是3000多转。

你这idrac居然上的dc许可
另外实际看到上57504的怨种,不过6615的ocp居然只有*8
作者: qp6g3o    时间: 2023-9-8 00:25
这稿子 值得上门户!
作者: Dolfin    时间: 2023-9-8 03:48
goat 发表于 2023-9-7 23:05
你这idrac居然上的dc许可
另外实际看到上57504的怨种了,不过6615的ocp居然只有*8? ...

我也确实没搞清楚6615的PCIe通道数省着给谁用了
作者: 今晚大老虎    时间: 2023-9-8 05:49
goldgod 发表于 2023-9-7 21:10
[quote]今晚大老虎 发表于 2023-9-7 19:12
dell R730真乃神机也, 最后一代能风扇手动定数的服务器. 风扇锁 ...

用ipmi命令能指定风扇转速, 还能关闭安装第三方硬件而引起的风扇全速.
可惜14代以后就不支持了...
作者: goldgod    时间: 2023-9-8 06:56
能装出这样机器的都是多年浸淫X86服务器的老炮儿了。我还是认为家里不适合这东西。就像当兽医的人家里绝对不养宠物一样。看多了都恶心了。
作者: hu2851    时间: 2023-9-8 07:41
这服务器真厉害
俺还是安心的做俺的垃圾佬吧
作者: Dolfin    时间: 2023-9-8 13:50
gtx9 发表于 2023-9-7 12:32
CPU如果上了高频率的9004F就更牛

9124睿频只有3.7,等出货多了确实应该去捡个高频的
作者: fangl2002    时间: 2023-9-8 15:42
通篇看完,发现我还是用我的973AX吧。风扇噪音就能让我一天三顿打!!
作者: 浅梦    时间: 2023-9-8 16:38
羡慕中,会玩的
作者: Dolfin    时间: 2023-9-8 16:40
Apocalypse-Long 发表于 2023-9-7 21:46
大佬知道CPU的三缓在这个场景下会有什么提升么?

我会理解为有影响,但不好说有多少影响,因为没做测试。因为更大的三缓会减少对主内存的压力,可能对提升访问速度。命中率、优化网络流量管理或多任务处理有提升,落在存储的IO上,就会有提升。

关于EPYC 3D vcache的评测也供你参考
https://www.phoronix.com/review/epyc-9684x-3d-vcache
https://www.phoronix.com/review/amd-epyc-9684x-benchmarks
作者: Johnsnow-s    时间: 2023-9-8 16:53
Juzi丶 发表于 2023-9-6 23:38
这些都是“理论测试”,然而在实际应用中文件操作几乎(可能可以划掉几乎)没有应用可以使用到这种高队列高 ...

raid卡方案可以解决win下raid问题
作者: 港城钢铁侠    时间: 2023-9-8 17:24
Linux下ksmbd好像支持SMB Direct,楼主感兴趣可以试试
作者: fdhfdhd    时间: 2023-9-8 18:37
提示: 作者被禁止或删除 内容自动屏蔽
作者: zhgbbs    时间: 2023-9-8 18:59
fdhfdhd 发表于 2023-9-8 18:37
这……一套全新的9004结果就上三块960G的u.2硬盘吗
机器成本相较于硬盘价格十倍不止了吧 ...

是4块
上来就是raid0,看不懂了,不会跑完测试最后就是用来放电影电视剧之类的视频文件的吧
作者: fdhfdhd    时间: 2023-9-8 19:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: zhgbbs    时间: 2023-9-8 19:33
fdhfdhd 发表于 2023-9-8 19:29
太富了给看岔了,把那块CD7当系统盘看了
如果只是这点容量找个机械也能用啊,实在不行直接给电脑接个12T ...

我电脑机箱里就是插了6块U2盘
作者: fdhfdhd    时间: 2023-9-8 20:07
提示: 作者被禁止或删除 内容自动屏蔽
作者: lengying555    时间: 2023-9-8 20:23
fdhfdhd 发表于 2023-9-8 20:07
我主板上三根m2机箱里面放着4块u.2外面usb接了五个sata……
我all in one实在不理解这种 ...

楼主也说了,这是实验。人家就是玩着乐,你玩你的电脑存储, 他玩他的服务器NAS,没什么理不理解的。

作者: fdhfdhd    时间: 2023-9-8 20:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: 博雅    时间: 2023-9-8 21:07
可以上E3.S固态 我这有10几片7.68T的E3.S固态
作者: lengying555    时间: 2023-9-8 21:11
fdhfdhd 发表于 2023-9-8 20:29
实验的成本太高了,前面又觉得威联通的方案贵,可是这一套下来比威联通还贵吧 ...

那可不一定,楼主提到的QNAP TS-h1090FU,目前基础配置64G再配满10块U.2的价格还真的比很多服务器都贵......

再说,实验成本高不高,那是楼主的事。我们在这里看看大神那么详细的分享也是分一杯羹了。
作者: fdhfdhd    时间: 2023-9-8 22:17
提示: 作者被禁止或删除 内容自动屏蔽
作者: Apocalypse-Long    时间: 2023-9-8 23:16
Dolfin 发表于 2023-9-8 16:40
我会理解为有影响,但不好说有多少影响,因为没做测试。因为更大的三缓会减少对主内存的压力,可能对提升 ...

感谢楼主
作者: 邪恶的光B    时间: 2023-9-9 02:45
本坛真的藏龙卧虎啊……………………这玩意家用是真牛B
作者: elegantFish    时间: 2023-9-9 10:03
高端玩家
作者: glamor    时间: 2023-9-9 16:18
问下老哥,为什么4k随机写入,40GbE/100GbE在使用rdma时,延迟没有降低,理论来说rdma不经过cpu延迟应该明显降低才对。
作者: Dolfin    时间: 2023-9-9 20:58
港城钢铁侠 发表于 2023-9-8 17:24
Linux下ksmbd好像支持SMB Direct,楼主感兴趣可以试试

感谢分享,真的可以,我要去试试。


Implemented

SMB1(CIFS), SMB2/3 protocols for basic file sharing
Dynamic crediting
Compound requests
oplock/lease
Large MTU
NTLM/NTLMv2
Auto negotiation
HMAC-SHA256 Signing
Secure negotiate
Signing Update
Pre-authentication integrity(SMB 3.1.1)
SMB3 encryption(CCM, GCM)
SMB direct(RDMA)
Win-ACL
Kerberos
Multi-channel
作者: Dolfin    时间: 2023-9-9 22:12
glamor 发表于 2023-9-9 16:18
问下老哥,为什么4k随机写入,40GbE/100GbE在使用rdma时,延迟没有降低,理论来说rdma不经过cpu延迟应该明 ...

这个事情有点复杂,我不能很准确的回答,所以我也没有展开说,还需要更多实验和研究

我觉得可能相关的:

1.RDMA不是没有经过CPU,而是绕开了内核层,但用户层的传输,一样需要CPU。

2.用户层的处理,从发送到终止的动作、活动(轮询/异步信使事件等等),一样会有开销和效率的事情,处理不同的任务,可能有不同的效果。

3.RDMA是种零拷贝的技术(减少了用户层和内核层之间的拷贝),那错误处理和重传也许会增加延迟。

4.读取还是写入,涉及到不同的数据流向,写入任务开销会更大。

5.我又看了一下我的数据,分段来比较的话,其实小文件(小于32kiB),大QD(32以上),RDMA延迟会更明显些。

6.也许针对上面说的,小数据块大QD的写入任务,可能RDMA会表现出更低的性能。
作者: glamor    时间: 2023-9-11 12:22
Dolfin 发表于 2023-9-9 22:12
这个事情有点复杂,我不能很准确的回答,所以我也没有展开说,还需要更多实验和研究

我觉得可能相关的: ...

看来rdma只有在超算之间通讯时有好处,其他地方,还不一定。
作者: Dolfin    时间: 2023-9-11 14:37
glamor 发表于 2023-9-11 12:22
看来rdma只有在超算之间通讯时有好处,其他地方,还不一定。

从我的测试看,RDMA在顺序读取和CPU减负上效果还是有的。
还有一点,我的测试并不是多客户端并发的,我猜测并发测试的话,CPU占有率对测试数字会有相当影响的。
作者: Dolfin    时间: 2023-9-13 15:29
glamor 发表于 2023-9-11 12:22
看来rdma只有在超算之间通讯时有好处,其他地方,还不一定。

(, 下载次数: 128)

确实,还不一定哈哈哈
作者: michaelzxp    时间: 2023-9-15 16:08
全闪的r'aid 方案还是很难解决,没有低成本方案
作者: 马杰    时间: 2024-4-15 22:19
本帖最后由 马杰 于 2024-4-15 22:23 编辑
michaelzxp 发表于 2023-9-15 16:08
全闪的r'aid 方案还是很难解决,没有低成本方案


硬件方案,楼主的机器可以上dell 的965i硬件阵列卡,性能爆表。

软件方案。。。我一直没有找到真的好用的操作系统。

目前我都是 h755或者h755n  raid5的全闪,server2022的系统。相比16代服务器的的阵列卡,h755和h755n的写入性能,就太拉垮了。

https://zhuanlan.zhihu.com/p/602434600    这里是dell 16代阵列卡的评测,真的厉害。

楼主其实可以考虑你的机器上这个阵列卡,现在小黄鱼上很多,相比性能,价格不算贵。
作者: goat    时间: 2024-4-15 22:26
马杰 发表于 2024-4-15 22:19
硬件方案,楼主的机器就是dell 的965i硬件阵列卡,性能爆表

软件方案。。。我一直没有找到真的好用的操 ...

全闪不管你中间是switch还是roc对4k都是断腿。但是dell的r7全闪不上hw raid那基本上后面别想用什么扩展了
作者: michaelzxp    时间: 2024-4-17 16:12
马杰 发表于 2024-4-15 22:19
硬件方案,楼主的机器可以上dell 的965i硬件阵列卡,性能爆表。

软件方案。。。我一直没有找到真的好用 ...

是的这个必须dell的机器和卡,有我也找了很久h755感觉还是不行,软件方案有性能也好就是贵
作者: OMJ    时间: 2024-4-17 16:41
nb,感谢楼主分享,受到启发了
作者: Dolfin    时间: 2024-4-17 17:21
马杰 发表于 2024-4-15 22:19
硬件方案,楼主的机器可以上dell 的965i硬件阵列卡,性能爆表。

软件方案。。。我一直没有找到真的好用 ...

感谢这个硬件方案分享,确实爆炸,那个IOPS很漂亮,也不挑操作系统。软件方案的话,如果单机要一个爆表的数字,其实可选的只能是Linux了,主要考虑的就是IO的效率。
作者: 马杰    时间: 2024-4-17 23:02
michaelzxp 发表于 2024-4-17 16:12
是的这个必须dell的机器和卡,有我也找了很久h755感觉还是不行,软件方案有性能也好就是贵 ...

H755和h755n,相比 h965i,还是差距太大了。





欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5