ASRock W790 WS&Xeon w9-3495X专业向评测
本帖最后由 gaojie20@ 于 2023-6-24 10:09 编辑▐ ASRock W790 WS&INTEL Xeon w9-3495X Professional Review
(gaojie20@原创Chiphell首发,转载请注明出处)
0▐ 前言
▲Intel Sapphire Rapids Xeon Workstation 系列CPU包括 Xeon w9、Xeon w7、Xeon w5 和 Xeon w3 细分市场。
▲该系列共有 15 个 SKU,其中 7 个属于 Xeon W-3400,8 个属于 Xeon W-2400 系列。
▲两个细分市场之间 SKU 的划分:
[*]Xeon W-3400 CPU (350W) - Xeon w9 / Xeon w7 / Xeon w5
[*]Xeon W-2400 CPU (225W) - Xeon w7 / Xeon w5 / Xeon w3
英特尔至强 W-3400“专家工作站”CPU 系列
▲Intel Xeon W-3400 Sapphire Rapids 芯片属于“专家”工作站 CPU 系列。这些芯片提供多达 56 个内核、112 个线程、8 通道 DDR5-4800 内存支持和 112 个 PCIe Gen 5.0 通道。所有英特尔至强 W-3400 CPU 都支持高达 4 TB 的内存容量 (EEC/R-DIMM)。
▲从 SKU 开始,阵容中的顶级芯片是 Xeon w9-3495X,它提供 56 个内核和 112 个线程。八通道内存,该芯片包含 105 MB 的 L3 缓存,具有 1.9 GHz 的基本时钟并可提升至 4.8 GHz。CPU 的 PL1 TDP 为 350W,PL2 TDP 为 420W。解锁模式应该将 TDP 推得更高。以下是各种 Xeon w-3400 SKU 的 PL1 和 PL2 分布:
[*]Xeon w9-3400 - 350W (PL1) / 420W (PL2)
[*]Xeon w7-3400 - 300W (PL1) / 360W (PL2)
[*]Xeon w5-3400 - 270W (PL1) / 324W (PL2)
英特尔至强 W-2400“主流工作站”CPU 系列
▲Intel Xeon W-2400 Sapphire Rapids 芯片属于“主流”工作站 CPU 系列。这些芯片提供多达 24 个内核、48 个线程、4 通道 DDR5-4800 内存支持和 64 个 PCIe Gen 5.0 通道。所有 Intel Xeon W-2400 CPU 都支持高达 2 TB 的内存容量 (ECC/R-DIMM)。
▲从 SKU 开始,阵容中的顶级芯片是 Xeon w7-2495X,它提供 24 个内核和 48 个线程。四通道内存。该芯片包含 45 MB 的 L3 缓存,具有 2.5 GHz 的基本时钟和高达 4.8 GHz 的提升。CPU 的 PL1 TDP 为 225W,PL2 TDP 为 270W。解锁模式应该将 TDP 推得更高。以下是各种 Xeon w-2400 SKU 的 PL1 和 PL2 分布:
[*]Xeon w7-2400 - 225W (PL1) / 270W (PL2)
[*]Xeon w5-2400 - 200W (PL1) / 240W (PL2)
[*]Xeon w3-2400 - 165W (PL1) / 198W (PL2)
对于W790芯片组而言,简单看一眼Block Diagram就能看出这是专为Workstation而设计的,标准的HEDT定位
▲Xeon w9-3495X虽然相比Xeon Platinum 8480+或者8490H阉割了一些属性,但是其售价不到8480+的一半,也不到8490H的三分之一。
▲Xeon w7/5-2400虽然阉割很凶,但是价格是真香,毕竟64L PCIe Gen 5在这里。
目前发布的W790主板我将其划分为以下几类:
Workstation & Gaming Station
ASUS Pro WS W790-ACE & ASRock W790 WS
▲这是一组坚持走INTEL工作站方向设计的产品,没有IPMI ASPEED芯片,这类产品会迅速在CHH以ARGB全塔方式出现在各大视觉设计师、游戏主播以及高玩的桌面上,新一代10W整机海景房的最佳载体,超频和大型游戏统统拿下无障碍,土豪最爱。
Server & Workstation Deluxe
ASUS Pro WS W790-SAGE SE & Supermicro X13SWA-TF
▲这一类适合对4th Gen Intel Xeon Scalable有想法,但是又米不动Xeon Platinum 8480+或者8490H,所以退而求其次接受单路Xeon W9的用户,360水冷前置,配四张RTX 4090 24GB Blower 或者Quadro RTX A6000 Ada 48GB,然后配一个SilverStone RM44 4U Rack机箱,上导轨上机柜,主板自带ASPEED芯片,用IPMI挂远程管理妥妥的AI生产力工具。这个系列最大的优势就是八通道内存满血模式。
▲前作中我已经评测过Supermicro X13SWA-TF ,鉴于ASRock W790 WS已在日本上市,但是国内未见到货源,所以觉得写这片主板评测还是有点意思的。
1▐ 开箱1.1▐ 外观
▲包装正面
▲开盒
▲附件全家福
▲主板正面
▲主板背面
▲顶侧
▲底侧
▲左侧从左往右的IO背板接口:BIOS FlashBack按钮,Intel AX210无线网卡的IPEX天线接口,四个USB3.2 Gen1 Type-A接口,两个雷电4的Type-C接口,两个 Marvell AQtion AQC113CS的10G RJ45接口,1个Intel I225-LM 的 2.5G RJ45接口以及2个USB3.2 Gen2x2的Type-A接口,最右边是ALC897的音频接口。
▲右侧从左往右可以看到8SATA,双PCIE 8P的辅助供电,一个PCIe 4.0 x4的U.2接口,以及一个PCIE 6P的辅助供电。
▲正俯
▲逆俯1.2▐ 拆解
▲主板全拆解
▲因为本作中华擎采用了夸张的供电规模,所以VRM部分的散热使用了一体式铜管散热器配合三颗4025风扇进行散热。
▲PCB裸板
1.3▐ 供电
▲CPU顶部的这22颗DrMos供电部分主要负责VCCIN和PVCCFA_EHV_FIVRA,所以板厂对玩家宣传为20+2相。
▲对如此庞大的供电集群,22颗DrMos仅使用了一颗RAA229126 PMW芯片进行管理。Renesas RAA229126是为 Intel VR14设计的3rd PMW控制芯片,双路12相,因为太新了,以至于Renesas还没来得及放出这颗芯片的任何资料信息,ASRock就已经用上了。
▲Renesas ISL99390是90A的DrMos。RAA229126的双路分为Rail0和Rail1:Rail0配合CPU插槽顶部的20颗ISL99390负责VCCIN,两颗一并联,这就组成10相。Rail1配合最内存插槽两侧的两颗ISL99390负责PVCCFA_EHV_FIVRA,组成2相。
▲CPU插座下方可以看到4颗ISL99360以及两颗ISL69260。
Renesas ISL69260是为 Intel VR14设计的3rd PMW控制芯片,双路8相。Renesas ISL99360是额定60A的DrMos。
左边这颗ISL69260配合最左侧的1颗ISL99360负责PVCCD_HV,这是1相。右侧这颗ISL69260开启双路模式:Rail0 配合2颗ISL99360负责PVCCINFAON,这是2相;Rail1配合1颗ISL99360负责PVCCFA_EHV,这是1相。这是一套完整的Renesas intel VR14 3rd满血顶配豪华供电设计,成本极高,这么说,丐版的VR14 VCCIN设计使用了8颗ISL99390就达到1.8V 550A,这20颗可以达到1385A的理论最大输出电流。
至此供电电路部分解析完毕。
1.4▐ IC芯片
▲Thunderbolt™ 4芯片使用了intel JHL8540,占用的是PCIe Gen3x4的带宽,搭配了两颗Realtek 5452H USB-C供电芯片,完成IO挡板上两个USB4.0-C的输出,而且支持PCIe链路配置,可在BIOS里开启或关闭。
▲网卡部分使用了两颗Marvell AQC113CS芯片,提供2个10G的RJ45电口输出。
▲Intel S1123L24是2.5G的i225LM网卡芯片,提供2.5G的RJ45网络支持,ASM1074是USB HUB控制器,提供4个USB3.2 Gen1的下行输出。
1.5▐ 测试平台
1.5.1▐ Intel Xeon w9-3495X
Xeon w-3495X是Intel Sapphire Rapids Xeon Workstation 系列的旗舰。
▲Xeon w-3495X正面
▲Xeon w-3495X背面
▲Xeon w-3495X顶盖
具体参数详见下面的SKU Table:
▲这两张图除了标明价格之外也说明了盒装零售只会出现7个型号,分别是w9-3475X、w7-3465X、w4-3435X、w7-2495X、w7-2475X、w5-2465X以及w5-2455X,其他型号均没有盒装零售版,所以无论谁拿到了w9-3495X一定是散片形式。同时按照JD的销售套路,非国行盒装,自营不上架,所以JD自营是一定买不到w9-3495X的。
▲求同存异,Xeon w9-3495X和Xeon Platinum 8480+/8490H虽然都是Sapphire Rapids,但是隶属不同的产品线,对于需求是双路CPU而言,没有妥协的办法,只有选择4th Generation Intel Xeon Scalable系列,如果可以接受单路CPU的话,Xeon w9-3495X毫无疑问最具备诱惑力,56核112线程,最高4.8GHz的主频就卖5889刀。
1.5.2▐ SKHynix HMCG88AEBRA115N x8
▲内存使用了8条32GB的SKHynix HMCG88AEBRA115N
▲正面
▲背面HMCG88AEBRA115N是32GB 2RX8的DDR5-4800 ECC RDIMM内存,ECC校验是完整版的EC8而不是缩水版的EC7。
1.5.3▐ ABEE SPR360
▲水冷散热器目前可选的也只有ABEE SPR360。
▲实在不认同水冷散热器弄的一陀线的现状,SPR360就很清爽,风扇线全部量好距离直接串联,安装完成后就两根线,水泵一根,风扇一根。
▲用硅脂压CPU顶盖一下,就可以看到大致的CPU顶盖表面积大小。
▲4677扣具安装散热器是需要额外的内六角工具的,这个扳手,主板以及水冷附件中都不附送,需要自行购买。
▲当然,当你取下水冷的时候是连着CPU一起取出的,这一点不用慌,正常情况,CPU和水冷头的剥离可以使用塑料三角片助力即可。
1.5.4▐ MICRON 9300MAX 6.4TB U.2
▲作为Micron光目前的高端旗舰级NVMe企业级产品,9300MAX无疑是与INTEL P4610对敲的重头戏产品,但是镁光不太在大陆推广,导致9300MAX系列的产品信息非常少。6.4TB容量37.3TBW的写入量是其与INTEL P4610对抗的重要指标。
▲盘体全新未拆封
▲正面
▲背面
▲左侧
▲右侧
用Micron 9300MAX 6.4TB NVMe SSD进行90%满盘情况下的64GB Block Size的CrystalDiskMark 8.0.2的峰值测试。
▲90%满盘64GB数据块大小,属于比较恶劣的情况,持续读取 3510.25MB/s,持续读写3095.59MB/s,4K随机读取786705.81 IOPS,4K随机写入597952.64 IOPS。
1.5.5▐ NVIDIA Geforce RTX 4090 Found Edition
GPU选用的是京东版的NVIDIA Geforce RTX 4090Founder Edition,这就不过多赘述了。
1.5.6▐ Seasonic Prime TX-1600
▲为了尽可能稳定有效的完成测试任务,电源这次使用了Seasonic Prime TX-1600,虽然TX-1600没有ASUS ROG雷神 1600W那么花哨,但是确实他们是同级别的产品。
▲80PLUS钛金认证,电源原生支持两个PCIe5 12VHPWR供电接口。
▲开箱
▲附件全家福
▲线材包1
▲线材包2
▲PCIe5 12VHPWR供电线
▲PCIe5 12VHPWR供电接口部分
▲海韵的PCIe5 12VHPWR供电线直接定义为600W输出。
▲电源本体背面
▲电源本体正面
▲电源本体侧面
▲电源模组接口
▲45°视角
▲测试现场
1.6▐ BIOS
本次测试的BIOS版本:W790 WS 3.04
▲开机显示DDR5-4400,这是因为W790 WS是四通道内存,如果插入4条这个内存就是1DPC,如果插入8条就是2DPC,所以DDR5-4800 JEDEC内存插入后就会因为2DPC模式而降频为DDR5-4400,
▲SKHynix HMCG88AEBRA115N内存的设置页面,可以看到内存的详细JEDEC参数,SPD中的JEDEC参数有4800 5000 5200三组,最高到DDR5-5200 42 42 42 83。
▲在设置内存频率的页面可以看到最高支持到DDR5-8800。
▲直接可以将内存设置到JEDEC参数中的DDR5-5200,这个没有问题。
▲一次点亮
▲然后尝试进攻一下DDR5-5400,小参降到36 36 35 72,
▲点亮成功,下面继续进攻DDR5-5600失败,VDDQ电压加到1.5V一样,无法开机卡47和70。看起来,SKHynix HMCG88AEBRA115N并不是一款适合极限超频的内存,毕竟这是服务器版本的RDIMM内存。
▲CPU-Z定下参数,接着用AIDA64测试下内存读写。
▲DDR5-5400 36 36 35 7的内存读写测试,这大概是SKhynix HMCG88AEBRA115N这8根内存在ASRock W790 WS上的基本表现。
▲这块主板的默认性能是完全解锁TDP的,可以看到PL1和PL2已经默认打开到最高4095,PL1 TIME也是最高的448,PL2 TIME也是最高的0.438。这意味着开机即可获得解锁TDP后的CPU性能。为了测试方便区分,我将此状态标记为:Xeon w9-3495X ASRock default
这里的几个关键选项的解读为:Current Limit Override(电流限制倍频)(禁用)无电流限制倍频。(启用)可利用此选项以 1/8 A 为增量调整电流限制倍频。PL1 Power Limit(PL1 功率限制)允许配置封装功率限制 1(瓦)。超过此限制时,在一段时间后 CPU 倍频会降低。较低限制可保护 CPU 和节能,较高限制可提高性能。PL1 Time Window(PL1 时间窗口)允许配置超过长持续时间功率限制时经过多长时间 CPU 倍频降低。PL2 Power Limit(PL2 功率限制)允许配置封装功率限制 2(瓦)。超过此限制时,CPU 倍频将被立即降低。较低限制可保护 CPU 和节能,较高限制可提高性能。PL2 Time Window(PL2 时间窗口)允许配置超过长持续时间功率限制时经过多长时间 CPU 倍频降低。
▲开机进入WIN11 X64 22H2直接测试CINEBENCH R23获得72287pts ,此时TDP 502W,最高核心温度57度。
▲直接进入Intel XTU调试Voltage Offset = -0.175VPerformance Active-Core Tuning/47 to 56 = 41点击Apply测试,最终获得R23 97305的成绩,TDP 923W,CPU最高温度88度。这是全核4.1GHz的成绩。AIO360水冷差不多也就这个水准,破不了10万也很简单,毕竟是四通道不是八通道。
▲PL1 Power Limit(PL1 功率限制)=350WPL1 Time Window(PL1 时间窗口)=420W即可还原Xeon w9-3495X到默认的原始性能。为了测试方便区分,我将此状态标记为:Xeon w9-3495X ASRock 350w
▲在以上的350W状态下,我们继续进行降压调整:OC Tweaker\FIVR Configuration\Core Voltage Offset = 100-150OC Tweaker\FIVR Configuration\Offset Prefix = [-]图中我是直接降压0.15V。为了测试方便区分,我将此状态标记为:Xeon w9-3495X ASRock offset
▲开机进入WIN11 X64 22H2直接测试CINEBENCH R23获得72156pts ,此时TDP 382W,最高核心温度50度。
▲PCIe lane支持拆分,PCIE1是CPU PCIe,PCIe Gen5 x16的插槽,可以拆分如上。
▲PCIE2和5是CPU PCIe,PCIe Gen5 x8的插槽,双槽共享PCIe Gen5 x16,可以拆分如上。
▲PCIE3是CPU PCIe,PCIe Gen5 x16的插槽,可以拆分如上。PCIE4是来自PCH的PCIe Gen4 x4,所以这里就没有设置拆分选项。
▲OC Tweaker\Voltage Configuration\Voltage Mode默认是Stable Mode
▲此时,CPU VCCIN Load-line Calibration Level3有3级可选。
▲OC Tweaker\Voltage Configuration\Voltage Mode设置为OC Mode
▲此时,CPU VCCIN Load-line Calibration Level3有5级可选。
▲关于内存电压,OC Tweaker也可以很方便的设置DDR5的VDD、VDDQ和VPP电压。
▲关于Xeon w-3495X的最大睿频设计,此主板也给与定义了,CPU0和1核心为最高睿频4.8GHz,CPU2和3核心为4.7GHz,其余核心最大睿频均为4.6GHz。
2▐ 测试
▲Phoronix test suite测试套件是目前LINUX下可用的最全面的测试和基准测试平台,它提供了可扩展的框架,可以轻松地添加新的测试。该软件旨在以干净,可复制且易于使用的方式有效地执行定性和定量基准。Phoronix test suite测试套件可用于比较计算机的性能,硬件验证以及持续集成/性能管理。所以以下测试集成在Phoronix test suite框架下进行。▲phoronix-test-suite硬件与环境配置一览表Scaling Driver显示的Intel_pstate powersave也就是电源模式请务必调节为Performance模式,否则性能会跌10-20%。为确保新设备的兼容性,Linux Kernel升级到了6.3.5。
▲因为有Michael Larabel的测试数据以及phoronix-test-suite良好的同步测量能力,所以我才有了远程对比的测试对象:
AMD DAYTONA_X(RYM1009B BIOS)8 x DDR4-3200 ECC RDIMM 32GBAMD EPYC 7713 64-Core @ 2.00GHz (64 Cores / 128 Threads),AMD EPYC 7763 64-Core @ 2.45GHz (64 Cores / 128 Threads),AMD EPYC 7773X 64-Core @ 2.20GHz (64 Cores / 128 Threads),
AMD DAYTONA_X(RYM1009B BIOS)16 x DDR4-3200 ECC RDIMM 32GB2 x AMD EPYC 7713 64-Core @ 2.00GHz (128 Cores / 256 Threads),2 x AMD EPYC 7763 64-Core @ 2.45GHz (64 Cores / 128 Threads),2 x AMD EPYC 7773X 64-Core @ 2.20GHz (64 Cores / 128 Threads),
AMD Titanite_4G (RTI1002E BIOS),12 x DDR5-4800 ECC RDIMM 64GBAMD EPYC 9374F 32-Core @ 4.31GHz (32 Cores / 64 Threads),AMD EPYC 9554 64-Core @ 3.76GHz (64 Cores / 128 Threads),AMD EPYC 9654 96-Core @ 3.71GHz (96 Cores / 192 Threads),
AMD Titanite_4G (RTI1002E BIOS),24 x DDR5-4800 ECC RDIMM 64GB2 x AMD EPYC 9374F 32-Core @ 4.31GHz (32 Cores / 64 Threads),2 x AMD EPYC 9554 64-Core @ 3.76GHz (64 Cores / 128 Threads),2 x AMD EPYC 9654 96-Core @ 3.71GHz (96 Cores / 192 Threads),
Intel M50CYP2SB2U(SE5C6200.86B.0022.D08.2103221623 BIOS),8 x DDR4-3200 ECC RDIMM 32GBIntel Xeon Platinum 8362 @ 3.60GHz (32 Cores / 64 Threads),Intel Xeon Platinum 8380 @ 3.40GHz (40 Cores / 80 Threads),
Intel M50CYP2SB2U(SE5C6200.86B.0022.D08.2103221623 BIOS),16 x DDR4-3200 ECC RDIMM 32GB2 x Intel Xeon Platinum 8362 @ 3.60GHz (64 Cores / 128 Threads),2 x Intel Xeon Platinum 8380 @ 3.40GHz (80 Cores / 160 Threads),
Quanta Cloud S6Q-MB-MPS (3A10.uh BIOS),8 x DDR5-4800 ECC RDIMM 64GBIntel Xeon Platinum 8490H @ 3.50GHz (60 Cores / 120 Threads),
Quanta Cloud S6Q-MB-MPS (3A10.uh BIOS),16 x DDR5-4800 ECC RDIMM 64GB2 x Intel Xeon Platinum 8490H @ 3.50GHz (120 Cores / 240 Threads),
ASRock W790 WS(3.04 BIOS),8 x DDR5-5200 ECC RDIMM 32GBIntel Xeon w9-3945X@ 4.80GHz (56 Cores / 112 Threads),
为了方便了解ASRock W790 WS这片主板对CPU的调教能力,我们测试Xeon w9-3495X的三个状态:Xeon w9-3495X ASRock default此为开机默认的状态,不锁TDP。Xeon w9-3495X ASRock 350w此为CPU的原始TDP状态,基础TDP 350W,最大加速TDP 420W。Xeon w9-3495X ASRock offset在原始TDP状态下,降低0.15V核心电压,降压超频。
2.1▐ 深度学习
2.1.1▐ OneDNN
这是对英特尔 oneDNN 作为深度神经网络的英特尔优化库的测试,并利用其内置的 benchdnn 功能。结果是报告的总执行时间。在更名为英特尔 oneAPI 工具包的一部分之前,英特尔 oneDNN 以前称为 DNNL(深度神经网络库)和 MKL-DNN。oneDNN 是一个开源的跨平台高性能库,包含用于深度学习应用程序的基本构建模块。基于英特尔平台,oneDNN 对深度神经网络进行 op 级以及指令集级的优化。支持关键数据类型:float32、float16、bfloat16 和 int8实现了丰富的操作:convolution, matrix multiplication, pooling, batch normalization, activation functions, recurrent neural network (RNN) cells, and long short-term memory (LSTM) cells支持自动检测硬件指令,提高神经网络在指定硬件,特别是英特尔 CPU 和 GPU 上的执行速度。
2.1.1.1 数据类型:f32
▲F32中,单路之王依然是EPYC 9554,双路之王依然是Xeon Platinum 8490H 2P,双路AMD依然优化不佳。
2.1.1.2 数据类型:u8s8f32,Optimized For AVX-512
▲对于像 Intel oneDNN 这样可以大量利用 AVX-512 的工作负载,Xeon w9-3495X四通道5200内存加上降压超频也无法超越八通道的Xeon Platinum 8490H。
2.1.1.3 数据类型:bf16bf16bf16,Optimized For AVX-512 + VNNI
▲当用上AVX-512 BF16之后,Xeon w9-3495X ASRock offset轻松碾压一切对手,排名第二,仅次于双路Xeon Platinum 8490H 2P,AMD全线被性能压制。
单路1P下:结果越低越好当数据类型为F32时候:Xeon w9-3495X ASRock 350w:0.688msXeon w9-3495X ASRock default:0.736msXeon w9-3495X ASRock offset:0.709msEPYC 9554:0.595ms
当数据类型为u8f8f32时候Xeon w9-3495X ASRock 350w:0.615msXeon w9-3495X ASRock default:0.602msXeon w9-3495X ASRock offset:0.597msEPYC 9554:0.280ms
当数据类型为bf16bf16bf16时候Xeon w9-3495X ASRock 350w:0.299msXeon w9-3495X ASRock default:0.279msXeon w9-3495X ASRock offset:0.271msEPYC 9554:0.400ms
通过AVX-512 + VNNI的调整优化,Xeon w9-3495X的提升超过100%,而EPYC 9554明显在传统AVX512调整优化下收益更好,提升超过100%。Xeon w9-3495X ASRock offset明显功耗温度以及性能都达到比较好的平衡,极力推荐。
2.1.2▐ OpenVINO 2022.2.de
这是对英特尔 OpenVINO 的测试,这是一个围绕神经网络的工具包,使用其内置的基准测试支持并分析各种模型的吞吐量和延迟。项目溯源:https://github.com/openvinotoolkit/openvino
2.1.2.1 Model:face-detection-0206
基于 ResNet152 作为backbone的人脸识别模型溯源:https://github.com/openvinotoolkit/open_model_zoo/tree/117007cd4aa3d4ad911d0604beae5f6d60d3fe14/models/intel/face-detection-0206
FP16
FP16-INT8
▲这个测试无论是FP16还是FP16-INT8,双路最佳是Xeon Platinum 8490H 2P,单路之王是Xeon Platinum 8490H,而Xeon w9-3495X紧随其后。把模型的数据精度从FP16调整到FP16-INT8混合精度,以上三颗CPU的性能都出现了翻倍提升。不知为何,EPYC 9554在ResNet152 backbone下的FP16精度性能只有Xeon w9-3495X的60-70%。
2.1.2.2 Model:age-gender-recognition-retail-0013
用于同步年龄/性别识别的全卷积网络。该网络能够识别 岁范围内的人的年龄/性别。模型溯源:https://github.com/openvinotoolkit/open_model_zoo/tree/117007cd4aa3d4ad911d0604beae5f6d60d3fe14/models/intel/age-gender-recognition-retail-0013
FP16
▲单路1P:FP16Xeon w9-3495X ASRock 350w:79004.64FPSXeon w9-3495X ASRock default:76487.02FPSXeon w9-3495X ASRock offset:82163.44FPSXeon Platinum 8490H:82929.06FPSEPYC 9554:97379.56FPS这个目标检测测试单路无疑EPYC 9554更加优秀。
2.1.2.3 Model:person-detection-0106
这是一个基于 ResNet50为Backbone的Cascade R-CNN 架构的人体检测器。模型溯源:https://github.com/openvinotoolkit/open_model_zoo/tree/117007cd4aa3d4ad911d0604beae5f6d60d3fe14/models/intel/person-detection-0106
FP16
FP32
▲单路1P:FP16 结果越高越好Xeon w9-3495X ASRock 350w:22.56FPSXeon w9-3495X ASRock default:22.25FPSXeon w9-3495X ASRock offset:23.46FPSXeon Platinum 8490H:25.55FPSEPYC 9554:23.07FPS
单路1P:FP32 结果越高越好Xeon w9-3495X ASRock 350w:22.91FPSXeon w9-3495X ASRock default:22.73FPSXeon w9-3495X ASRock offset:23.47FPSXeon Platinum 8490H:25.53FPSEPYC 9554:23.12FPS
这个目标检测测试Xeon w9-3495X和EPYC 9554性能基本一致,Xeon w9-3495X的两种超频模式都追不上Xeon Platinum 8490H。只能说对于大众化的基于 ResNet50为Backbone的Cascade R-CNN 架构,两家的CPU都优化到位了。
2.1.2.4 Model:weld-porosity-detection-0001
这是一个气孔焊缝识别模型。它在捕获焊嘴的视频流上运行,并报告是否未发生焊接、产生的焊缝是否良好或焊缝是否多孔。模型溯源:https://github.com/openvinotoolkit/open_model_zoo/tree/117007cd4aa3d4ad911d0604beae5f6d60d3fe14/models/intel/weld-porosity-detection-0001
FP16
FP16-INT8
▲单路1P:FP16Xeon w9-3495X ASRock 350w:7329.8FPSXeon w9-3495X ASRock default:7345.31FPSXeon w9-3495X ASRock offset:7344.66FPSXeon Platinum 8490H:7839.51FPSEPYC 9554:4165.02FPS
单路1P:FP16-INT8Xeon w9-3495X ASRock 350w:15835.23FPSXeon w9-3495X ASRock default:15714.07FPSXeon w9-3495X ASRock offset:16633.90FPSXeon Platinum 8490H:16703.64FPSEPYC 9554:8228.7FPS
把模型的数据精度从FP16调整到FP16-INT8混合精度,以上三颗CPU的性能都出现了翻倍提升。EPYC 9554只有Xeon w9-3495X性能的50-60%。值得一提的是,双路2P相比单路1P,Xeon Platinum 8490H 2P测试性能接近1P的300%,而EPYC 9554 2P测试性能接近1P的200%,所以这一轮无需多言,Xeon Platinum 8490H 单路双路都是最佳。
2.1.2.5 Model:person-vehicle-bike-detection-2004
这是一个基于MobileNetV2 为Backbone的人、车辆、自行车检测器。模型溯源:https://github.com/openvinotoolkit/open_model_zoo/tree/117007cd4aa3d4ad911d0604beae5f6d60d3fe14/models/intel/person-vehicle-bike-detection-2004
FP16
▲单路1P:FP16Xeon w9-3495X ASRock 350w:3407.38FPSXeon w9-3495X ASRock default:3384.41FPSXeon w9-3495X ASRock offset:3552.71FPSXeon Platinum 8490H:3656.94FPSEPYC 9554:4762.61FPS这个目标检测测试无疑EPYC 9554更加优秀。
2.1.2.6 Model:machine-translation-nar-en-de-0002
这是一个基于非自回归 Transformer 拓扑结构的英德机器翻译模型。该模型是在内部数据集上训练的。模型溯源:https://github.com/openvinotoolkit/open_model_zoo/tree/117007cd4aa3d4ad911d0604beae5f6d60d3fe14/models/intel/machine-translation-nar-en-de-0002
FP16
▲单路1P:FP16 结果越高越好Xeon w9-3495X ASRock 350w:413.56FPSXeon w9-3495X ASRock default:410.93FPSXeon w9-3495X ASRock offset:436.05FPSXeon Platinum 8490H:448.59FPSEPYC 9554:449.76FPS这个测试EPYC 9554更加优秀。
2.1.3▐ Neural Magic DeepSparse 1.1
这是 Neural Magic 的 DeepSparse 的基准测试,使用其内置的 deepsparse.benchmark 实用程序和来自他们的 SparseZoo (https://sparsezoo.neuralmagic.com/) 的各种模型。溯源:https://github.com/neuralmagic/deepsparse
2.1.3.1 Model:CV Classification,ResNet-50 ImageNet - Asynchronous Multi-Stream+
▲单路1P:Xeon w9-3495X ASRock 350w:727.14 items/secXeon w9-3495X ASRock default:766.58 items/secXeon w9-3495X ASRock offset:769.62 items/secXeon Platinum 8490H:769.78 items/secEPYC 9554:843.37 items/sec单路EPYC 9554更佳。
2.1.3.2 NLP Token Classification, BERT base uncased conll2003 - Asynchronous Multi-Stream:
▲单路1P:结果越高越好Xeon w9-3495X ASRock 350w:46.97 items/secXeon w9-3495X ASRock default:46.74 items/secXeon w9-3495X ASRock offset:46.70 items/secXeon Platinum 8490H:47.45 items/secEPYC 9554:35.66 items/sec单路Xeon Platinum 8490H更佳
2.1.3.3 NLP Question Answering, BERT base uncased SQuaD 12layer Pruned90 - Asynchronous Multi-Stream
▲单路1P:Xeon w9-3495X ASRock 350w:177.62 items/secXeon w9-3495X ASRock default:183.81 items/secXeon w9-3495X ASRock offset:183.79 items/secXeon Platinum 8490H:192.99 items/secEPYC 9554:329.12 items/sec单路EPYC 9554更佳。
2.1.3.4 NLP Document Classification, oBERT base uncased on IMDB - Asynchronous Multi-Stream
▲单路1P:Xeon w9-3495X ASRock 350w:44.98 items/secXeon w9-3495X ASRock default:46.69 items/secXeon w9-3495X ASRock offset:46.76 items/secXeon Platinum 8490H:47.29 items/secEPYC 9554:35.69 items/sec单路Xeon Platinum 8490H更佳。
2.1.3.5 CV Detection,YOLOv5s COCO - Scenario: Asynchronous Multi-Stream
单路1P:结果越高越好Xeon w9-3495X ASRock 350w:213.34 items/secXeon w9-3495X ASRock default:217.27 items/secXeon w9-3495X ASRock offset:224.64 items/secXeon Platinum 8490H:318.93 items/secEPYC 9554:364.79 items/sec单路EPYC 9554更佳。
2.2▐ 分子动力学
2.2.1▐ GROMACS 2022.1
使用 water_GMX50 数据的 GROMACS(GROningen MAchine for Chemical Simulations)分子动力学包测试。此测试配置文件允许在基于 CPU 和 GPU 的 GROMACS 构建之间进行选择。
▲单路1P:结果越高越好Xeon w9-3495X ASRock 350w:7.809 Ns/dayXeon w9-3495X ASRock default:8.302 Ns/dayXeon w9-3495X ASRock offset:8.281 Ns/dayXeon Platinum 8490H:8.581 Ns/dayEPYC 9554:9.641 Ns/day单路EPYC 9554更佳.
2.2.2▐ NAND 2.14
NAMD 是一种并行分子动力学代码,专为大型生物分子系统的高性能模拟而设计。NAMD 由伊利诺伊大学香槟分校贝克曼高级科学技术研究所的理论与计算生物物理学组开发。
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:0.30138 days/nsXeon w9-3495X ASRock default:0.30487 days/nsXeon w9-3495X ASRock offset:0.26422 days/nsXeon Platinum 8490H:0.29076 days/nsEPYC 9554:0.28101 days/ns单路Xeon w9-3495X ASRock offset更佳。
2.3▐ HPC
2.3.1▐ Graph500 3.0
这是 Graph500 参考实现的基准测试,Graph500 是一个专注于数据密集型负载的 HPC 基准测试,通常在超级计算机上针对复杂的数据问题进行测试。Graph500主要强调被测硬件的通信子系统。
▲单路1P:结果越高越好Xeon w9-3495X ASRock 350w:295971000 sssp median_TEPS420424000 sssp max_TEPS
Xeon w9-3495X ASRock default299466000 sssp median_TEPS409817000 sssp max_TEPS
Xeon w9-3495X ASRock offset325217000 sssp median_TEPS425951000 sssp max_TEPS
Xeon Platinum 8490H323231000 sssp median_TEPS450856000 sssp max_TEPS
EPYC 9554351607000 sssp median_TEPS441522000 sssp max_TEPS
单路EPYC 9554性能更佳,平均TDP也更低。
2.3.2▐ High Performance Conjugate Gradient 3.1
HPCG 是高性能共轭梯度,是 Sandia National Lans 的一项新科学基准,与 HPCC 相比,它专注于使用现代现实世界工作负载进行超级计算机测试。
▲单路1P:Xeon w9-3495X ASRock 350w:28.75 GFLOPSXeon w9-3495X ASRock default:25.18 GFLOPSXeon w9-3495X ASRock offset:25.65 GFLOPSXeon Platinum 8490H:32.08 GFLOPSEPYC 9554:42.81 GFLOPS单路EPYC 9554性能更佳,平均TDP也更低。这里Xeon w9-3495X的3个结果有点倒置,看一下功耗就可以明白,Xeon w9-3495X ASRock 350w平均功耗跑到了350W,三者最高。
2.3.3▐ NAS Parallel Benchmarks 3.4
NPB,NAS Parallel Benchmarks,是美国宇航局为高端计算机系统开发的基准测试。此测试配置文件当前使用 NPB 的 MPI 版本。
▲单路1P:EPYC 9554无论在性能还是功耗已经彻底碾压Xeon w9-3495X和Xeon Platinum 8490H。
2.4▐ 编译和构建
2.4.1▐ Timed LLVM Compilation 13.0
该测试计算编译/构建 LLVM 编译器堆栈所需的时间。
2.4.1.1 Build System:Ninja
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:144.43 secondsXeon w9-3495X ASRock default:144 secondsXeon w9-3495X ASRock offset:133.44 secondsXeon Platinum 8490H:155.92 secondsEPYC 9554:117.76 155.92 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.1.1 Build System:Unix Makefiles
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:191.92 secondsXeon w9-3495X ASRock default:188.75 secondsXeon w9-3495X ASRock offset:185.56 secondsXeon Platinum 8490H:216.61 secondsEPYC 9554:180.48 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.2▐ Timed Godot Engine Compilation 3.2.3
此测试计算编译 Godot 游戏引擎所需的时间。Godot 是一种流行的开源跨平台 2D/3D 游戏引擎,使用 SCons 构建系统构建并面向 X11 平台。
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:41.66 secondsXeon w9-3495X ASRock default:40.56 secondsXeon w9-3495X ASRock offset:40.3 secondsXeon Platinum 8490H:42.13 seconds EPYC 9554:34.53 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.3▐ Timed Linux Kernel Compilation 5.18
该测试计算在默认配置下构建 Linux 内核所需的时间。
2.4.3.1 Build:defconfig
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:28.10 secondsXeon w9-3495X ASRock default:25.88 secondsXeon w9-3495X ASRock offset:26.15 secondsXeon Platinum 8490H:31.65 secondsEPYC 9554:24.73 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.3.2 build:allmodconfig
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:260 secondsXeon w9-3495X ASRock default:261.66 secondsXeon w9-3495X ASRock offset:226.89 secondsXeon Platinum 8490H:263.29 secondsEPYC 9554:185.81 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.4▐ Timed Node.js Compilation 18.8
这个测试配置文件计算了从源代码构建/编译 Node.js 本身所花费的时间。Node.js 是一个基于 Chrome V8 JavaScript 引擎构建的 JavaScript 运行时,而它本身是用 C/C++ 编写的。
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:150.18 secondsXeon w9-3495X ASRock default:146.69 secondsXeon w9-3495X ASRock offset:140.87 secondsXeon Platinum 8490H:174.87 secondsEPYC 9554:133.20 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低.
2.5▐ 渲染
2.5.1▐ blender 3.3
Blender 是一个开源 3D 创建和建模软件项目。该测试是使用各种示例文件对 Blender 的 Cycles 性能进行的测试。目前支持通过 NVIDIA OptiX 和 NVIDIA CUDA 进行的 GPU 计算,以及用于 AMD Radeon GPU 的 HIP 和用于 Intel Graphics 的 Intel oneAPI。本次测试我们使用纯CPU进行渲染。
2.5.1.1 Model:BMW27
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:26.75 secondsXeon w9-3495X ASRock default:29.48 secondsXeon w9-3495X ASRock offset:24.86 secondsXeon Platinum 8490H:25.52 secondsEPYC 9554:18.39 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.5.1.2 Model:Classroom
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:74.33 secondsXeon w9-3495X ASRock default:82.41 secondsXeon w9-3495X ASRock offset:65.42 secondsXeon Platinum 8490H:67.68 secondsEPYC 9554:46 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.5.1.3 Model:Fishy Cat
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:38.75 secondsXeon w9-3495X ASRock default:40.03 secondsXeon w9-3495X ASRock offset:34.12 secondsXeon Platinum 8490H:36.05 secondsEPYC 9554:24 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.5.1.4 Model:Barbershop
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:304 secondsXeon w9-3495X ASRock default:322 secondsXeon w9-3495X ASRock offset:268 secondsXeon Platinum 8490H:278 secondsEPYC 9554:172 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.5.1.5 Model:Barcelona
▲单路1P:结果越低越好Xeon w9-3495X ASRock 350w:97.11 secondsXeon w9-3495X ASRock default:102.68 secondsXeon w9-3495X ASRock offset:84.75 secondsXeon Platinum 8490H:88.96 secondsEPYC 9554:58.18 seconds单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.6▐ 光线追踪2.6.1▐ Embree 3.13
Intel Embree 是一组高性能光线追踪内核,用于在 CPU(和通过 SYCL 的 GPU)上执行并支持 SSE、AVX、AVX2 和 AVX-512 等指令集。Embree 还支持使用英特尔 SPMD 程序编译器 (ISPC)。
▲单路1P:这一轮解锁TDP效果卓著,Xeon w9-3495X ASRock default直接压制Xeon w9-3495X ASRock offset以及Xeon Platinum 8490H。
2.6.2▐ Intel Open Image Denoise 1.4.0
Open Image Denoise 是一个用于光线追踪的去噪库,是 oneAPI 渲染工具包的一部分。英特尔®Open Image Denoise的目的是提供一个开放,高质量,高效且易于使用的去噪库,该库可显着减少基于光线跟踪的渲染应用程序中的渲染时间。它可以滤除随机光线跟踪方法(例如路径跟踪)固有的蒙特卡洛噪声,从而将每个像素所需的样本数量减少了甚至多个数量级(取决于所需的与地面真实程度的接近程度)。一个简单但灵活的C / C ++ API确保该库可以轻松集成到大多数现有或新的渲染解决方案中。英特尔®Open Image Denoise库的核心是一组基于深度学习的高效降噪滤波器,这些滤波器经过训练可以处理从1 spp到几乎完全收敛的每个像素(spp)的各种样本。因此,它适用于预览和最终帧渲染。滤镜可以仅使用嘈杂的颜色(美感)缓冲区对图像进行降噪,或者为了保留尽可能多的细节,还可以选择使用辅助特征缓冲区(例如反照率,正常)。大多数渲染器都将此类缓冲区作为任意输出变量(AOV)支持,或者通常可以轻松实现。尽管该库附带了一组预训练的过滤器模型,但并非必须使用这些模型。为了针对特定渲染器,样本数量,内容类型,场景等优化过滤器,可以使用随附的训练工具包和用户提供的图像数据集来训练模型。英特尔®Open Image Denoise支持基于英特尔®64架构的CPU和兼容架构,并且可以在从笔记本电脑,工作站到HPC系统中的计算节点的任何设备上运行。它的效率足够高,不仅适合于脱机渲染,而且取决于所使用的硬件,还适合于交互式光线跟踪。Intel Open Image Denoise内部建立在Intel oneAPI深度神经网络库(oneDNN)之上,并自动利用Intel SSE4,AVX2和AVX-512等现代指令集来实现高去噪性能。要运行Intel Open Image Denoise,需要至少支持SSE4.1的CPU。溯源自:https://www.openimagedenoise.org/
2.6.2.1 RT.ldr_alb_nrm.3840x2160
▲单路1P:这个测试Xeon w9-3495X ASRock default和Xeon w9-3495X ASRock offset以及Xeon Platinum 8490H其实都差不多。表现基本一致。区别在于功耗和温度。
2.6.2.2 RTLightmap.hdr.4096x4096
▲单路1P:Xeon w9-3495X ASRock offset以及Xeon Platinum 8490H性能一致持平。功耗上Xeon w9-3495X ASRock offset略低。
2.6.3▐ OSPray 2.10
Intel OSPray 是一种便携式光线追踪引擎,用于高性能、高保真科学可视化。OSPray 构建了英特尔的 Embree 和英特尔 SPMD 程序编译器 (ISPC) 组件,作为 oneAPI 渲染工具包的一部分。
2.6.3.1 gravity_spheres_volume/dim_512/ao/real_time
▲单路1P:不是所有测试,解锁TDP都可以收到奇效,这个测试明显偏爱降压超频,Xeon w9-3495X ASRock offset一路压制Xeon Platinum 8490H以及EPYC 9554,仅次于EPYC 9654。
2.6.3.2 gravity_spheres_volume/dim_512/pathtracer/real_time
▲单路1P:这个测试Xeon w9-3495X ASRock offset压制Xeon Platinum 8490H,略输给EPYC 9554。
2.6.4▐ OSPRay Studio 0.11
英特尔 OSPRay Studio 是一个开源的交互式可视化和光线追踪软件包。OSPRay Studio 使用 Intel OSPRay,这是一种用于高性能、高保真可视化的便携式光线追踪引擎。OSPRay 构建了英特尔的 Embree 和英特尔 SPMD 程序编译器 (ISPC) 组件,作为 oneAPI 渲染工具包的一部分。
2.6.4.1 1 - 4K - 1 - Path Tracer
2.6.4.2 1 - 4K - 16 - Path Tracer
2.6.4.3 1 - 4K - 32 - Path Tracer
2.6.4.4 2 - 4K - 1 - Path Tracer
2.6.4.52 - 4K - 16 - Path Tracer
2.6.4.62 - 4K - 32 - Path Tracer
2.6.4.73 - 4K - 1 - Path Tracer
2.6.4.83 - 4K - 16 - Path Tracer
2.6.4.93 - 4K - 32 - Path Tracer
▲这个Intel自己写的光线追踪测试竟然一点都不黑AMD,EPYC 9554仍然比Xeon w9-3495X和Xeon Platinum 8490H要快。
2.7▐ Python
2.7.1▐ PyBench 2018-02-16
此测试配置文件报告来自 PyBench 的不同平均定时测试结果的总时间。PyBench 报告了不同函数的平均测试时间,例如 BuiltinFunctionCalls 和 NestedForLoops,这个总结果提供了对 Python 在给定系统上的平均性能的粗略估计。该测试配置文件每次运行 PyBench 20 轮。溯源:https://svn.python.org/projects/python/trunk/Tools/pybench/
▲这个测试考验的就是主频高,功耗高,所以Xeon w9-3495X ASRock default顺理成章拔的头筹。
2.7.2▐ PyPerformance 1.0.0
PyPerformance 是参考 Python 性能基准套件。
2.7.2.1 crypto_pyaes
2.7.2.2 django_template
2.7.2.3 json_loads
2.7.2.4 regex_compile
▲这个测试考验的就是主频高,其次是IPC效能高,然后是功耗高,所以Xeon w9-3495X 和EPYC 9374F轮流拔得头筹。
2.8▐ 金融量化交易
2.8.1▐ QuantLib 1.21
QuantLib 是一个围绕量化金融的开源库/框架,用于建模、交易和风险管理场景。QuantLib 是用带有 Boost 的 C++ 编写的,其内置的基准测试报告了 QuantLib Benchmark Index 基准测试得分。
▲单路1P:这个测试EPYC 9374F以高主频优势领跑
2.9▐ 压缩解压缩
2.9.1▐ 7-ZIP Compression 22.01
这是对 7-Zip 压缩/解压缩及其集成基准功能的测试
▲单路1P:AMD优势项目,核心数多评分就高
2.10▐ 国际象棋测试套件
2.10.1▐ LeelaChessZero
LeelaChessZero (lc0 / lczero) 是一个国际象棋引擎自动化 vian 神经网络。此测试配置文件可用于 OpenCL、CUDA + cuDNN 和 BLAS(基于 CPU)基准测试。溯源:https://github.com/LeelaChessZero/lc0
▲但凡涉及神经网络的计算,Intel总是会让你看到奇迹。本以为这个项目会完全是INTEL天下,结果被EPYC 9374F 2P双路拔得头筹。
2.10.2▐ asmFish 2018-07-23
asmFish 是用 Assembly 编写的高级国际象棋基准测试。
▲典型核心数定胜负的项目
2.11▐ CPU功耗统计
▲所有测试结束,系统统计了以下平均CPU功耗,Xeon w9-3495X ASRock offset在全程测试中成绩大部分领先于Xeon w9-3495X ASRock default,同样功耗也比Xeon w9-3495X ASRock default低。
2.12▐ 数据分析
对于机器学习类测试,我做了一下数据回归统计:
无论单路双路,Intel Xeon Platinum 8490H一骑绝尘,最佳性能,单路其次是Xeon w9-3495X ASRock offset,可以发现降压超频效果明显,Xeon w9-3495X ASRock default这种默认解功耗锁的性能在这个环节并不能得到较好的发挥,单路仅排名第四!
对于分子动力学类测试的数据回归统计:
单路EPYC 9654最佳性能,Intel Xeon Platinum 8490H只能排第三,Xeon w9-3495X ASRock offset第四,Xeon w9-3495X ASRock default仅第五。降压超频效果在这轮同样优于解锁功耗超频。
我们接着看下A黑的Intel API类测试的数据回归统计:
这一轮即使intel再如何优化,也无法阻挡EPYC 9654的单路王座,但同时,双路王座也被Intel Xeon Platinum 8490H妥妥拿下,Xeon w9-3495X ASRock offset发挥神勇,直接拿下单路第二,超越了EPYC 9554以及Intel Xeon Platinum 8490H,而Xeon w9-3495X ASRock default得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。
CPU渲染类得数据回归统计:
CPU渲染类测试一直是INTEL软肋,因为很公平,谁核心多谁主频高,谁就厉害,本轮其他结果都很公平,除了单路56核的Xeon w9-3495X ASRock offset超越了60核Intel Xeon Platinum 8490H,此类测试降压超频对于IPC的提升巨大。而Xeon w9-3495X ASRock default得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。
科学计算类测试的数据回归统计:
此类测试比渲染类测试更加公平,核心数权重要大于主频提升,所以单路56核的Xeon w9-3495X ASRock offset自然不是60核Intel Xeon Platinum 8490H的对手,单路排名第四,而Xeon w9-3495X ASRock default得单路排名仅仅第五。降压超频效果在这轮同样优于解锁功耗超频。
高性能计算类测试的数据回归统计:
此类测试一样是公平类测试,核心数权重要大于主频提升,单路56核的Xeon w9-3495X ASRock offset自然不是60核Intel Xeon Platinum 8490H的对手,单路排名第四,而Xeon w9-3495X ASRock default得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。
Python类测试的数据回归统计:
这类测试根本跑不满TDP,追求的是最大主频值,根据IPC效能判定,那么此轮,无论单路双路,Xeon w9-3495X ASRock 350w的原始性能反而是最好的,其次Xeon w9-3495X ASRock default解锁TDP超频,再次是Xeon w9-3495X ASRock offset降压超频,然后才轮的上EPYC 9374F双路。很明显,如果是Python类应用,那么Xeon w9-3495X确属不二选择。
创作者类测试的数据回归统计:
对创作者而言,双路中60核心的Intel Xeon Platinum 8490H要优于64核心EPYC 9554,单路中56核心的Xeon w9-3495X ASRock offset要优于60核心的Intel Xeon Platinum 8490H,仅次于EPYC 9554,排名第三,而Xeon w9-3495X ASRock default得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。
编译类测试的数据回归统计:
无论单路双路,一颗EPYC 9654压制Intel全家,单路性能Xeon w9-3495X ASRock offset排名第三,仅次于EPYC 9554,Xeon w9-3495X ASRock default得单路排名仅仅第四,降压超频效果在这轮同样优于解锁功耗超频。
2.13▐ 温度分析
对测试全程的温度我进行了监控统计,平均温度最高的是Xeon w9-3495X ASRock offset,在56.97度,最高温度68。而Xeon w9-3495X ASRock default平均温度在56.97度,最高温度75度。不得不说,ABEE SPR360的温度压制效果是非常出色的。
3▐ 总结
1、ASRock的默认解锁功耗,在正常应用层面的效果并不好,当然也有部分测试有正面效果,大部分测试不如降压超频,部分测试甚至不如350W的原始效能。当然我也可以理解这种做法,毕竟四通道,不做点激进的操作怎么在市场去争?
2、ASRock的高端差异化设计思路有点偏激,无论ASRockRack怎么说,既然W790拿过来做,就要做八通道,你做个四通道,难道让ASRockRack去做八通道版本?
3、BMC IPMI是灵魂,不要只看到眼前的那么点GAMING市场,因为它很快会持续缩小,做WS或者Server主板一定要去做BMC IPMI,连ASUS PRO WS都意识到这个问题的重要性了。ASRockRack产能不够的时候,一样会用ASRock去交单。IPMI+TB4 差异化不就出来了吗?
4、做PCIEX16插槽布局一定要考虑7槽位,你甚至可以只做四条出来,但请一定要考虑到双槽涡轮卡上四张,本作的槽位只能满足三张双槽涡轮卡,这就很不合理,但凡多卡还是会优先考虑2张或者4张可以NVLINK的卡,比如TESLA A100 80GB,或者QUADRO A6000 48GB,抑或RTX 3090 Blower 24GB,这些都是需要双卡NVLINK的,所以设计的时候就要考虑4张双槽卡的占位问题,因为这类客户四卡一定会上两组NVLINK!RTX 4090或者QUADRO A6000 ADA这种不支持NVLINK的卡,他的选择面反而宽很多, 什么主板都能上。挂着WS的名头就要做WS的事情,不要挂着WS名头心里想着GAMING。玩GAMING的人配一台PC 5W到头了,但是CDN的玩主一张TESLA A100 80G就是10万了。
4、因为AI计算的热点爆开,现在11槽的机箱越来越多了,其实在主板的底部可以设计STX的侧向PCIE槽,可以插入一块转接子卡,将PCIE X16拆分X8 X8或者X4 X4 X8,这种操作,在服务器主板领域很常见,通过这种操作就可以让主板的PCIE插槽得到扩展,或者用户自己用软排线也可以完成拓展,这又是一个差异化的体现。用户可以在全塔8槽机箱里使用四卡,也可以在11槽的机箱使用5卡。
5、ASRock W790 WS虽然有诸多的小缺点,但不失为一块优秀的主板,TB4+双10G电口网卡+PCIe4.0 x4 U.2+wifi的配置豪华大气上档次,性能稳定,在测试中也可以看到即使四通道的性能,也足以和8通道的Intel Xeon Platinum 8490H叫板,这个产品能让GAMING玩家和CREATOR看看满满的诚意,但是在我看来ASRock还能做的更好,更完美。
感谢观看!
这个产品能让GAMING玩家和CREATOR看看满满的诚意 太专业了,眼馋显卡[偷笑] 都是很强得配置啊 牛逼,测试部分密密麻麻看不懂的东西,只知道应该很专业。 太多看不懂的数据了,不过肯定是很牛逼的 6不过这需求一般都直接定制了吧 超出理解范围了,点个赞 就是牛逼 楼主是博士吧? 高科技啊!好多测试数据看不懂 强大的性能,每次看大佬的文章都要看好几遍才能弄懂,还需要知乎协助,不过真心长知识,现在我自己就是X570+ECC内存,确实稳定很多 用过x13swa-tf,帮顶 不明觉厉[恶魔] 好详细的评测,谢谢分享 感谢分享狠货 不明白ASUS两块板不给上TB4的原因是什么,明明定位是Creator,不给板载好歹给个TB4接针都行
TB刚需的估计只能选华擎了,但是没给全八通道还是很迷 测试项目太专业了,膜拜 这要换4张h100,性能再上一个台阶?[偷笑]当然成本上天了[生病] Zanton寝不足 发表于 2023-6-23 11:49
不明白ASUS两块板不给上TB4的原因是什么,明明定位是Creator,不给板载好歹给个TB4接针都行
TB刚需的估计只 ...
确实,没有雷电4很遗憾。。。。 自古华擎出妖板.不知道这款华擎旗下的服务器主板长时间使用会如何.希望是主板里的意大利炮. 希望老哥以后有可能的话加入一些有限元仿真的测试 测试太仔细了,好多都看不懂 浅梦 发表于 2023-6-22 10:23
太专业了,眼馋显卡
其实实话实说,我后悔弄两张4090公版了,要是两张涡轮或许好点,如果是RTX A6000 48G就完美了 微木洋大 发表于 2023-6-22 10:38
都是很强得配置啊
还行,对于游戏机算强而已 zxpcgl 发表于 2023-6-22 13:36
牛逼,测试部分密密麻麻看不懂的东西,只知道应该很专业。
非常感谢,看不懂还来支持的朋友 炎夏 发表于 2023-6-22 15:12
太多看不懂的数据了,不过肯定是很牛逼的
非常感谢,看不懂还来支持的朋友,ORZ Livid 发表于 2023-6-23 21:34
希望老哥以后有可能的话加入一些有限元仿真的测试
这个简单,拉个GITHUB加个脚本就行 voodoosys 发表于 2023-6-23 19:07
自古华擎出妖板.不知道这款华擎旗下的服务器主板长时间使用会如何.希望是主板里的意大利炮. ...
ASRockRack是很好的服务器品牌,质量很好,市场份额这个不好说,毕竟服务器ASUS ASROCKRACK加一起也没有SUPERMICRO强 Zanton寝不足 发表于 2023-6-23 11:49
不明白ASUS两块板不给上TB4的原因是什么,明明定位是Creator,不给板载好歹给个TB4接针都行
TB刚需的估计只 ...
ASUS PRO WS没上TB4很好理解,因为不是ROG,他没考虑到你会放在桌面上用,他以为你放在RACK机架上机柜的,所以TB4他不是很CARE。ASROCK WS这个4CH估计是ASROCKRACK还会出一个8CH的板,所以让道
页:
[1]
2