intel Sapphire Rapids 四代 8468V 简易测试
本帖最后由 kevinlin 于 2023-2-14 12:02 编辑今天到了 Intel Xeon四代 8468V 随便测测 给有需要的朋友参考
再加个6458Q 的随便测试[傻笑]
看这个CPUZ单核心,架构升级的作用太大了 大佬试过启用那些加速模块吗,民用市场有没有啥可以玩那些加速模块的场景[傻笑] 所以2x48c的r23能跑8万7,轮子说的6万的那个是几核的[傻笑] 本帖最后由 用户 于 2023-2-14 09:15 编辑
这货avx512和amx fp32和bf16算力能有多少?能不能直接用内存跑transformer 跑渲染时候功耗电压频率大概多少。算下每瓦特分数有没提升。[睡觉] aibo 发表于 2023-2-14 09:11
所以2x48c的r23能跑8万7,轮子说的6万的那个是几核的
56吧 单路 。。。楼主这个是双路 aibo 发表于 2023-2-14 09:11
所以2x48c的r23能跑8万7,轮子说的6万的那个是几核的
看来真得是56核。我本来估算是12400 6大核1.2万分 120瓦,48核个降频怎么也能350瓦凹出6万。 单核比我e5v2洋垃圾高了一倍[偷笑] 1165G7:小老弟你行不行啊 用户 发表于 2023-2-14 09:12
这货avx512和amx fp32和bf16算力能有多少?能不能直接用内存跑transformer
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的算力再乘2.
换算到AMX ,假设频率不变,则再各乘16. gtv 发表于 2023-2-15 00:21
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的 ...
乘16够狠,不敢信。n计算卡的bf16 tensor好像才1000t,这货能有200t?到时看看工作站上能给多少 性能真强大,价格更强大,[无奈]。 还是6458好一些,单核多核都更强。不过8468V的96C没跑过64C属实不应该。
顺便6458这个多核已经超过96C的EPYC 7R32双路了,单核更是薄纱,不过功耗和价格也“薄纱”就是了hhh 本帖最后由 Flanker 于 2023-2-15 08:24 编辑
这代就想看看6458q和9374f的实测差距
剩下大部分对位产品9004靠频率就压死了,牙膏的多核boost频率实在太低 缓存大 游戏好 __|__ 发表于 2023-2-15 01:10
还是6458好一些,单核多核都更强。不过8468V的96C没跑过64C属实不应该。
顺便6458这个多核已经超过96C的EP ...
双路7R32跑分和楼主这个差不多,6458一个32C怎么个薄纱…… 用户 发表于 2023-2-15 00:31
乘16够狠,不敢信。n计算卡的bf16 tensor好像才1000t,这货能有200t?到时看看工作站上能给多少 ...
参考的是 https://www.intel.com/content/www/us/en/products/docs/accelerator-engines/advanced-matrix-extensions/ai-solution-brief.html page4 里的 Figure 6.
AMX本质上就是tensor core. xeon 也开始带DSA了. 本帖最后由 赫敏 于 2023-2-14 23:26 编辑
用户 发表于 2023-2-13 20:20
看来真得是56核。我本来估算是12400 6大核1.2万分 120瓦,48核个降频怎么也能350瓦凹出6万。 ...
56核才6w那真是菜的抠脚。不过这代应该是功耗不够,350w*2的64核反杀330w*2的96核了
也难怪Intel只字不提传统cpu性能,一直在吹那几个加速卡因为实在拿不出手功耗还高 gtv 发表于 2023-2-14 11:21
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的 ...
现在amx连指令集都不算,因为只有一条指令就是矩阵乘法。光一条就能跑一个框架吗 本帖最后由 用户 于 2023-2-15 14:28 编辑
赫敏 发表于 2023-2-15 12:19
现在amx连指令集都不算,因为只有一条指令就是矩阵乘法。光一条就能跑一个框架吗 ...
当年我买了两块titan v,单精度14T,就是看有一个120T的fp16 tensor。最后测出来跑模型有tensor比没tensor只快1.5~2倍。现在跑fp16的模型好像还能和3090拼一拼。
比较好奇spr跑模型的速度。前两天听朋友说拿7950x跑过transformer inference,因为有avx512效率还不错。用gpu凑100g+内存还是挺贵的。自己做模型的话model parallel的代码也不太好写。现在想跑100g+模型想便宜也得4张3090,如果cpu的话插个128g内存,就看算力带宽能不能跟上。 赫敏 发表于 2023-2-15 12:19
现在amx连指令集都不算,因为只有一条指令就是矩阵乘法。光一条就能跑一个框架吗 ...
这就是onednn的事情了 gtv 发表于 2023-2-15 00:21
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的 ...
linux下实测,单核AMX的INT8有5T,bf16是2.5T,多核心自己算 gtv 发表于 2023-2-15 21:56
这就是onednn的事情了
AMX只负责矩阵运算,剩余的,还有2个AVX512单元,pytorch和tensorflow框架都支持了 本帖最后由 kevinlin 于 2023-2-15 23:32 编辑
个人的感觉这些软件只能参考而已 并不是十分准确测试分数 CPUZ 8470Q 52C 104T>8458V 48C 96T>6458Q 32C 64T然而 R23 却相反 6458Q>8458V>8470Q当然 这些功能没有开启 英特尔® AMX 英特尔® IAA 英特尔® QAT 英特尔® DLB 英特尔® DSA 英特尔® SGX 英特尔® HBM 至于开启后有多大的差异 让专业人员去测试 gtv 发表于 2023-2-15 00:21
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的 ...
8468V这货计算里面的 64怎么来的,AVX的512位宽 / FP32的32位 * 该型号的 FMA数量2 = 32啊 跑r23的功耗分别是多少? allenxml 发表于 2023-2-15 23:40
8468V这货计算里面的 64怎么来的,AVX的512位宽 / FP32的32位 * 该型号的 FMA数量2 = 32啊 ...
1fma=1mul+1add, conv操作最后累加也是同理, 都是算2次计算的 有没有8490H的测试
目前INTEL阵营多核最强
60核心120线程
这性能是和功耗线性相关的吗[震惊]
页:
[1]
2