os39000 发表于 2024-12-12 19:47

8581C和1080ti单精度浮点都在10TFLOPS左右

那么可以用8581C做推理用吗?
双路主板还有双倍享受,20TFLOPS。
网络上8581C的消息太少了,reddit也没什么信息,反倒b站有些装机视频。

momo77989724 发表于 2024-12-12 19:54

本帖最后由 momo77989724 于 2024-12-12 19:57 编辑

双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。

我感觉8575C更好 8581只是因为便宜 蛋蛋多。他们估计有大量的货 单价低。。不过这玩意好像能切核心数量 工作模式 也能改成48核的 全核频率会变高

os39000 发表于 2024-12-12 20:18

momo77989724 发表于 2024-12-12 19:54
双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。


对,卖家声称可以三种工作模式:48-52-60.
60的全核2.9。
8575C要超10000了

momo77989724 发表于 2024-12-12 20:22

os39000 发表于 2024-12-12 20:18
对,卖家声称可以三种工作模式:48-52-60.
60的全核2.9。
8575C要超10000了

385 普通X13也跑不满 我在找 350瓦好用的U

不行就限制350瓦。。。

还有个8555C 也便宜不过这个跑分就低了   8555一档 8581一档8575又是另一档。。。

银月 发表于 2024-12-12 20:22

8581C两颗要tm小两万,你买个4090不直接秒了?

zhuifeng88 发表于 2024-12-12 20:24

你跑推理为什么要用单精....8581c那全核3g 180t的bf16 gemm放着不用...

os39000 发表于 2024-12-12 20:41

momo77989724 发表于 2024-12-12 20:22
385 普通X13也跑不满 我在找 350瓦好用的U

不行就限制350瓦。。。


技嘉有两款C741

os39000 发表于 2024-12-12 20:42

银月 发表于 2024-12-12 20:22
8581C两颗要tm小两万,你买个4090不直接秒了?

显存,8581C容易搞定

os39000 发表于 2024-12-12 20:43

zhuifeng88 发表于 2024-12-12 20:24
你跑推理为什么要用单精....8581c那全核3g 180t的bf16 gemm放着不用...

这消息不要太好[可爱]

zhuifeng88 发表于 2024-12-12 20:46

本帖最后由 zhuifeng88 于 2024-12-12 21:51 编辑

os39000 发表于 2024-12-12 20:43
这消息不要太好

不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6代大xeon真香的地方在单独跑prefill(比如处理超长context)或者海量并发的generation, 因为kvcache大小不值钱

说白了这个算力自己玩玩程度的部署很难有效利用起来, 大部分自己玩玩的人不会跑prefill为主的任务, 也不会有海量吞吐

而且部署方式和常规平台差异比较大, 没充足的相关经验不建议直接上车这么玩....


----
我没8581c, 附个8488c的裸算力测试和超长context的prefill速率测试(qwen2.5-72b-instruct, bf16 weight, bf16 kv cache, prompt长度131071)给你, 这个prefill速率差不多有4卡L20的一半, 但是同样预算下kv cache大小可以给出好几TB, 非常适合vector search不好处理, kv cache稀疏存储效果不行, 得靠巨大kv cache强行作为长期记忆的系统

momo77989724 发表于 2024-12-12 21:56

os39000 发表于 2024-12-12 20:41
技嘉有两款C741

不想买技嘉 刚上车了一个MZ33AR1 想换回超微哈哈

klxq15 发表于 2024-12-13 12:54

zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

这个是单路的结果吗

uprit 发表于 2024-12-13 13:16

os39000 发表于 2024-12-12 20:42
显存,8581C容易搞定

用内存的吗?能多少通道呀?就算8通道也没多少带宽啊。
感觉还不如搞8卡2080ti 22G,差不多也是2w,带宽能有6、7百GB,显存也有176GB

用户 发表于 2024-12-13 13:45

本帖最后由 用户 于 2024-12-13 13:54 编辑

zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

卧槽,大佬多发点这方面评测.,我盯了amx好久了。这玩意transformers库支不支持,要怎么用?除了设成bf16,还需不需要flash_attn或者其他的库?

自己玩一般prefill是大头吧,prompt都是几十上百k token进去,出来也就几百token。我之前估算好像性能只有A100的几分之一啊,纯算力来讲可能不如3090。是怎么打赢L20的?


我自己还有一堆轻松用百GB内存的小模型要跑,只可惜bf16精度不太够会出错

zhuifeng88 发表于 2024-12-13 15:08

klxq15 发表于 2024-12-13 12:54
这个是单路的结果吗

是单路的

zhuifeng88 发表于 2024-12-13 15:20

本帖最后由 zhuifeng88 于 2024-12-13 15:25 编辑

用户 发表于 2024-12-13 13:45
卧槽,大佬多发点这方面评测.,我盯了amx好久了。这玩意transformers库支不支持,要怎么用?除了设成bf16 ...

正经部署就不要想着transformers了, 不管谁家硬件跑的性能都离上限差很远

bf16 gemm dense算力a100是300t多点, 3090是70t, l20是120t, 这块纯算力哪来可能不如3090...

klxq15 发表于 2024-12-13 22:51

所以这个CPU是不是跑MoE模型性能很棒

网仙 发表于 2024-12-14 01:33

momo77989724 发表于 2024-12-12 19:54
双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。


我发现8573C可以睿频到4.2G呢,这个是不是综合性能更有意义呢?

用户 发表于 2024-12-14 01:40

zhuifeng88 发表于 2024-12-13 15:20
正经部署就不要想着transformers了, 不管谁家硬件跑的性能都离上限差很远

bf16 gemm dense算力a100是300 ...

n卡算力我好像看成fp16那一行了。这么看来spr确实还是有性价比。之前看到只要1000刀的60核es,不过犹豫了一下,因为emr/gnr号称是1.3x/2.6x的提升,想着等等捡新u的垃圾。

你都是怎么部署的,能拿到token概率和梯度吗?

momo77989724 发表于 2024-12-14 09:55

本帖最后由 momo77989724 于 2024-12-14 10:17 编辑

网仙 发表于 2024-12-14 01:33
我发现8573C可以睿频到4.2G呢,这个是不是综合性能更有意义呢?

单核稍微高点 总体差不多好像

反正卖这个东西的贩子定价 肯定有他道理 除非特别偏门的型号

网仙 发表于 2024-12-14 10:55

momo77989724 发表于 2024-12-14 09:55
单核稍微高点 总体差不多好像

反正卖这个东西的贩子定价 肯定有他道理 除非特别偏门的型号 ...

刚看了一下,单核高一点,但是全核睿频低一点,只有2.9,反映在全核心满负荷训练时,跟睿频3.1的比,那就差出不少了。

momoka 发表于 2024-12-14 11:19

8581C   60C12T300M L3才 两个桌面热门U的价格[震惊]。。。。。

momo77989724 发表于 2024-12-14 12:03

网仙 发表于 2024-12-14 10:55
刚看了一下,单核高一点,但是全核睿频低一点,只有2.9,反映在全核心满负荷训练时,跟睿频3.1的比,那就 ...

对啊那些人不比我们精多了

momo77989724 发表于 2024-12-14 12:06

momoka 发表于 2024-12-14 11:19
8581C   60C12T300M L3才 两个桌面热门U的价格。。。。。

U实际上投入并不大 除非你买最高的型号 或者行货 。。。
主板内存价格高。。。来一套512内存还好1T的话那价格酸爽

网仙 发表于 2024-12-14 12:19

momo77989724 发表于 2024-12-14 12:06
U实际上投入并不大 除非你买最高的型号 或者行货 。。。
主板内存价格高。。。来一套512内存还好1T的话 ...

请教下,这种马来CPU,在海鲜市场存量好像非常之大。而且都是正式版,价格比行货便宜太多,还是很超值的。
除了来源本身有点问题之外,在使用方面有什么问题没有?比如稳定性之类

momo77989724 发表于 2024-12-14 13:26

网仙 发表于 2024-12-14 12:19
请教下,这种马来CPU,在海鲜市场存量好像非常之大。而且都是正式版,价格比行货便宜太多,还是很超值的 ...

马来本身很多是有磕碰
有部分是要报废的 流出来的   并不是正经渠道

正常装机你也不会弄成这成色啊。。。

而且这东西 短期看不出啥 有可能有内伤 一段时间后就出问题完全看运气   我有一颗就是用了2年了突然掉通道

差价不大 就买个拆机新不要有明显划痕 伤痕的

os39000 发表于 2024-12-14 19:22

zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

大佬这么说,意思是性价比低甚至压根跑不起来,那就继续折腾我的现有硬件好了,再加个
1600W电源就行,就是显存加起来也就48GB,不像想象中可以随便续杯。

os39000 发表于 2024-12-14 19:23

momo77989724 发表于 2024-12-12 21:56
不想买技嘉 刚上车了一个MZ33AR1 想换回超微哈哈

我没看到EPYC的浮点评测数据

os39000 发表于 2024-12-14 19:23

klxq15 发表于 2024-12-13 22:51
所以这个CPU是不是跑MoE模型性能很棒

这正是我发帖的目的

os39000 发表于 2024-12-14 19:25

momoka 发表于 2024-12-14 11:19
8581C   60C12T300M L3才 两个桌面热门U的价格。。。。。

[可爱]摸摸卡
页: [1] 2 3
查看完整版本: 8581C和1080ti单精度浮点都在10TFLOPS左右