Chiphell - 分享与交流用户体验

标题: 8581C和1080ti单精度浮点都在10TFLOPS左右 [打印本页]

作者: os39000    时间: 2024-12-12 19:47
标题: 8581C和1080ti单精度浮点都在10TFLOPS左右
那么可以用8581C做推理用吗?
双路主板还有双倍享受,20TFLOPS。
网络上8581C的消息太少了,reddit也没什么信息,反倒b站有些装机视频。
作者: momo77989724    时间: 2024-12-12 19:54
本帖最后由 momo77989724 于 2024-12-12 19:57 编辑

双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。

我感觉8575C更好 8581只是因为便宜 蛋蛋多。他们估计有大量的货 单价低。。不过这玩意好像能切核心数量 工作模式 也能改成48核的 全核频率会变高

作者: os39000    时间: 2024-12-12 20:18
momo77989724 发表于 2024-12-12 19:54
双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。

对,卖家声称可以三种工作模式:48-52-60.
60的全核2.9。
8575C要超10000了
作者: momo77989724    时间: 2024-12-12 20:22
os39000 发表于 2024-12-12 20:18
对,卖家声称可以三种工作模式:48-52-60.
60的全核2.9。
8575C要超10000了

385 普通X13也跑不满 我在找 350瓦好用的U  

不行就限制350瓦。。。

还有个8555C 也便宜  不过这个跑分就低了   8555一档 8581一档  8575又是另一档。。。
作者: 银月    时间: 2024-12-12 20:22
8581C两颗要tm小两万,你买个4090不直接秒了?
作者: zhuifeng88    时间: 2024-12-12 20:24
你跑推理为什么要用单精....8581c那全核3g 180t的bf16 gemm放着不用...
作者: os39000    时间: 2024-12-12 20:41
momo77989724 发表于 2024-12-12 20:22
385 普通X13也跑不满 我在找 350瓦好用的U  

不行就限制350瓦。。。

技嘉有两款C741
作者: os39000    时间: 2024-12-12 20:42
银月 发表于 2024-12-12 20:22
8581C两颗要tm小两万,你买个4090不直接秒了?

显存,8581C容易搞定
作者: os39000    时间: 2024-12-12 20:43
zhuifeng88 发表于 2024-12-12 20:24
你跑推理为什么要用单精....8581c那全核3g 180t的bf16 gemm放着不用...

这消息不要太好
作者: zhuifeng88    时间: 2024-12-12 20:46
本帖最后由 zhuifeng88 于 2024-12-12 21:51 编辑
os39000 发表于 2024-12-12 20:43
这消息不要太好


不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6代大xeon真香的地方在单独跑prefill(比如处理超长context)或者海量并发的generation, 因为kvcache大小不值钱

说白了这个算力自己玩玩程度的部署很难有效利用起来, 大部分自己玩玩的人不会跑prefill为主的任务, 也不会有海量吞吐

而且部署方式和常规平台差异比较大, 没充足的相关经验不建议直接上车这么玩....


----
我没8581c, 附个8488c的裸算力测试和超长context的prefill速率测试(qwen2.5-72b-instruct, bf16 weight, bf16 kv cache, prompt长度131071)给你, 这个prefill速率差不多有4卡L20的一半, 但是同样预算下kv cache大小可以给出好几TB, 非常适合vector search不好处理, kv cache稀疏存储效果不行, 得靠巨大kv cache强行作为长期记忆的系统
(, 下载次数: 79) (, 下载次数: 74)
作者: momo77989724    时间: 2024-12-12 21:56
os39000 发表于 2024-12-12 20:41
技嘉有两款C741

不想买技嘉 刚上车了一个MZ33AR1 想换回超微哈哈
作者: klxq15    时间: 2024-12-13 12:54
zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

这个是单路的结果吗
作者: uprit    时间: 2024-12-13 13:16
os39000 发表于 2024-12-12 20:42
显存,8581C容易搞定

用内存的吗?能多少通道呀?就算8通道也没多少带宽啊。
感觉还不如搞8卡2080ti 22G,差不多也是2w,带宽能有6、7百GB,显存也有176GB
作者: 用户    时间: 2024-12-13 13:45
本帖最后由 用户 于 2024-12-13 13:54 编辑
zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...


卧槽,大佬多发点这方面评测.,我盯了amx好久了。这玩意transformers库支不支持,要怎么用?除了设成bf16,还需不需要flash_attn或者其他的库?

自己玩一般prefill是大头吧,prompt都是几十上百k token进去,出来也就几百token。我之前估算好像性能只有A100的几分之一啊,纯算力来讲可能不如3090。是怎么打赢L20的?


我自己还有一堆轻松用百GB内存的小模型要跑,只可惜bf16精度不太够会出错
作者: zhuifeng88    时间: 2024-12-13 15:08
klxq15 发表于 2024-12-13 12:54
这个是单路的结果吗

是单路的
作者: zhuifeng88    时间: 2024-12-13 15:20
本帖最后由 zhuifeng88 于 2024-12-13 15:25 编辑
用户 发表于 2024-12-13 13:45
卧槽,大佬多发点这方面评测.,我盯了amx好久了。这玩意transformers库支不支持,要怎么用?除了设成bf16 ...


正经部署就不要想着transformers了, 不管谁家硬件跑的性能都离上限差很远

bf16 gemm dense算力a100是300t多点, 3090是70t, l20是120t, 这块纯算力哪来可能不如3090...
作者: klxq15    时间: 2024-12-13 22:51
所以这个CPU是不是跑MoE模型性能很棒
作者: 网仙    时间: 2024-12-14 01:33
momo77989724 发表于 2024-12-12 19:54
双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。

我发现8573C可以睿频到4.2G呢,这个是不是综合性能更有意义呢?
作者: 用户    时间: 2024-12-14 01:40
zhuifeng88 发表于 2024-12-13 15:20
正经部署就不要想着transformers了, 不管谁家硬件跑的性能都离上限差很远

bf16 gemm dense算力a100是300 ...

n卡算力我好像看成fp16那一行了。这么看来spr确实还是有性价比。之前看到只要1000刀的60核es,不过犹豫了一下,因为emr/gnr号称是1.3x/2.6x的提升,想着等等捡新u的垃圾。

你都是怎么部署的,能拿到token概率和梯度吗?
作者: momo77989724    时间: 2024-12-14 09:55
本帖最后由 momo77989724 于 2024-12-14 10:17 编辑
网仙 发表于 2024-12-14 01:33
我发现8573C可以睿频到4.2G呢,这个是不是综合性能更有意义呢?


单核稍微高点 总体差不多好像

反正卖这个东西的贩子定价 肯定有他道理 除非特别偏门的型号
作者: 网仙    时间: 2024-12-14 10:55
momo77989724 发表于 2024-12-14 09:55
单核稍微高点 总体差不多好像

反正卖这个东西的贩子定价 肯定有他道理 除非特别偏门的型号 ...

刚看了一下,单核高一点,但是全核睿频低一点,只有2.9,反映在全核心满负荷训练时,跟睿频3.1的比,那就差出不少了。
作者: momoka    时间: 2024-12-14 11:19
8581C   60C12T  300M L3才 两个桌面热门U的价格。。。。。
作者: momo77989724    时间: 2024-12-14 12:03
网仙 发表于 2024-12-14 10:55
刚看了一下,单核高一点,但是全核睿频低一点,只有2.9,反映在全核心满负荷训练时,跟睿频3.1的比,那就 ...

对啊  那些人不比我们精多了

作者: momo77989724    时间: 2024-12-14 12:06
momoka 发表于 2024-12-14 11:19
8581C   60C12T  300M L3才 两个桌面热门U的价格。。。。。

U实际上投入并不大 除非你买最高的型号 或者行货 。。。
主板内存价格高。。。来一套512内存还好  1T的话那价格酸爽
作者: 网仙    时间: 2024-12-14 12:19
momo77989724 发表于 2024-12-14 12:06
U实际上投入并不大 除非你买最高的型号 或者行货 。。。
主板内存价格高。。。来一套512内存还好  1T的话 ...


请教下,这种马来CPU,在海鲜市场存量好像非常之大。而且都是正式版,价格比行货便宜太多,还是很超值的。
除了来源本身有点问题之外,在使用方面有什么问题没有?比如稳定性之类
作者: momo77989724    时间: 2024-12-14 13:26
网仙 发表于 2024-12-14 12:19
请教下,这种马来CPU,在海鲜市场存量好像非常之大。而且都是正式版,价格比行货便宜太多,还是很超值的 ...

马来本身很多是有磕碰  
有部分是要报废的 流出来的   并不是正经渠道

正常装机你也不会弄成这成色啊。。。

而且这东西 短期看不出啥 有可能有内伤 一段时间后就出问题  完全看运气   我有一颗就是用了2年了突然掉通道  

差价不大 就买个拆机新  不要有明显划痕 伤痕的


作者: os39000    时间: 2024-12-14 19:22
zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

大佬这么说,意思是性价比低甚至压根跑不起来,那就继续折腾我的现有硬件好了,再加个
1600W电源就行,就是显存加起来也就48GB,不像想象中可以随便续杯。
作者: os39000    时间: 2024-12-14 19:23
momo77989724 发表于 2024-12-12 21:56
不想买技嘉 刚上车了一个MZ33AR1 想换回超微哈哈

我没看到EPYC的浮点评测数据
作者: os39000    时间: 2024-12-14 19:23
klxq15 发表于 2024-12-13 22:51
所以这个CPU是不是跑MoE模型性能很棒

这正是我发帖的目的
作者: os39000    时间: 2024-12-14 19:25
momoka 发表于 2024-12-14 11:19
8581C   60C12T  300M L3才 两个桌面热门U的价格。。。。。

摸摸卡
作者: momo77989724    时间: 2024-12-14 19:27
os39000 发表于 2024-12-14 19:23
我没看到EPYC的浮点评测数据


这些我也不懂  服务器和多卡机啊 组装还比较简单
但是软件这些部署对我来说难度太高了。。。
作者: os39000    时间: 2024-12-14 19:28
uprit 发表于 2024-12-13 13:16
用内存的吗?能多少通道呀?就算8通道也没多少带宽啊。
感觉还不如搞8卡2080ti 22G,差不多也是2w,带宽 ...

这个玩法属于激进型玩家。
功耗接近3000W,机箱散热都选择性不大,噪音很难控制。
我的想法是性能接近2080Ti,甚至1080Ti也行,但是显存可以轻松追加,那就够了。
作者: os39000    时间: 2024-12-14 19:30
momo77989724 发表于 2024-12-14 19:27
这些我也不懂  服务器和多卡机啊 组装还比较简单
但是软件这些部署对我来说难度太高了。。。 ...

我搜了下,也没发现有这么玩的。最多的案例就是用大内存苹果机跑的
作者: zhuifeng88    时间: 2024-12-14 22:00
本帖最后由 zhuifeng88 于 2024-12-14 22:02 编辑
os39000 发表于 2024-12-14 19:22
大佬这么说,意思是性价比低甚至压根跑不起来,那就继续折腾我的现有硬件好了,再加个
1600W电源就行,就 ...


我不是这意思, 我意思是这么玩的性能以及性价比优势会有比较大的使用场景限定以及部署比较复杂
作者: os39000    时间: 2024-12-15 20:35
zhuifeng88 发表于 2024-12-14 22:00
我不是这意思, 我意思是这么玩的性能以及性价比优势会有比较大的使用场景限定以及部署比较复杂 ...

有部署指令可以参考吗?或者相关的开源项目?
作者: klxq15    时间: 2024-12-17 21:51
os39000 发表于 2024-12-14 19:23
这正是我发帖的目的

85xx和84xx系列算力有差距么,测了个84xx系列的48核cpu,deepseek v2每秒输出6个token
作者: 自挂东南枝    时间: 2024-12-18 08:12
CPU推理当然可以,llamacpp这种就行。
作者: zhuifeng88    时间: 2024-12-18 08:30
自挂东南枝 发表于 2024-12-18 08:12
CPU推理当然可以,llamacpp这种就行。

llama.cpp只是能跑起来 性能烂的没法用
作者: zhuifeng88    时间: 2024-12-18 08:33
os39000 发表于 2024-12-15 20:35
有部署指令可以参考吗?或者相关的开源项目?

建议看openvino的文档, 能跟着完成大部份不需要改代码就行的部分
作者: os39000    时间: 2024-12-18 18:50
klxq15 发表于 2024-12-17 21:51
85xx和84xx系列算力有差距么,测了个84xx系列的48核cpu,deepseek v2每秒输出6个token ...

84和85差距不大
作者: os39000    时间: 2024-12-18 18:50
自挂东南枝 发表于 2024-12-18 08:12
CPU推理当然可以,llamacpp这种就行。

这种到时候先试试
作者: os39000    时间: 2024-12-18 18:53
zhuifeng88 发表于 2024-12-18 08:33
建议看openvino的文档, 能跟着完成大部份不需要改代码就行的部分

看文档我还可以,我已经订了MS73HB1+8581C,周末就能装机验证了。就是内存我手上是不带ECC的64GB 7200,不知道影响大不大。
作者: 8xwob3ko    时间: 2024-12-18 19:08
os39000 发表于 2024-12-14 19:30
我搜了下,也没发现有这么玩的。最多的案例就是用大内存苹果机跑的

内存带宽够吗,苹果这么玩是堆了多通道高频率LPDDR,内存带宽高到当显存用完全没有问题。
作者: os39000    时间: 2024-12-18 19:23
本帖最后由 os39000 于 2024-12-18 19:25 编辑
8xwob3ko 发表于 2024-12-18 19:08
内存带宽够吗,苹果这么玩是堆了多通道高频率LPDDR,内存带宽高到当显存用完全没有问题。 ...


8581C双路读取有640GB,写400GB,可以了
你站内搜索8581C,今年4月份有人发
https://www.chiphell.com/thread-2606946-1-1.html
作者: skyfish    时间: 2024-12-18 20:43
5th Xeon的AI性能指标都在这儿了
https://www.intel.com/content/ww ... ores.html#gs.j6qfe0
作者: skyfish    时间: 2024-12-18 20:56
os39000 发表于 2024-12-18 18:50
84和85差距不大

L3大了好多,其他差距不大
作者: momo77989724    时间: 2025-1-8 13:18
os39000 发表于 2024-12-18 19:23
8581C双路读取有640GB,写400GB,可以了
你站内搜索8581C,今年4月份有人发
https://www.chiphell.com/th ...


你的装了吗 用的哪个系统。。。我那台睿频跑的有问题 干  顺便用的什么主板
作者: os39000    时间: 2025-1-8 19:02
momo77989724 发表于 2025-1-8 13:18
你的装了吗 用的哪个系统。。。我那台睿频跑的有问题 干  顺便用的什么主板 ...

我准备Windows 11。
因为我不是一家买的配件(大大的错误),到我手上反复重启,发到cpu卖家那里又没事。
cpu我是手拧的,买的工具到了再试试。
cpu睿频可以的,单核cpuz也能到640。
我的主板是技嘉MS73-HB1,技嘉网上有cpu、内存、硬盘的兼容性列表。
作者: momo77989724    时间: 2025-1-8 23:50
os39000 发表于 2025-1-8 19:02
我准备Windows 11。
因为我不是一家买的配件(大大的错误),到我手上反复重启,发到cpu卖家那里又没事。 ...

内存问题不大  都支持 48G便宜现在
超微主板睿频后有点卡卡的 我周末去搞个技嘉主板试试
作者: mfkiwl    时间: 2025-1-9 18:03
这个要是搞个512G内存本地跑deepseek V3,那叫一个酸爽
作者: os39000    时间: 2025-1-9 18:54
momo77989724 发表于 2025-1-8 23:50
内存问题不大  都支持 48G便宜现在
超微主板睿频后有点卡卡的 我周末去搞个技嘉主板试试 ...

开性能模式,会好不少。
作者: os39000    时间: 2025-1-9 18:54
mfkiwl 发表于 2025-1-9 18:03
这个要是搞个512G内存本地跑deepseek V3,那叫一个酸爽

怎么说?
作者: mfkiwl    时间: 2025-1-9 20:31
os39000 发表于 2025-1-9 18:54
怎么说?

deepseek V3算是开源大模型里性能相当好的了;MOE架构正好符号CPU推理的大内存容量特点,比起GPU的架构,成本低老多了
作者: os39000    时间: 2025-1-10 19:29
mfkiwl 发表于 2025-1-9 20:31
deepseek V3算是开源大模型里性能相当好的了;MOE架构正好符号CPU推理的大内存容量特点,比起GPU的架构, ...

那这是个好消息,虽然内存挺贵,512GB 5600MHZ 16000左右
作者: zhuifeng88    时间: 2025-1-10 19:31
os39000 发表于 2025-1-10 19:29
那这是个好消息,虽然内存挺贵,512GB 5600MHZ 16000左右


然后你会发现deepseek需要的mla没cpu实现的优化算子(cuda的开源实现都做出来没多久)

(当然没充分优化的算子实现不妨碍能跑)
作者: os39000    时间: 2025-1-10 19:53
zhuifeng88 发表于 2025-1-10 19:31
然后你会发现deepseek需要的mla没cpu实现的优化算子(cuda的开源实现都做出来没多久)

(当然没充分优化的 ...

希望明天手气好点,我的组装工具都到了
作者: mfkiwl    时间: 2025-1-10 22:39
zhuifeng88 发表于 2025-1-10 19:31
然后你会发现deepseek需要的mla没cpu实现的优化算子(cuda的开源实现都做出来没多久)

(当然没充分优化的 ...

这个算子展开说说?
作者: zhuifeng88    时间: 2025-1-11 10:42
mfkiwl 发表于 2025-1-10 22:39
这个算子展开说说?

展开这个那直接去看deepseek的paper喽, mla是在v2最初提出的, 附录C部分
作者: momo77989724    时间: 2025-1-11 11:16
本帖最后由 momo77989724 于 2025-1-11 11:33 编辑
os39000 发表于 2025-1-10 19:29
那这是个好消息,虽然内存挺贵,512GB 5600MHZ 16000左右


64和96价格起飞~~48G实惠。
64要1800  我想着48和32G价格很接近  差50~  然后想是不是96和64也接近。。。刚去问了96比64贵一倍
作者: os39000    时间: 2025-1-11 12:08
我手上是16*8,准备软件都安装测试好了再换32的。只差50那48性价比就很高了
作者: mfkiwl    时间: 2025-1-13 23:58
zhuifeng88 发表于 2025-1-11 10:42
展开这个那直接去看deepseek的paper喽, mla是在v2最初提出的, 附录C部分

已经有人测试过了,效果不错。MLA不是问题
作者: zhuifeng88    时间: 2025-1-14 01:06
本帖最后由 zhuifeng88 于 2025-1-14 01:08 编辑
mfkiwl 发表于 2025-1-13 23:58
已经有人测试过了,效果不错。MLA不是问题


我也测过, 现在mla cpu几个实现prefill连20tflops都跑不到, 只能当玩具 (当然性能目标只是单用户十几k context长度以内玩玩的话那当我没说)
作者: mfkiwl    时间: 2025-1-14 01:55
zhuifeng88 发表于 2025-1-14 01:06
我也测过, 现在mla cpu几个实现prefill连20tflops都跑不到, 只能当玩具 (当然性能目标只是单用户十几k co ...

你这13格也太高了。这东东能给个提供本地LLM就相当不错了
作者: fengxu106    时间: 2025-1-15 21:31
momo77989724 发表于 2025-1-8 23:50
内存问题不大  都支持 48G便宜现在
超微主板睿频后有点卡卡的 我周末去搞个技嘉主板试试 ...

windows 对4 5 6 代cpu 有c6 bug,响应慢,建议关闭c6
作者: momo77989724    时间: 2025-1-15 22:20
fengxu106 发表于 2025-1-15 21:31
windows 对4 5 6 代cpu 有c6 bug,响应慢,建议关闭c6

关闭就没睿频了。。。牙膏唯一的睿频优势就G了
作者: 星空小琛    时间: 2025-1-15 22:47
zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

厉害
作者: 星空小琛    时间: 2025-1-15 22:48
网仙 发表于 2024-12-14 12:19
请教下,这种马来CPU,在海鲜市场存量好像非常之大。而且都是正式版,价格比行货便宜太多,还是很超值的 ...

稳定性应该没问题,算是大厂定制吧,运营商,云服务商,数据中心,很多这种




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5