找回密码
 加入我们
搜索
      
楼主: kingofgu

[CPU] 这个双路epyc本地部署完整650b R1的有搞头啊

[复制链接]
发表于 2025-1-29 18:19 来自手机 | 显示全部楼层
YsHaNg 发表于 2025-1-29 18:08
对呀对呀 内存会坏的

估计也就你这种人,会给小企业这么推荐吧。每个月崩个一两回也,也可以接受
发表于 2025-1-29 18:40 来自手机 | 显示全部楼层
带宽瓶颈再加核心也没啥用吧,不知道家用机那种核显配gddr显存的思路最多能堆多少容量
发表于 2025-1-29 18:45 来自手机 | 显示全部楼层
archxm 发表于 2025-1-29 10:19
估计也就你这种人,会给小企业这么推荐吧。每个月崩个一两回也,也可以接受 ...

我怎么敢推荐内存会坏的。。。
发表于 2025-1-29 18:49 来自手机 | 显示全部楼层
YsHaNg 发表于 2025-1-29 18:45
我怎么敢推荐内存会坏的。。。

不好说,可能你想收维护费
发表于 2025-1-29 18:52 来自手机 | 显示全部楼层
archxm 发表于 2025-1-29 10:49
不好说,可能你想收维护费

it的活我可不干
发表于 2025-1-29 19:01 来自手机 | 显示全部楼层
YsHaNg 发表于 2025-1-29 18:52
it的活我可不干

小企业都是一揽子解决方案,你不干,是不是嫌脏?
发表于 2025-1-29 19:12 | 显示全部楼层
kingofgu 发表于 2025-1-29 13:46
好消息是 llama.cpp现在只能吃到64c好像 应该是有core可以空出来跑其他任务的
推理瓶颈还是在显存池构建  ...


如果打算用llama.cpp的话那也不用考虑xeon了, llama.cpp的相关实现做的很烂, 要通用性有通用性, 要性能还是只有通用性, (或者战未来)
发表于 2025-1-29 19:12 来自手机 | 显示全部楼层
archxm 发表于 2025-1-29 11:01
小企业都是一揽子解决方案,你不干,是不是嫌脏?

时薪低 不灵活
发表于 2025-1-29 19:15 | 显示全部楼层
yangzi123aaa20 发表于 2025-1-29 18:40
带宽瓶颈再加核心也没啥用吧,不知道家用机那种核显配gddr显存的思路最多能堆多少容量 ...

家用机核显配gddr的带宽还没server平台cpu配ddr5高呢, 你太高估两者差距了
发表于 2025-1-29 19:27 来自手机 | 显示全部楼层
zhuifeng88 发表于 2025-1-29 19:15
家用机核显配gddr的带宽还没server平台cpu配ddr5高呢, 你太高估两者差距了

毕竟在此之前都没有厂商认真琢磨过这个路线,说不定这次a/n的大内存小主机之后下一次发力就是512bit以上的显存控制器配一整版的gdr7了
发表于 2025-1-29 19:30 | 显示全部楼层
yangzi123aaa20 发表于 2025-1-29 19:27
毕竟在此之前都没有厂商认真琢磨过这个路线,说不定这次a/n的大内存小主机之后下一次发力就是512bit以上 ...


做不到的, 你看5090 dieshot, 512bit的gddr7控制器占满了3条边, 还有1条边要放pcie之类的io

也就是说, 如果想做512bit gddr7, 那芯片面积几乎不可能比5090更小了

这面积还做什么小主机, 晶圆嫌多也不是这么浪费的吧
发表于 2025-1-29 19:58 来自手机 | 显示全部楼层
yangzi123aaa20 发表于 2025-1-29 19:27
毕竟在此之前都没有厂商认真琢磨过这个路线,说不定这次a/n的大内存小主机之后下一次发力就是512bit以上 ...

既然想工业化使用,为啥一定在民用商品找呢?
工业化不能找显卡厂家定制吗?
发表于 2025-1-29 20:00 | 显示全部楼层
archxm 发表于 2025-1-29 19:58
既然想工业化使用,为啥一定在民用商品找呢?
工业化不能找显卡厂家定制吗? ...

要跑本地推理不走这个路线没别的办法了不然就只能用大厂提供的API咯
发表于 2025-1-29 20:02 来自手机 | 显示全部楼层
yangzi123aaa20 发表于 2025-1-29 20:00
要跑本地推理不走这个路线没别的办法了不然就只能用大厂提供的API咯


那就很容易卡脖子了。再说这样就抬高显卡价格了,本来一个游戏用的东西,从技术角度看,模型训练,ai 相关, 还存在大量迷雾
 楼主| 发表于 2025-1-29 22:27 | 显示全部楼层
zhuifeng88 发表于 2025-1-29 19:30
做不到的, 你看5090 dieshot, 512bit的gddr7控制器占满了3条边, 还有1条边要放pcie之类的io

也就是说,  ...

走CoWoS先进硅互联 GPU和CPU平行连接到独立的io-Die上
当然现在的无限总线要提速扩容
总的来说Strix Halo看到点影子了
 楼主| 发表于 2025-1-29 22:28 | 显示全部楼层
zhuifeng88 发表于 2025-1-29 19:12
如果打算用llama.cpp的话那也不用考虑xeon了, llama.cpp的相关实现做的很烂, 要通用性有通用性, 要性能还 ...

没办法 llama.cpp本来就是为了能跑出现的
英子和AMD这时候不站出来推一把吗
发表于 2025-1-29 23:53 | 显示全部楼层
舒方 发表于 2025-1-29 18:01
这东西还能保修?那还挺便宜。

说说拉是店保 其实吧我心里默认2个都是0.。。
发表于 2025-1-30 09:30 | 显示全部楼层
本帖最后由 chungexcy 于 2025-1-30 09:46 编辑
kingofgu 发表于 2025-1-29 13:12
8581可能不行 ram总带宽才400GB/s不到
9004/9005 12通道 +50% 24通道的话1.2TB去了


最便宜的 9015 也不行,才 2ccd。你要跑满12通道,至少需要 4ccd(这才400GB/s),最好要 zen5 的 8ccd(zen4 8ccd是单GMI3=zen4 4ccd双GMI3)。
https://chipsandcheese.com/p/amds-turin-5th-gen-epyc-launched


换成 9254/9255,或者 9355,这样一算,还得加不少钱。
发表于 2025-2-13 20:40 | 显示全部楼层
看8592es的cpu就1000多,支持amx正适合KTransformers,但主板快5000了,上32G*16 ddr5内存就1万多了,个人想玩但不是做it的纯玩具不如买api或者colab
发表于 2025-2-13 20:52 | 显示全部楼层
本帖最后由 网仙 于 2025-2-13 20:54 编辑

在多个地方看到讨论说双路因为两个CPU之间的通讯延迟,导致效率低,不如用单路。
单路的话,epyc有12通道,带宽上比至强8581c的8通道略有优势,但不支持AMX。
我原计划使用9565,12*64GB,本地运行671b的Q8。
有人说这个方案可以15tk/s,有人说只有个位数。

如果是真的能到15tk的性能,就可以冲了。
只是目前信息量有限,还在观望中。

补充:看了Ktransformer的方案,用单路4090或5090配合cpu,提升非常明显

发表于 2025-2-13 21:10 | 显示全部楼层
网仙 发表于 2025-2-13 20:52
在多个地方看到讨论说双路因为两个CPU之间的通讯延迟,导致效率低,不如用单路。
单路的话,epyc有12通道, ...

epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/131=4.39 token/s,双路最多翻倍也才8,这还没考虑损耗。
发表于 2025-2-13 21:25 | 显示全部楼层
chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/1 ...


这么低的输出,完全不可用,那看来是没啥搞头了,浪费时间。

貌似没啥靠谱的Q4,Q8本地化方案了,纯GPU的方案确实有点小贵。
 楼主| 发表于 2025-2-13 21:47 | 显示全部楼层
chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/1 ...

现在是分开了 cpu处理完激活专家后将参数载到GPU里推理
MOE架构下只需要24-32g的显存就可以了
大概就是512内存加32显存跑q4的R1
发表于 2025-2-13 22:05 | 显示全部楼层
网仙 发表于 2025-2-13 21:25
这么低的输出,完全不可用,那看来是没啥搞头了,浪费时间。

貌似没啥靠谱的Q4,Q8本地化方案了,纯GPU的 ...

可以看看ktransformers,但是AMX的处理器比较难找,
发表于 2025-2-13 22:06 | 显示全部楼层
kingofgu 发表于 2025-2-13 21:47
现在是分开了 cpu处理完激活专家后将参数载到GPU里推理
MOE架构下只需要24-32g的显存就可以了
大概就是51 ...

ktransformers 是吧,我也在看,第四代志强可扩展硬件也不便宜
发表于 2025-2-13 22:49 | 显示全部楼层
cpu不是问题,内存带宽是瓶颈~所以低配U
发表于 2025-2-14 00:18 | 显示全部楼层
用户 发表于 2025-1-29 12:44
双路志强已经在路上了,768G内存有点贵了

买的什么型号?参考一下
8592+ES的靠谱么,才1000多。。。
发表于 2025-2-14 01:12 | 显示全部楼层
效率比ollama高的多的方式
机器配置要求也降低了不少
目前可以跑到13.9token
屏幕截图 2025-02-14 011014.png
发表于 2025-2-14 01:19 来自手机 | 显示全部楼层
本帖最后由 用户 于 2025-2-14 02:58 编辑
ncik20 发表于 2025-2-14 00:18
买的什么型号?参考一下
8592+ES的靠谱么,才1000多。。。


我考虑了8461 $100,8592 $750,9480 $1100,税前价格。后来决定买9480。一是担心双路8592带宽不够用,二是考虑2x9480的128gb hbm如果日常够用,短期就不用再买16根ddr5内存了。不插满带宽低,插满就算256gb也要$1200,日后升级又就全废了。如果短期用不上本地超大杯模型,投资内存感觉有点亏,目测一两年后mrdimm出来,ddr5 4800/5600会有很多垃圾可以捡。看twitter上小道消息说8通道的GNR-WS在路上了。

机器周末到,装好发测试。我用这台机器不只是跑大模型,还有微调、其他深度学习开发为主。单体大内存可以省去显存不够要手动多卡优化的问题,方便开发需要大显存的模型。到时要测测intel默认的numa优化靠不靠谱。超大杯模型花$1000,用api也能用很久,api响应更快,没有保密数据不太需要自己配置。



我这没看到有1000人的8592。如果是1000人那可能足够便宜了。
发表于 2025-2-14 01:20 | 显示全部楼层
机器的配置和对应的模型规模如图
这是清华的一个项目,目前大大降低了对显卡和显存的要求
20.png
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 12:47 , Processed in 0.015395 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表