这个双路epyc本地部署完整650b R1的有搞头啊

archxm · 发表于 2025-1-29 18:19

YsHaNg 发表于 2025-1-29 18:08
对呀对呀内存会坏的

估计也就你这种人，会给小企业这么推荐吧。每个月崩个一两回也，也可以接受

yangzi123aaa20 · 发表于 2025-1-29 18:40

带宽瓶颈再加核心也没啥用吧，不知道家用机那种核显配gddr显存的思路最多能堆多少容量

YsHaNg · 发表于 2025-1-29 18:45

archxm 发表于 2025-1-29 10:19
估计也就你这种人，会给小企业这么推荐吧。每个月崩个一两回也，也可以接受 ...

我怎么敢推荐内存会坏的。。。

archxm · 发表于 2025-1-29 18:49

YsHaNg 发表于 2025-1-29 18:45
我怎么敢推荐内存会坏的。。。

不好说，可能你想收维护费

YsHaNg · 发表于 2025-1-29 18:52

archxm 发表于 2025-1-29 10:49
不好说，可能你想收维护费

it的活我可不干

archxm · 发表于 2025-1-29 19:01

YsHaNg 发表于 2025-1-29 18:52
it的活我可不干

小企业都是一揽子解决方案，你不干，是不是嫌脏？

zhuifeng88 · 发表于 2025-1-29 19:12

kingofgu 发表于 2025-1-29 13:46
好消息是 llama.cpp现在只能吃到64c好像应该是有core可以空出来跑其他任务的
推理瓶颈还是在显存池构建 ...

如果打算用llama.cpp的话那也不用考虑xeon了, llama.cpp的相关实现做的很烂, 要通用性有通用性, 要性能还是只有通用性, (或者战未来)

YsHaNg · 发表于 2025-1-29 19:12

archxm 发表于 2025-1-29 11:01
小企业都是一揽子解决方案，你不干，是不是嫌脏？

时薪低不灵活

zhuifeng88 · 发表于 2025-1-29 19:15

yangzi123aaa20 发表于 2025-1-29 18:40
带宽瓶颈再加核心也没啥用吧，不知道家用机那种核显配gddr显存的思路最多能堆多少容量 ...

家用机核显配gddr的带宽还没server平台cpu配ddr5高呢, 你太高估两者差距了

yangzi123aaa20 · 发表于 2025-1-29 19:27

zhuifeng88 发表于 2025-1-29 19:15
家用机核显配gddr的带宽还没server平台cpu配ddr5高呢, 你太高估两者差距了

毕竟在此之前都没有厂商认真琢磨过这个路线，说不定这次a/n的大内存小主机之后下一次发力就是512bit以上的显存控制器配一整版的gdr7了

zhuifeng88 · 发表于 2025-1-29 19:30

yangzi123aaa20 发表于 2025-1-29 19:27
毕竟在此之前都没有厂商认真琢磨过这个路线，说不定这次a/n的大内存小主机之后下一次发力就是512bit以上 ...

做不到的, 你看5090 dieshot, 512bit的gddr7控制器占满了3条边, 还有1条边要放pcie之类的io

也就是说, 如果想做512bit gddr7, 那芯片面积几乎不可能比5090更小了

这面积还做什么小主机, 晶圆嫌多也不是这么浪费的吧

archxm · 发表于 2025-1-29 19:58

yangzi123aaa20 发表于 2025-1-29 19:27
毕竟在此之前都没有厂商认真琢磨过这个路线，说不定这次a/n的大内存小主机之后下一次发力就是512bit以上 ...

既然想工业化使用，为啥一定在民用商品找呢？
工业化不能找显卡厂家定制吗？

yangzi123aaa20 · 发表于 2025-1-29 20:00

archxm 发表于 2025-1-29 19:58
既然想工业化使用，为啥一定在民用商品找呢？
工业化不能找显卡厂家定制吗？ ...

要跑本地推理不走这个路线没别的办法了

不然就只能用大厂提供的API咯

archxm · 发表于 2025-1-29 20:02

yangzi123aaa20 发表于 2025-1-29 20:00
要跑本地推理不走这个路线没别的办法了不然就只能用大厂提供的API咯

那就很容易卡脖子了。再说这样就抬高显卡价格了，本来一个游戏用的东西，从技术角度看，模型训练，ai 相关，还存在大量迷雾

kingofgu · 发表于 2025-1-29 22:27

zhuifeng88 发表于 2025-1-29 19:30
做不到的, 你看5090 dieshot, 512bit的gddr7控制器占满了3条边, 还有1条边要放pcie之类的io

也就是说, ...

走CoWoS先进硅互联 GPU和CPU平行连接到独立的io-Die上
当然现在的无限总线要提速扩容
总的来说Strix Halo看到点影子了

kingofgu · 发表于 2025-1-29 22:28

zhuifeng88 发表于 2025-1-29 19:12
如果打算用llama.cpp的话那也不用考虑xeon了, llama.cpp的相关实现做的很烂, 要通用性有通用性, 要性能还 ...

没办法 llama.cpp本来就是为了能跑出现的
英子和AMD这时候不站出来推一把吗

momo77989724 · 发表于 2025-1-29 23:53

舒方发表于 2025-1-29 18:01
这东西还能保修？那还挺便宜。

说说拉是店保其实吧我心里默认2个都是0.。。

chungexcy · 发表于 2025-1-30 09:30

本帖最后由 chungexcy 于 2025-1-30 09:46 编辑

kingofgu 发表于 2025-1-29 13:12
8581可能不行 ram总带宽才400GB/s不到
9004/9005 12通道 +50% 24通道的话1.2TB去了

最便宜的 9015 也不行，才 2ccd。你要跑满12通道，至少需要 4ccd（这才400GB/s），最好要 zen5 的 8ccd（zen4 8ccd是单GMI3=zen4 4ccd双GMI3）。
https://chipsandcheese.com/p/amds-turin-5th-gen-epyc-launched

换成 9254/9255，或者 9355，这样一算，还得加不少钱。

knd · 发表于 2025-2-13 20:40

看8592es的cpu就1000多，支持amx正适合KTransformers，但主板快5000了，上32G*16 ddr5内存就1万多了，个人想玩但不是做it的纯玩具不如买api或者colab

网仙 · 发表于 2025-2-13 20:52

本帖最后由网仙于 2025-2-13 20:54 编辑

在多个地方看到讨论说双路因为两个CPU之间的通讯延迟，导致效率低，不如用单路。
单路的话，epyc有12通道，带宽上比至强8581c的8通道略有优势，但不支持AMX。
我原计划使用9565，12*64GB，本地运行671b的Q8。
有人说这个方案可以15tk/s，有人说只有个位数。

如果是真的能到15tk的性能，就可以冲了。
只是目前信息量有限，还在观望中。

补充：看了Ktransformer的方案，用单路4090或5090配合cpu，提升非常明显

chip_discovery · 发表于 2025-2-13 21:10

网仙发表于 2025-2-13 20:52
在多个地方看到讨论说双路因为两个CPU之间的通讯延迟，导致效率低，不如用单路。
单路的话，epyc有12通道， ...

epyc 9565 内存带宽 576 GB/s，单路如果跑1.58-bit的671B模型的话，内存带宽限制下的token上限也就 576/131=4.39 token/s，双路最多翻倍也才8，这还没考虑损耗。

网仙 · 发表于 2025-2-13 21:25

chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s，单路如果跑1.58-bit的671B模型的话，内存带宽限制下的token上限也就 576/1 ...

这么低的输出，完全不可用，那看来是没啥搞头了，浪费时间。

貌似没啥靠谱的Q4,Q8本地化方案了，纯GPU的方案确实有点小贵。

kingofgu · 发表于 2025-2-13 21:47

chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s，单路如果跑1.58-bit的671B模型的话，内存带宽限制下的token上限也就 576/1 ...

现在是分开了 cpu处理完激活专家后将参数载到GPU里推理
MOE架构下只需要24-32g的显存就可以了
大概就是512内存加32显存跑q4的R1

chip_discovery · 发表于 2025-2-13 22:05

网仙发表于 2025-2-13 21:25
这么低的输出，完全不可用，那看来是没啥搞头了，浪费时间。

貌似没啥靠谱的Q4,Q8本地化方案了，纯GPU的 ...

可以看看ktransformers，但是AMX的处理器比较难找，

chip_discovery · 发表于 2025-2-13 22:06

kingofgu 发表于 2025-2-13 21:47
现在是分开了 cpu处理完激活专家后将参数载到GPU里推理
MOE架构下只需要24-32g的显存就可以了
大概就是51 ...

ktransformers 是吧，我也在看，第四代志强可扩展硬件也不便宜

猪圈 · 发表于 2025-2-13 22:49

cpu不是问题，内存带宽是瓶颈~所以低配U

ncik20 · 发表于 2025-2-14 00:18

用户发表于 2025-1-29 12:44
双路志强已经在路上了，768G内存有点贵了

买的什么型号？参考一下
8592+ES的靠谱么，才1000多。。。

xjr12000 · 发表于 2025-2-14 01:12

效率比ollama高的多的方式
机器配置要求也降低了不少
目前可以跑到13.9token

用户 · 发表于 2025-2-14 01:19

本帖最后由用户于 2025-2-14 02:58 编辑

ncik20 发表于 2025-2-14 00:18
买的什么型号？参考一下
8592+ES的靠谱么，才1000多。。。

我考虑了8461 $100，8592 $750，9480 $1100，税前价格。后来决定买9480。一是担心双路8592带宽不够用，二是考虑2x9480的128gb hbm如果日常够用，短期就不用再买16根ddr5内存了。不插满带宽低，插满就算256gb也要$1200，日后升级又就全废了。如果短期用不上本地超大杯模型，投资内存感觉有点亏，目测一两年后mrdimm出来，ddr5 4800/5600会有很多垃圾可以捡。看twitter上小道消息说8通道的GNR-WS在路上了。

机器周末到，装好发测试。我用这台机器不只是跑大模型，还有微调、其他深度学习开发为主。单体大内存可以省去显存不够要手动多卡优化的问题，方便开发需要大显存的模型。到时要测测intel默认的numa优化靠不靠谱。超大杯模型花$1000，用api也能用很久，api响应更快，没有保密数据不太需要自己配置。

我这没看到有1000人的8592。如果是1000人那可能足够便宜了。

xjr12000 · 发表于 2025-2-14 01:20

机器的配置和对应的模型规模如图
这是清华的一个项目，目前大大降低了对显卡和显存的要求

账号		自动登录	找回密码
密码			加入我们

[CPU] 这个双路epyc本地部署完整650b R1的有搞头啊

浏览过的版块