这个双路epyc本地部署完整650b R1的有搞头啊

kingofgu · 发表于 2025-1-29 11:01

768GB内存加双路最低配的u跑了 10tokens q8量化的完整模型
才6000刀
国内估计还能压一压虽然速度老爷车了一点但我估计和cpu核数偏少还有AOCL库优化不到位有关
架构优化的话10万部署一套私有R1对大部分企业都很有吸引力啊

kingofgu · 发表于 2025-1-29 13:03

momo77989724 发表于 2025-1-29 12:57
其实很多企业只看官网的型号 .。。8581定制版他们也不会选

reddit上的原帖是 10token/s
以前没人搞私有部署主要是开源模型太弱了
现在有了用途 CPU推理应该会有更新动力
感觉双路的话跨NUMA的时候吃核间链路带宽有点多

kingofgu · 发表于 2025-1-29 13:12

momo77989724 发表于 2025-1-29 13:06
论坛里之前有人组8581双路跑的吧就月初
8581算力性价比应该算很高的

8581可能不行 ram总带宽才400GB/s不到
9004/9005 12通道 +50% 24通道的话1.2TB去了

kingofgu · 发表于 2025-1-29 13:25

neavo 发表于 2025-1-29 13:17
你们是不是对速度没概念 ... 单线程个位数 t/s 尝个鲜都觉得慢，别说正经放进工作流里了 ...

毕竟300w的dgx不太现实啊
10到20个w能优化到什么地步

kingofgu · 发表于 2025-1-29 13:46

我輩樹である发表于 2025-1-29 13:37
cpu跑最大的问题就是一开始跑占用拉满，别的事情不要做了。gpu好歹算协处理器。 ...

好消息是 llama.cpp现在只能吃到64c好像应该是有core可以空出来跑其他任务的
推理瓶颈还是在显存池构建这玩意卡的太死了
NVL72提供单域13.5 TB全连接显存池还是太imba了

kingofgu · 发表于 2025-1-29 22:27

zhuifeng88 发表于 2025-1-29 19:30
做不到的, 你看5090 dieshot, 512bit的gddr7控制器占满了3条边, 还有1条边要放pcie之类的io

也就是说, ...

走CoWoS先进硅互联 GPU和CPU平行连接到独立的io-Die上
当然现在的无限总线要提速扩容
总的来说Strix Halo看到点影子了

kingofgu · 发表于 2025-1-29 22:28

zhuifeng88 发表于 2025-1-29 19:12
如果打算用llama.cpp的话那也不用考虑xeon了, llama.cpp的相关实现做的很烂, 要通用性有通用性, 要性能还 ...

没办法 llama.cpp本来就是为了能跑出现的
英子和AMD这时候不站出来推一把吗

kingofgu · 发表于 2025-2-13 21:47

chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s，单路如果跑1.58-bit的671B模型的话，内存带宽限制下的token上限也就 576/1 ...

现在是分开了 cpu处理完激活专家后将参数载到GPU里推理
MOE架构下只需要24-32g的显存就可以了
大概就是512内存加32显存跑q4的R1

kingofgu · 发表于 2025-2-14 06:18

xjr12000 发表于 2025-2-14 01:20
机器的配置和对应的模型规模如图
这是清华的一个项目，目前大大降低了对显卡和显存的要求 ...

绝望中给了intel一条活路 AMX指令集

账号		自动登录	找回密码
密码			加入我们

[CPU] 这个双路epyc本地部署完整650b R1的有搞头啊