找回密码
 加入我们
搜索
      
查看: 7236|回复: 62

[CPU] 这个双路epyc本地部署完整650b R1的有搞头啊

[复制链接]
发表于 2025-1-29 11:01 | 显示全部楼层 |阅读模式
768GB内存加双路最低配的u跑了 10tokens q8量化的完整模型
才6000刀
国内估计还能压一压 虽然速度老爷车了一点 但我估计和cpu核数偏少还有AOCL库优化不到位有关
架构优化的话10万部署一套私有R1对大部分企业都很有吸引力啊
 楼主| 发表于 2025-1-29 13:03 | 显示全部楼层
momo77989724 发表于 2025-1-29 12:57
其实很多企业只看官网的型号  .。。8581定制版他们也不会选

reddit上的原帖是 10token/s
以前没人搞私有部署主要是开源模型太弱了
现在有了用途 CPU推理应该会有更新动力
感觉双路的话跨NUMA的时候吃核间链路带宽有点多
 楼主| 发表于 2025-1-29 13:12 | 显示全部楼层
momo77989724 发表于 2025-1-29 13:06
论坛里之前有人组8581双路跑的吧   就月初
8581算力性价比应该算很高的  

8581可能不行 ram总带宽才400GB/s不到
9004/9005 12通道 +50% 24通道的话1.2TB去了
 楼主| 发表于 2025-1-29 13:25 来自手机 | 显示全部楼层
neavo 发表于 2025-1-29 13:17
你们是不是对速度没概念 ... 单线程个位数 t/s 尝个鲜都觉得慢,别说正经放进工作流里了   ...

毕竟300w的dgx不太现实啊
10到20个w能优化到什么地步
 楼主| 发表于 2025-1-29 13:46 | 显示全部楼层
我輩樹である 发表于 2025-1-29 13:37
cpu跑最大的问题就是一开始跑占用拉满,别的事情不要做了。gpu好歹算协处理器。 ...

好消息是 llama.cpp现在只能吃到64c好像 应该是有core可以空出来跑其他任务的
推理瓶颈还是在显存池构建 这玩意卡的太死了
NVL72提供单域13.5 TB全连接显存池还是太imba了
 楼主| 发表于 2025-1-29 22:27 | 显示全部楼层
zhuifeng88 发表于 2025-1-29 19:30
做不到的, 你看5090 dieshot, 512bit的gddr7控制器占满了3条边, 还有1条边要放pcie之类的io

也就是说,  ...

走CoWoS先进硅互联 GPU和CPU平行连接到独立的io-Die上
当然现在的无限总线要提速扩容
总的来说Strix Halo看到点影子了
 楼主| 发表于 2025-1-29 22:28 | 显示全部楼层
zhuifeng88 发表于 2025-1-29 19:12
如果打算用llama.cpp的话那也不用考虑xeon了, llama.cpp的相关实现做的很烂, 要通用性有通用性, 要性能还 ...

没办法 llama.cpp本来就是为了能跑出现的
英子和AMD这时候不站出来推一把吗
 楼主| 发表于 2025-2-13 21:47 | 显示全部楼层
chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/1 ...

现在是分开了 cpu处理完激活专家后将参数载到GPU里推理
MOE架构下只需要24-32g的显存就可以了
大概就是512内存加32显存跑q4的R1
 楼主| 发表于 2025-2-14 06:18 | 显示全部楼层
xjr12000 发表于 2025-2-14 01:20
机器的配置和对应的模型规模如图
这是清华的一个项目,目前大大降低了对显卡和显存的要求 ...

绝望中给了intel一条活路 AMX指令集
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-21 11:31 , Processed in 0.008847 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表