纯CPU 跑LLM （如671B 的全量R1），对于U核心数是否有要求？

zhuifeng88 · 发表于 2025-2-10 15:13

有要求，而且很高，除非你打算就几百token context长度当纯玩具
9654 llama.cpp的话你很容易观察到context长度到2k decode速度就基本腰斩了

zhuifeng88 · 发表于 2025-2-10 15:21

本帖最后由 zhuifeng88 于 2025-2-10 15:23 编辑

ahzhf 发表于 2025-2-10 15:20
测试过在5995WX + 8x32G DDR4 3200 RAM跑2.51bit动态量化版DeepSeek R1 671B，Llama.cpp可以达到5-6 tokens ...

ktrsnsformers太古老了，测过，反而更慢，类似的结论你翻issue也能看到
(而且古老程度已经到可能没有去维护的价值了, 另造轮子更简单)

zhuifeng88 · 发表于 2025-2-10 15:52

qdzx123 发表于 2025-2-10 15:47
低于5tk就几乎没有任何意义了连研究都别研究纯浪费时间
0.几更是完全没用 9.11和9.8谁大都要1200字
这种 ...

6:1完全有的 v3/r1激活参数量就37b而已又不是dense模型另外长上下文变慢是epyc算力不足的问题，attention层用显卡或者amx跑就好了

zhuifeng88 · 发表于 2025-2-10 16:01

qdzx123 发表于 2025-2-10 15:59
这样不会反而有很大的通讯开销吗

hidden state非常小，除非你每层执行时间到us级了才需要考虑这个事情而现在是ms级的

zhuifeng88 · 发表于 2025-2-10 16:29

qdzx123 发表于 2025-2-10 16:26
懂了那还是很有优化空间的
这样做还能用张量并行吗

tensorparallel+expert parallel在moe层做，这部分只在cpu上运行，理想配置比如socket/snc内tensorparallel，socket间expert parallel，attention自己在显卡上玩，或者cpu单socket玩

账号		自动登录	找回密码
密码			加入我们

[CPU] 纯CPU 跑LLM （如671B 的全量R1），对于U核心数是否有要求？