找回密码
 加入我们
搜索
      
查看: 8130|回复: 86

[CPU] 纯CPU 跑LLM (如671B 的全量R1),对于U核心数是否有要求?

[复制链接]
发表于 2025-2-10 15:13 来自手机 | 显示全部楼层
有要求,而且很高,除非你打算就几百token context长度当纯玩具
9654 llama.cpp的话你很容易观察到context长度到2k decode速度就基本腰斩了
发表于 2025-2-10 15:21 来自手机 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-2-10 15:23 编辑
ahzhf 发表于 2025-2-10 15:20
测试过在5995WX + 8x32G DDR4 3200 RAM跑2.51bit动态量化版DeepSeek R1 671B,Llama.cpp可以达到5-6 tokens ...


ktrsnsformers太古老了,测过,反而更慢,类似的结论你翻issue也能看到
(而且古老程度已经到可能没有去维护的价值了, 另造轮子更简单)
发表于 2025-2-10 15:52 来自手机 | 显示全部楼层
qdzx123 发表于 2025-2-10 15:47
低于5tk就几乎没有任何意义了 连研究都别研究 纯浪费时间
0.几 更是完全没用 9.11和9.8谁大都要1200字
这种 ...

6:1完全有的 v3/r1激活参数量就37b而已 又不是dense模型 另外长上下文变慢是epyc算力不足的问题,attention层用显卡或者amx跑就好了
发表于 2025-2-10 16:01 来自手机 | 显示全部楼层
qdzx123 发表于 2025-2-10 15:59
这样不会反而有很大的通讯开销吗

hidden state非常小,除非你每层执行时间到us级了才需要考虑这个事情 而现在是ms级的
发表于 2025-2-10 16:29 来自手机 | 显示全部楼层
qdzx123 发表于 2025-2-10 16:26
懂了 那还是很有优化空间的
这样做还能用张量并行吗

tensorparallel+expert parallel在moe层做,这部分只在cpu上运行,理想配置比如socket/snc内tensorparallel,socket间expert parallel,attention自己在显卡上玩,或者cpu单socket玩
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-18 12:44 , Processed in 0.007802 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表