有没插满48Gx4的坛友试试R1模型动态量化版本？

BetaHT · 发表于 2025-2-3 10:46

消费级DDR5单条最大48G，插满4条就有192G了。有没有坛友试试效果？按文章的说法，完整版本的R1即使是动态量化后，也比蒸馏的70B模型效果好的多。

BetaHT · 发表于 2025-2-3 11:05

msdelphi 发表于 2025-2-3 10:59
意思是可以跑2.22bit？如果再配一块4090呢？

不知道，希望有大佬能实测一下。

BetaHT · 发表于 2025-2-3 14:52

mythgo 发表于 2025-2-3 11:26
使用8卡48G的GPU试了最后一个，会有超长思维链无法产生正确结果的问题，并且思考过程越长，你上下文的内存 ...

作者的说明提到了这一点，说1.73是更好的选择，试试看？

BetaHT · 发表于 2025-2-3 14:54

本帖最后由 BetaHT 于 2025-2-3 14:56 编辑

pdvc 发表于 2025-2-3 14:36
我试过1.58位，4090加128GB内存，虚拟内存128GB，每秒2个token左右。

可行啊。准确性上和70比怎么样呢
例如修改代码这种需要足够精确度的任务

BetaHT · 发表于 2025-2-3 19:01

YsHaNg 发表于 2025-2-3 18:38
楼主为什么不自己试试因为要用docker吗

你好滑稽

账号		自动登录	找回密码
密码			加入我们

[内存] 有没插满48Gx4的坛友试试R1模型动态量化版本？