Chiphell - 分享与交流用户体验»社区 › 讨论区-生活与技术的讨论 › 电脑讨论(新) › 有没插满48Gx4的坛友试试R1模型动态量化版本？ ...

有没插满48Gx4的坛友试试R1模型动态量化版本？

查看数: 2758 | 评论数: 16 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

BetaHT

发布时间: 2025-2-3 10:46

正文摘要:

https://news.qq.com/rain/a/20250202A031XB00 https://unsloth.ai/blog/deepseekr1-dynamic 消费级DDR5单条最大48G，插满4条就有192G了。有没有坛友试试效果？按文章的说法，完整版本的R1即使是动态量化后， ...

BetaHT 发表于 2025-2-3 19:01

YsHaNg 发表于 2025-2-3 18:38
楼主为什么不自己试试因为要用docker吗

你好滑稽

YsHaNg 发表于 2025-2-3 18:38

楼主为什么不自己试试因为要用docker吗

yxxkz8 发表于 2025-2-3 18:28

本地跑7b速度还可以接受

pdvc 发表于 2025-2-3 15:01

BetaHT 发表于 2025-2-3 14:54
可行啊。准确性上和70比怎么样呢

比70b好太多啊，有8成原版效果了。而且输入输出都支持128K。就是用虚拟内存跑的，上下文太长，直接晾你半小时，多轮或者酒馆就别想了，还是得大内存。

70b的超出24GB显存用内存跑，能有10token速度，如果是192GB内存，估计跑1.58位也能不错的速度了。

BetaHT 发表于 2025-2-3 14:54

本帖最后由 BetaHT 于 2025-2-3 14:56 编辑

pdvc 发表于 2025-2-3 14:36
我试过1.58位，4090加128GB内存，虚拟内存128GB，每秒2个token左右。

可行啊。准确性上和70比怎么样呢
例如修改代码这种需要足够精确度的任务

BetaHT 发表于 2025-2-3 14:52

mythgo 发表于 2025-2-3 11:26
使用8卡48G的GPU试了最后一个，会有超长思维链无法产生正确结果的问题，并且思考过程越长，你上下文的内存 ...

作者的说明提到了这一点，说1.73是更好的选择，试试看？

pdvc 发表于 2025-2-3 14:48

manwomans 发表于 2025-2-3 14:43
不能够
我就是这配置跑的q4量化

实际就这样，看你CPU和内存速度了

manwomans 发表于 2025-2-3 14:43

pdvc 发表于 2025-2-3 14:39
4090+DDR5的跑70b有10token速度，DDR4是只有2token速度。

不能够
我就是这配置跑的q4量化

pdvc 发表于 2025-2-3 14:39

manwomans 发表于 2025-2-3 11:17
4090+64g跑70b只能2t/s
这个更不用想了

4090+DDR5的跑70b有10token速度，DDR4是只有2token速度。

pdvc 发表于 2025-2-3 14:36

我试过1.58位，4090加128GB内存，虚拟内存128GB，每秒2个token左右。

mythgo 发表于 2025-2-3 11:26

使用8卡48G的GPU试了最后一个，会有超长思维链无法产生正确结果的问题，并且思考过程越长，你上下文的内存消耗也越多。速度很慢13token/s，这个速度跑评估要好几天，索性不测了，还是调用API把。

ttt5t5t 发表于 2025-2-3 11:23

这个可以用intel的试试？
据说intel的浮点性能很顶

a010301208 发表于 2025-2-3 11:20

要是用内存就能跑的快4090早就不值钱了

manwomans 发表于 2025-2-3 11:17

4090+64g跑70b只能2t/s
这个更不用想了

BetaHT 发表于 2025-2-3 11:05

msdelphi 发表于 2025-2-3 10:59
意思是可以跑2.22bit？如果再配一块4090呢？

不知道，希望有大佬能实测一下。

msdelphi 发表于 2025-2-3 10:59

意思是可以跑2.22bit？如果再配一块4090呢？

账号		自动登录	找回密码
密码			加入我们

有没插满48Gx4的坛友试试R1模型动态量化版本？

正文摘要:

回复