5090D用ollama跑deepseek r1 32b的效果。 - 第3页 - 电脑讨论(新) - Chiphell - 分享与交流用户体验

zcyandrew 发表于 2025-2-16 04:39

lh4357 发表于 2025-2-8 13:41
反正跑32b是永远吃不满。

5090我测下来可以跑到50t, 功耗480w，你再测测看看是不是软件更新适配了50系？

promiseme 发表于 2025-2-16 10:05

6800xt跑越狱版32b不到6t，勉强能用用

fut888 发表于 2025-2-16 10:19

家用跑模型还得看mac

husi0997 发表于 2025-2-16 10:31

Technik 发表于 2025-2-7 13:18
4090D
total duration: 37.2562216s
load duration: 20.0582ms

我也好奇试了下，也是4090D

lh4357 发表于 2025-2-16 12:00

zcyandrew 发表于 2025-2-16 04:39
5090我测下来可以跑到50t, 功耗480w，你再测测看看是不是软件更新适配了50系？ ...

更新软件了，试了下，果然有提升。[狂笑]

zcyandrew 发表于 2025-2-16 13:31

lh4357 发表于 2025-2-16 12:00
更新软件了，试了下，果然有提升。

那这次真锁了个寂寞？你有测过训练吗

lh4357 发表于 2025-2-16 13:35

zcyandrew 发表于 2025-2-16 13:31
那这次真锁了个寂寞？你有测过训练吗

我不知道拿啥测训练。

常用的都是声音模型，但torchaudio居然到现在还没人编译个cuda12.8出来。。

p_ricky777 发表于 2025-2-16 22:49

本帖最后由 p_ricky777 于 2025-2-16 22:52 编辑

[震惊]

killermkii 发表于 2025-2-25 11:47

这个效果已经很好了，网上大把人部署的本地模型 10 tokens/s 都没有。
问题的复杂程度和输出的tokens/s 没有什么关系，问你好和问你十八代祖宗姓什么都差不多。

8owd8wan 发表于 2025-2-25 11:48

lbb68 发表于 2025-2-7 11:32
缩水版的都是弱智，有啥用？

32B还有有些用的，企业方案落地里

chm128256 发表于 2025-7-11 14:01

用老迈的3090跑了一下，好像也还行，有30+的tokens/s。

KimmyGLM 发表于 2025-7-11 14:07

lh4357 发表于 2025-2-7 11:40
反正问了好几个问题都是30-40之间，然后功耗只有不到350W。

最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ，以后别用ds的蒸馏小模型了，真的没有竞争力。

chm128256 发表于 2025-7-11 14:14

KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ，以后别用ds的蒸馏小模型了，真的没有竞争力。 ...

我感觉和你类似。

芥末夏威夷果 发表于 2025-7-11 14:15

楼主，你去问他今天距离9.3号还有几天[偷笑]保准你震惊

lh4357 发表于 2025-7-11 14:17

KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ，以后别用ds的蒸馏小模型了，真的没有竞争力。 ...

有人挖坟。。

你看看发帖日期。

KimmyGLM 发表于 2025-7-11 14:28

lh4357 发表于 2025-7-11 14:17
有人挖坟。。

你看看发帖日期。

忘记了......我说了怎么这么突兀

我輩樹である 发表于 2025-7-11 15:58

本帖最后由我輩樹である于 2025-7-11 15:59 编辑

KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ，以后别用ds的蒸馏小模型了，真的没有竞争力。 ...

非ud2.0（unsloth搞的动态量化）
https://www.bilibili.com/video/BV1weVHz2Ejh/

ud2.0
https://www.bilibili.com/video/BV1gmEqzDEM3/

之前在128GBM4MAX上测的，勉强可以跑q3的Qwen3-235b-a22b。

原始版本prefill很容易爆显存，ud2.0后勉强能跑，大概十几问后（1w+ token后）才会爆。

速度12-17tps。

l0stc0mpass 发表于 2025-7-11 16:17

ter 发表于 2025-2-7 11:31
m4max 32B-4bit mlx:
24.48 tok/sec • 300 tokens • 0.50s to first token

m1max能跑到15token/sec，我觉得很不错了。

hawie 发表于 2025-7-11 19:09

我輩樹である发表于 2025-7-11 15:58
非ud2.0（unsloth搞的动态量化）

https://huggingface.co/Qwen/Qwen3-235B-A22B-MLX-4bit，这个mlx版能不能在128GB M4 MAX跑？mlx版速度还是要快不少。

YsHaNg 发表于 2025-7-11 19:15

KimmyGLM 发表于 2025-7-11 06:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ，以后别用ds的蒸馏小模型了，真的没有竞争力。 ...

有20g以上显存妥妥用moe模型 235b激活参数19gb大小

liushihao 发表于 2025-7-11 19:58

哪里下载的，我看下我的59魔鹰满血跑多少

我輩樹である 发表于 2025-7-11 20:23

hawie 发表于 2025-7-11 19:09
https://huggingface.co/Qwen/Qwen3-235B-A22B-MLX-4bit，这个mlx版能不能在128GB M4 MAX跑？mlx版速度还 ...

4bit放不下。

hred9D 发表于 2025-7-12 09:42

5090，可以的

hawie 发表于 2025-7-12 20:14

我輩樹である发表于 2025-7-11 20:23
4bit放不下。

谢谢。这个版本约125GB，以为VRAM放开或能放下呢。

我輩樹である 发表于 2025-7-12 21:02

hawie 发表于 2025-7-12 20:14
谢谢。这个版本约125GB，以为VRAM放开或能放下呢。

macos无论怎么设置系统都会保留8GB内存。

hawie 发表于 2025-7-12 22:39

我輩樹である发表于 2025-7-12 21:02
macos无论怎么设置系统都会保留8GB内存。

M4pro 24GB内存的版本，这样设置后可以用 21GB VRAM，只设置上限是不够的：
sudo sysctl -w iogpu.wired_limit_mb=21504
sudo sysctl -w iogpu.wired_lwm_mb=19456
m4max估计相似，设置上下限，应也能支持。

放在引导时内存纯净更有效，创建并放在/etc/sysctl.conf之后重启生效：
# change default CPU/GPU RAM split
iogpu.wired_limit_mb=21504
iogpu.wired_lwm_mb=19456

我輩樹である 发表于 2025-7-12 22:44

hawie 发表于 2025-7-12 22:39
M4pro 24GB内存的版本，这样设置后可以用 21GB VRAM，只设置上限是不够的：
sudo sysctl -w iogpu.wired_ ...

我建议你看一下我的视频。[晕倒]

hawie 发表于 2025-7-12 22:50

我輩樹である发表于 2025-7-12 22:44
我建议你看一下我的视频。

不妨试试设置124GB（126976） <= VRAM <= 126GB（129024）。实际验证，只设置上限并不改变8GB的系统预留。

我輩樹である 发表于 2025-7-12 22:53

hawie 发表于 2025-7-12 22:50
不妨试试设置124GB（126976）

这两个命令我从m1时代就用起了。我当然知道作用。

测试就是没用，到120GB的时候，就开始swap，然后性能大幅度下降。

另外，你还要为prefill阶段准备空间，1w token下至少10GB吧。

我輩樹である 发表于 2025-7-12 22:54

为此我还装过asahi linux。我是做人工智能的，这点专业常识还是有的。

页: 1 2 [3] 4

Chiphell - 分享与交流用户体验's Archiver