找回密码
 加入我们
搜索
      
楼主: lh4357

[显卡] 5090D用ollama跑deepseek r1 32b的效果。

[复制链接]
发表于 2025-2-16 04:39 | 显示全部楼层
lh4357 发表于 2025-2-8 13:41
反正跑32b是永远吃不满。

5090我测下来可以跑到50t, 功耗480w,你再测测看看是不是软件更新适配了50系?
发表于 2025-2-16 10:05 来自手机 | 显示全部楼层
6800xt跑越狱版32b不到6t,勉强能用用
发表于 2025-2-16 10:19 | 显示全部楼层
家用跑模型还得看mac
发表于 2025-2-16 10:31 | 显示全部楼层
Technik 发表于 2025-2-7 13:18
4090D
total duration:       37.2562216s
load duration:        20.0582ms

我也好奇试了下,也是4090D

微信图片_20250216103057.png
 楼主| 发表于 2025-2-16 12:00 | 显示全部楼层
zcyandrew 发表于 2025-2-16 04:39
5090我测下来可以跑到50t, 功耗480w,你再测测看看是不是软件更新适配了50系? ...

更新软件了,试了下,果然有提升。
101.png

102.png
发表于 2025-2-16 13:31 | 显示全部楼层
lh4357 发表于 2025-2-16 12:00
更新软件了,试了下,果然有提升。

那这次真锁了个寂寞?你有测过训练吗
 楼主| 发表于 2025-2-16 13:35 | 显示全部楼层
zcyandrew 发表于 2025-2-16 13:31
那这次真锁了个寂寞?你有测过训练吗

我不知道拿啥测训练。

常用的都是声音模型,但torchaudio居然到现在还没人编译个cuda12.8出来。。
发表于 2025-2-16 22:49 | 显示全部楼层
本帖最后由 p_ricky777 于 2025-2-16 22:52 编辑

发表于 2025-2-25 11:47 | 显示全部楼层
这个效果已经很好了,网上大把人部署的本地模型 10 tokens/s 都没有。
问题的复杂程度和输出的tokens/s 没有什么关系,问你好和问你十八代祖宗姓什么都差不多。
发表于 2025-2-25 11:48 | 显示全部楼层
lbb68 发表于 2025-2-7 11:32
缩水版的 都是弱智,有啥用?

32B还有有些用的,企业方案落地里
发表于 2025-7-11 14:01 | 显示全部楼层
用老迈的3090跑了一下,好像也还行,有30+的tokens/s。
截图 2025-07-11 13-58-17.png
发表于 2025-7-11 14:07 | 显示全部楼层
lh4357 发表于 2025-2-7 11:40
反正问了好几个问题都是30-40之间,然后功耗只有不到350W。

最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。
发表于 2025-7-11 14:14 | 显示全部楼层
KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。 ...

我感觉和你类似。
发表于 2025-7-11 14:15 | 显示全部楼层
楼主,你去问他今天距离9.3号还有几天保准你震惊
 楼主| 发表于 2025-7-11 14:17 | 显示全部楼层
KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。 ...

有人挖坟。。

你看看发帖日期。
发表于 2025-7-11 14:28 | 显示全部楼层
lh4357 发表于 2025-7-11 14:17
有人挖坟。。

你看看发帖日期。

忘记了......我说了怎么这么突兀
发表于 2025-7-11 15:58 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-7-11 15:59 编辑
KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。 ...


非ud2.0(unsloth搞的动态量化)


ud2.0


之前在128GBM4MAX上测的,勉强可以跑q3的Qwen3-235b-a22b。

原始版本prefill很容易爆显存,ud2.0后勉强能跑,大概十几问后(1w+ token后)才会爆。

速度12-17tps。
发表于 2025-7-11 16:17 来自手机 | 显示全部楼层
ter 发表于 2025-2-7 11:31
m4max 32B-4bit mlx:
24.48 tok/sec • 300 tokens • 0.50s to first token


m1max能跑到15token/sec,我觉得很不错了。
发表于 2025-7-11 19:09 | 显示全部楼层
我輩樹である 发表于 2025-7-11 15:58
非ud2.0(unsloth搞的动态量化)

https://huggingface.co/Qwen/Qwen3-235B-A22B-MLX-4bit,这个mlx版能不能在128GB M4 MAX跑?mlx版速度还是要快不少。
发表于 2025-7-11 19:15 来自手机 | 显示全部楼层
KimmyGLM 发表于 2025-7-11 06:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。 ...

有20g以上显存妥妥用moe模型 235b激活参数19gb大小
发表于 2025-7-11 19:58 | 显示全部楼层
哪里下载的, 我看下我的59魔鹰满血跑多少
发表于 2025-7-11 20:23 | 显示全部楼层
hawie 发表于 2025-7-11 19:09
https://huggingface.co/Qwen/Qwen3-235B-A22B-MLX-4bit,这个mlx版能不能在128GB M4 MAX跑?mlx版速度还 ...

4bit放不下。
发表于 2025-7-12 09:42 | 显示全部楼层
5090 超级雕测试题滤波器.png ,可以的
发表于 2025-7-12 20:14 | 显示全部楼层

谢谢。这个版本约125GB,以为VRAM放开或能放下呢。
发表于 2025-7-12 21:02 | 显示全部楼层
hawie 发表于 2025-7-12 20:14
谢谢。这个版本约125GB,以为VRAM放开或能放下呢。

macos无论怎么设置系统都会保留8GB内存。
发表于 2025-7-12 22:39 | 显示全部楼层
我輩樹である 发表于 2025-7-12 21:02
macos无论怎么设置系统都会保留8GB内存。

M4pro 24GB内存的版本,这样设置后可以用 21GB VRAM,只设置上限是不够的:
sudo sysctl -w iogpu.wired_limit_mb=21504
sudo sysctl -w iogpu.wired_lwm_mb=19456
m4max估计相似,设置上下限,应也能支持。

放在引导时内存纯净更有效,创建并放在/etc/sysctl.conf之后重启生效:
# change default CPU/GPU RAM split
iogpu.wired_limit_mb=21504
iogpu.wired_lwm_mb=19456
发表于 2025-7-12 22:44 | 显示全部楼层
hawie 发表于 2025-7-12 22:39
M4pro 24GB内存的版本,这样设置后可以用 21GB VRAM,只设置上限是不够的:
sudo sysctl -w iogpu.wired_ ...

我建议你看一下我的视频。
发表于 2025-7-12 22:50 | 显示全部楼层
我輩樹である 发表于 2025-7-12 22:44
我建议你看一下我的视频。

不妨试试设置124GB(126976) <= VRAM <= 126GB(129024)。实际验证,只设置上限并不改变8GB的系统预留。
发表于 2025-7-12 22:53 | 显示全部楼层
hawie 发表于 2025-7-12 22:50
不妨试试设置124GB(126976)

这两个命令我从m1时代就用起了。我当然知道作用。

测试就是没用,到120GB的时候,就开始swap,然后性能大幅度下降。

另外,你还要为prefill阶段准备空间,1w token下至少10GB吧。
发表于 2025-7-12 22:54 | 显示全部楼层
为此我还装过asahi linux。我是做人工智能的,这点专业常识还是有的。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-7-18 07:51 , Processed in 0.015362 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表