lh4357 发表于 2025-2-8 13:41
反正跑32b是永远吃不满。
5090我测下来可以跑到50t, 功耗480w,你再测测看看是不是软件更新适配了50系?
6800xt跑越狱版32b不到6t,勉强能用用
家用跑模型还得看mac
Technik 发表于 2025-2-7 13:18
4090D
total duration: 37.2562216s
load duration: 20.0582ms
我也好奇试了下,也是4090D
zcyandrew 发表于 2025-2-16 04:39
5090我测下来可以跑到50t, 功耗480w,你再测测看看是不是软件更新适配了50系? ...
更新软件了,试了下,果然有提升。[狂笑]
lh4357 发表于 2025-2-16 12:00
更新软件了,试了下,果然有提升。
那这次真锁了个寂寞?你有测过训练吗
zcyandrew 发表于 2025-2-16 13:31
那这次真锁了个寂寞?你有测过训练吗
我不知道拿啥测训练。
常用的都是声音模型,但torchaudio居然到现在还没人编译个cuda12.8出来。。
本帖最后由 p_ricky777 于 2025-2-16 22:52 编辑
[震惊]
这个效果已经很好了,网上大把人部署的本地模型 10 tokens/s 都没有。
问题的复杂程度和输出的tokens/s 没有什么关系,问你好和问你十八代祖宗姓什么都差不多。
lbb68 发表于 2025-2-7 11:32
缩水版的 都是弱智,有啥用?
32B还有有些用的,企业方案落地里
用老迈的3090跑了一下,好像也还行,有30+的tokens/s。
lh4357 发表于 2025-2-7 11:40
反正问了好几个问题都是30-40之间,然后功耗只有不到350W。
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。
KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。 ...
我感觉和你类似。
楼主,你去问他今天距离9.3号还有几天[偷笑]保准你震惊
KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。 ...
有人挖坟。。
你看看发帖日期。
lh4357 发表于 2025-7-11 14:17
有人挖坟。。
你看看发帖日期。
忘记了......我说了怎么这么突兀
本帖最后由 我輩樹である 于 2025-7-11 15:59 编辑
KimmyGLM 发表于 2025-7-11 14:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。 ...
非ud2.0(unsloth搞的动态量化)
https://www.bilibili.com/video/BV1weVHz2Ejh/
ud2.0
https://www.bilibili.com/video/BV1gmEqzDEM3/
之前在128GBM4MAX上测的,勉强可以跑q3的Qwen3-235b-a22b。
原始版本prefill很容易爆显存,ud2.0后勉强能跑,大概十几问后(1w+ token后)才会爆。
速度12-17tps。
ter 发表于 2025-2-7 11:31
m4max 32B-4bit mlx:
24.48 tok/sec • 300 tokens • 0.50s to first token
m1max能跑到15token/sec,我觉得很不错了。
我輩樹である 发表于 2025-7-11 15:58
非ud2.0(unsloth搞的动态量化)
https://huggingface.co/Qwen/Qwen3-235B-A22B-MLX-4bit,这个mlx版能不能在128GB M4 MAX跑?mlx版速度还是要快不少。
KimmyGLM 发表于 2025-7-11 06:07
最强30B / 32B 现在是qwq32b( 备选qwen3 30B) ,以后别用ds的蒸馏小模型了,真的没有竞争力。 ...
有20g以上显存妥妥用moe模型 235b激活参数19gb大小
哪里下载的, 我看下我的59魔鹰满血跑多少
hawie 发表于 2025-7-11 19:09
https://huggingface.co/Qwen/Qwen3-235B-A22B-MLX-4bit,这个mlx版能不能在128GB M4 MAX跑?mlx版速度还 ...
4bit放不下。
5090,可以的
我輩樹である 发表于 2025-7-11 20:23
4bit放不下。
谢谢。这个版本约125GB,以为VRAM放开或能放下呢。
hawie 发表于 2025-7-12 20:14
谢谢。这个版本约125GB,以为VRAM放开或能放下呢。
macos无论怎么设置系统都会保留8GB内存。
我輩樹である 发表于 2025-7-12 21:02
macos无论怎么设置系统都会保留8GB内存。
M4pro 24GB内存的版本,这样设置后可以用 21GB VRAM,只设置上限是不够的:
sudo sysctl -w iogpu.wired_limit_mb=21504
sudo sysctl -w iogpu.wired_lwm_mb=19456
m4max估计相似,设置上下限,应也能支持。
放在引导时内存纯净更有效,创建并放在/etc/sysctl.conf之后重启生效:
# change default CPU/GPU RAM split
iogpu.wired_limit_mb=21504
iogpu.wired_lwm_mb=19456
hawie 发表于 2025-7-12 22:39
M4pro 24GB内存的版本,这样设置后可以用 21GB VRAM,只设置上限是不够的:
sudo sysctl -w iogpu.wired_ ...
我建议你看一下我的视频。[晕倒]
我輩樹である 发表于 2025-7-12 22:44
我建议你看一下我的视频。
不妨试试设置124GB(126976) <= VRAM <= 126GB(129024)。实际验证,只设置上限并不改变8GB的系统预留。
hawie 发表于 2025-7-12 22:50
不妨试试设置124GB(126976)
这两个命令我从m1时代就用起了。我当然知道作用。
测试就是没用,到120GB的时候,就开始swap,然后性能大幅度下降。
另外,你还要为prefill阶段准备空间,1w token下至少10GB吧。
为此我还装过asahi linux。我是做人工智能的,这点专业常识还是有的。