hawie
发表于 2025-3-14 12:31
xyang01 发表于 2025-3-13 09:41
可以当mini PC?
比mac mini更mini的PC?选择不多吧。另外,9950x用液氮超频才在单核性能追上M4。如果mini PC定义是是小机器、高性能、低功耗,Mac mini应该算是。
hawie
发表于 2025-3-14 12:34
treeson 发表于 2025-3-12 09:22
最近在纠结mbp m4pro 48 512,还是m3max 48 1t,二手价格相差不大了,m3m贵个1k。追求性价比m3max很顶,40 ...
这个价位不考虑m4max 36gb 1tb?
terryteng
发表于 2025-3-14 14:11
terryteng 发表于 2025-3-10 14:43
目前看机器要下周才送到,到时候跑一下。
按照同等配置的mbp,我看下来32B应该是20tokens/sec左右 ...
机器昨天拿到了,先上一轮跑分。
买的是M4Max + 64G + 1T,对比的是直营店里的M3Ultra + 96G,比较意外的是Geekbench-AI的跑分ultra似乎全面落后了。
Blackmagic测试,只测了M4Max + 64G + 1T,比之前退掉的M4Pro + 64G + 2T只落后几百MB/s。
terryteng
发表于 2025-3-14 14:20
本帖最后由 terryteng 于 2025-3-14 14:24 编辑
terryteng 发表于 2025-3-10 14:43
目前看机器要下周才送到,到时候跑一下。
按照同等配置的mbp,我看下来32B应该是20tokens/sec左右 ...
然后是跑大模型的结果,分别跑了qwq、gemma3:27b、deepseek-r1:32b、deepseek-r1:70b,基本是原本满配Mac Mini的翻倍,期待后续ollama支持mlx后可以再上一个小台阶。
hawie
发表于 2025-3-14 16:34
terryteng 发表于 2025-3-14 14:11
机器昨天拿到了,先上一轮跑分。
买的是M4Max + 64G + 1T,对比的是直营店里的M3Ultra + 96G,比较意外的 ...
m4max选对了!
zylicheng
发表于 2025-3-14 16:52
厉害了,我mac studio m4盖 12999明天才到
hawie
发表于 2025-3-14 16:59
zylicheng 发表于 2025-3-14 16:52
厉害了,我mac studio m4盖 12999明天才到
这个配置与价格的确不是丐,是盖^_^,很有诱惑,方便到了也测试一下。
看看对tokens输出性能有没有影响。
zylicheng
发表于 2025-3-14 17:01
hawie 发表于 2025-3-14 16:59
这个配置与价格的确不是丐,是盖^_^,很有诱惑,方便到了也测试一下。
看看对tokens输出性能有没有影响。 ...
好的,明天到了,我测试一下
但是我还算是技术小白
装deepseek,估计要折腾一下。
hawie
发表于 2025-3-14 17:05
terryteng 发表于 2025-3-14 14:20
然后是跑大模型的结果,分别跑了qwq、gemma3:27b、deepseek-r1:32b、deepseek-r1:70b,基本是原本满配Mac ...
我用LM Studio试了一下mlx,效果不理想。然后,将ollama原来处理32b时,在m4pro 24gb占用 20%/80% cpu/gpu,调为了100% gpu之后,tokens提高了不少,从9-10 tokens/s 提升到了 16-17 tokens/s。测试数据更新在了一楼。
八喜
发表于 2025-3-14 20:07
看来m1ultra 128g 还能继续干饭
bbzcat
发表于 2025-3-15 01:15
第一我发现很多人对于模型后面跟着的Q4_K_M只字不提
第二MAC跑推理内存带宽才是王道,在M3 Ultra的819GB/s 内存带宽面前别的都是渣渣
第三MAC跑训练???
hawie
发表于 2025-3-15 07:32
本帖最后由 hawie 于 2025-3-15 08:57 编辑
bbzcat 发表于 2025-3-15 01:15
第一我发现很多人对于模型后面跟着的Q4_K_M只字不提
第二MAC跑推理内存带宽才是王道,在M3 Ultra的819GB/s...
一台机子,能跑的量化蒸馏模型不多,保留着参数,或者latest省略,都正常,除非经常换来换去。一般也就是每个模型留下最大能跑的那个。虽然我习惯拉取模型时选带具体参数的。
m3ultra 512gb很牛掰,能直接跑Q4满血R1,网测反馈速度有15.78 tokens/s (gguf)、19.17 tokens/s (mlx),是最省事的追求满血部署的高性价比成品了。
mlx是为mac跑训练而生的,性能提升不小。
不过,入手一台机子,大都数人的生产力不在这方面。大模型只是顺带而为。量化、蒸馏损失再大,无关紧要,性能妥协而已。况且Mac studio选m3ultra也同样是一种性能妥协,这代m4没有设计ultra fusion接口(传言),所以没有m4ultra。不然,546GB/s*2的带宽,再加上m3到m4的换代性能跳跃,可想而知。
zongt4
发表于 2025-3-15 08:21
显示器该换了。
hawie
发表于 2025-3-15 08:45
zongt4 发表于 2025-3-15 08:21
显示器该换了。
这台是小朋友在用,友达7.0面板、4K160。为护眼,计划升U2725QE,又担心对付不了小朋友的FPS游戏。
rockchen0717
发表于 2025-3-15 09:22
这么一看可以搞一个跑一下32B的模型,性能还是可以的
zongt4
发表于 2025-3-15 09:35
hawie 发表于 2025-3-15 08:45
这台是小朋友在用,友达7.0面板、4K160。为护眼,计划升U2725QE,又担心对付不了小朋友的FPS游戏。 ...
直接U3225QE,我的U3223QE已经2年了,很不错。
FK10086
发表于 2025-3-15 09:40
感谢分享~
dsp
发表于 2025-3-15 10:59
hawie
发表于 2025-3-15 11:43
1楼所测AI模型,性能汇总为图表
已更新在1楼。
hawie
发表于 2025-3-15 11:55
dsp 发表于 2025-3-15 10:59
请问楼主多少钱拿到手的?
M4 Pro,双补¥8924入手。请朋友帮忙买的,人情最贵,未还^_^。
BTW:现在M4 Pro万兆版,JD官降了,国补价格¥9298,与双补¥8924差价很小了。
hawie
发表于 2025-3-15 12:02
M4 Pro的万兆网口,只加¥299了。苹果这价格真是……
最美时光
发表于 2025-3-15 12:57
最美时光 发表于 2025-3-10 00:39
m4pro跑32b还可以啊
能跑17了?这代m4赢麻了。关心的信息都有,很用心,可堪精华!
hawie
发表于 2025-3-16 08:31
zylicheng 发表于 2025-3-14 17:01
好的,明天到了,我测试一下
但是我还算是技术小白
装deepseek,估计要折腾一下。 ...
macOS 比其他OS更容易安装deepseek:
1. 安装ollama,首页点下载、再安装即可。
https://ollama.com
2. 打开终端,运行模型。第一次运行检测到没有下载过模型,会自动下载。运行后,输入“你是谁”等任意问题,观察返回的性能。即可。
ollama run hf.co/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF:Q4_K_M --verbose
3. Ctrl+D或/bye退出。
下载时,有可能需要科学。
haoyumena
发表于 2025-3-16 08:37
hawie 发表于 2025-3-15 11:43
1楼所测AI模型,性能汇总为图表
请教一下100%GPU怎么设置?我现在用LMSTUDIO跑32B的,大概就是GGUF10T/S,MLX12T/S的样子,17的话速度挺快的
hawie
发表于 2025-3-16 08:47
haoyumena 发表于 2025-3-16 08:37
请教一下100%GPU怎么设置?我现在用LMSTUDIO跑32B的,大概就是GGUF10T/S,MLX12T/S的样子,17的话速 ...
修改这两个参数:最低Lower bound (iogpu.wired_lwm_mb),最高Maximum limit (iogpu.wired_limit_mb)。
查看,当前设置:
sudo sysctl -a | grep iogpu.wired_lwm_mb
sudo sysctl -a | grep iogpu.wired_limit_mb
修改设置。我所用模型是19GB大小,加载后ollama ps看到是21GB,默认占用20%/80% CPU/GPU,所以修改设置GPU为19GB ~ 21GB:
sudo sysctl -w iogpu.wired_limit_mb=21504
sudo sysctl -w iogpu.wired_lwm_mb=19456
单位是MB,对应19*1024、21*1024。
设置后再运行模型,用ollama ps查看变成了100% GPU。
haoyumena
发表于 2025-3-16 09:50
hawie 发表于 2025-3-16 08:47
修改这两个参数:最低Lower bound (iogpu.wired_lwm_mb),最高Maximum limit (iogpu.wired_limit_mb)。
...
感谢。我查看了一下我自己的,默认这两个选项已经是0,然后ollama ps显示100%GPU,我自己的是64G的版本,之前测试的速度都是12t/s是基于LM STUDIO自己的CHAT UI,ollama是基于终端CLI的eval rate,按这个命令设置后速度并没有明显变化,推测0应该是指不限制,我之前已经是跑在100% GPU的状态了。
我看你的界面应该是cherry studio,我自己也下了一个来测试,调用ollama qwq 32B 4bit确实也是17t/s,如果LM STUDIO的QWQ 32B 4BIT MLX的话,显示是19T/S,这个符合我之前测试MLX框架比gguf快10-20%的结果。同样问题放到LM STUDIO的CHAT UI是12.5T/S,所以我觉得CHERRY STUDIO和LM、OLLAMA应该是存在统计口径差异的,红迪上LOCALLLM那里老外关于M4PRO测试讨论,速度和10-12这一个比较符合。
hawie
发表于 2025-3-16 10:19
haoyumena 发表于 2025-3-16 09:50
感谢。我查看了一下我自己的,默认这两个选项已经是0,然后ollama ps显示100%GPU,我自己的是64G的版本, ...
0是默认。不是无限制。
在我24GB的机型上,用LM Studio查看默认是16GB GPU。
修改设置后,用LM Studio显示是21GB GPU。
不过,LM Studio在我这非常不稳定,刚开始能加载的,下次可能加载不了。能用的时侯,显示的tokens/s跟ollama基本一致。
你有64GB,可以用指定GPU内存大小,试试挑战一下更大的模型或更高的量化参数?
haoyumena
发表于 2025-3-16 11:23
hawie 发表于 2025-3-16 10:19
0是默认。不是无限制。
在我24GB的机型上,用LM Studio查看默认是16GB GPU。
加载不了的话可以试试加载保护设置成“关”。64G默认VRAM是48G,基本大概就是70B 4bit这个规模的都可以应付了。LM STUDIO我自己用着挺稳定的,包括提供API给手机和单位电脑远程调用基本都没掉链子,而且MLX框架确实跑得比GGUF快,模型下载管理也方便。除了DOCKER部署OPENWEBUI调用API会出现回答完之后循环积累TOKEN的问题导致没法用这个我一直没解决。
64G看上去多,但实际我现在基本还是以32B 4BIT为主,主要考虑:
1.速度和质量比较均衡,R1的70B在中文语境生成质量没有比32B有明显优势,4BIT速度基本对半砍,我觉得5-10T/S和10-15T/S正好就是卡在速度能接受但有点慢和速度能接受但算快两档,如果能接受70B 4BIT的速度,我觉得32B 8BIT也可以用,速度基本一样的。
2.预留上下文还有其它模型的内存,例如BGE/M3、QWEN VL之类。
3.其它服务的占用,DOCKER、AI画图、达芬奇渲染这些,因为我机子不是纯跑LLM的。
买MINI时128G只能上MBP的M4MAX满血,预算翻倍了,这个有点扛不住。
fevaoctwh
发表于 2025-3-16 12:04
Geekbench 6 我其实很好奇具体怎么测的,反正我的MBP上风扇都不转,给人的感觉是根本没给到足够的压力……
都是离电Low Power模式,M3 Max 残血版,14-30
CPU得分,单线程2013,多线程14205,https://browser.geekbench.com/v6/cpu/11048796
GPU得分,Metal,112163,https://browser.geekbench.com/v6/compute/3840849
makxma
发表于 2025-3-16 12:32
算是苹果比较有诚意的小钢炮了.