找回密码
 加入我们
搜索
      
楼主: hawie

[电脑] 跨越不止一点——M4升级M4 Pro+4TB/32B至每秒17词

  [复制链接]
 楼主| 发表于 2025-3-14 12:31 | 显示全部楼层

比mac mini更mini的PC?选择不多吧。另外,9950x用液氮超频才在单核性能追上M4。如果mini PC定义是是小机器、高性能、低功耗,Mac mini应该算是。
 楼主| 发表于 2025-3-14 12:34 | 显示全部楼层
treeson 发表于 2025-3-12 09:22
最近在纠结mbp m4pro 48 512,还是m3max 48 1t,二手价格相差不大了,m3m贵个1k。追求性价比m3max很顶,40 ...

这个价位不考虑m4max 36gb 1tb?
发表于 2025-3-14 14:11 | 显示全部楼层
terryteng 发表于 2025-3-10 14:43
目前看机器要下周才送到,到时候跑一下。
按照同等配置的mbp,我看下来32B应该是20tokens/sec左右 ...

机器昨天拿到了,先上一轮跑分。
买的是M4Max + 64G + 1T,对比的是直营店里的M3Ultra + 96G,比较意外的是Geekbench-AI的跑分ultra似乎全面落后了。

M4 Max vs M3 Ultra.jpg


Blackmagic测试,只测了M4Max + 64G + 1T,比之前退掉的M4Pro + 64G + 2T只落后几百MB/s。

M4 Max Blackmagic.png


发表于 2025-3-14 14:20 | 显示全部楼层
本帖最后由 terryteng 于 2025-3-14 14:24 编辑
terryteng 发表于 2025-3-10 14:43
目前看机器要下周才送到,到时候跑一下。
按照同等配置的mbp,我看下来32B应该是20tokens/sec左右 ...


然后是跑大模型的结果,分别跑了qwq、gemma3:27b、deepseek-r1:32b、deepseek-r1:70b,基本是原本满配Mac Mini的翻倍,期待后续ollama支持mlx后可以再上一个小台阶。

M4Max Ollama qwq 32b.png M4Max Ollama gemma3 27b.png M4Max Ollama deepseek-r1 32b.png M4Max Ollama deepseek-r1 70b.png

评分

参与人数 1邪恶指数 +10 收起 理由
hawie + 10 666

查看全部评分

 楼主| 发表于 2025-3-14 16:34 | 显示全部楼层
terryteng 发表于 2025-3-14 14:11
机器昨天拿到了,先上一轮跑分。
买的是M4Max + 64G + 1T,对比的是直营店里的M3Ultra + 96G,比较意外的 ...

m4max选对了!
发表于 2025-3-14 16:52 | 显示全部楼层
厉害了,我mac studio m4盖 12999明天才到

评分

参与人数 1邪恶指数 +10 收起 理由
hawie + 10 这个配置经典,方便到了测试一下 ...

查看全部评分

 楼主| 发表于 2025-3-14 16:59 | 显示全部楼层
zylicheng 发表于 2025-3-14 16:52
厉害了,我mac studio m4盖 12999明天才到

这个配置与价格的确不是丐,是盖^_^,很有诱惑,方便到了也测试一下。
看看对tokens输出性能有没有影响。
发表于 2025-3-14 17:01 | 显示全部楼层
hawie 发表于 2025-3-14 16:59
这个配置与价格的确不是丐,是盖^_^,很有诱惑,方便到了也测试一下。
看看对tokens输出性能有没有影响。 ...

好的,明天到了,我测试一下
但是我还算是技术小白
装deepseek,估计要折腾一下。
 楼主| 发表于 2025-3-14 17:05 | 显示全部楼层
terryteng 发表于 2025-3-14 14:20
然后是跑大模型的结果,分别跑了qwq、gemma3:27b、deepseek-r1:32b、deepseek-r1:70b,基本是原本满配Mac ...

我用LM Studio试了一下mlx,效果不理想。然后,将ollama原来处理32b时,在m4pro 24gb占用 20%/80% cpu/gpu,调为了100% gpu之后,tokens提高了不少,从9-10 tokens/s 提升到了 16-17 tokens/s。测试数据更新在了一楼。

点评

mlx不理想是因为lm studio没能有效加载,认为模型超过内存。对于内存够的机器应该有不小提升。  发表于 2025-3-14 18:10
发表于 2025-3-14 20:07 | 显示全部楼层
看来m1ultra 128g 还能继续干饭
发表于 2025-3-15 01:15 | 显示全部楼层
第一我发现很多人对于模型后面跟着的Q4_K_M只字不提
第二MAC跑推理内存带宽才是王道,在M3 Ultra的819GB/s 内存带宽面前别的都是渣渣
第三MAC跑训练???
 楼主| 发表于 2025-3-15 07:32 | 显示全部楼层
本帖最后由 hawie 于 2025-3-15 08:57 编辑
bbzcat 发表于 2025-3-15 01:15
第一我发现很多人对于模型后面跟着的Q4_K_M只字不提
第二MAC跑推理内存带宽才是王道,在M3 Ultra的819GB/s  ...


一台机子,能跑的量化蒸馏模型不多,保留着参数,或者latest省略,都正常,除非经常换来换去。一般也就是每个模型留下最大能跑的那个。虽然我习惯拉取模型时选带具体参数的。

m3ultra 512gb很牛掰,能直接跑Q4满血R1,网测反馈速度有15.78 tokens/s (gguf)、19.17 tokens/s (mlx),是最省事的追求满血部署的高性价比成品了。
IMG_0372.png
mlx是为mac跑训练而生的,性能提升不小。

不过,入手一台机子,大都数人的生产力不在这方面。大模型只是顺带而为。量化、蒸馏损失再大,无关紧要,性能妥协而已。况且Mac studio选m3ultra也同样是一种性能妥协,这代m4没有设计ultra fusion接口(传言),所以没有m4ultra。不然,546GB/s*2的带宽,再加上m3到m4的换代性能跳跃,可想而知。

发表于 2025-3-15 08:21 | 显示全部楼层
显示器该换了。

评分

参与人数 1邪恶指数 +5 收起 理由
hawie + 5 火眼金睛啊^_^

查看全部评分

 楼主| 发表于 2025-3-15 08:45 | 显示全部楼层
zongt4 发表于 2025-3-15 08:21
显示器该换了。

这台是小朋友在用,友达7.0面板、4K160。为护眼,计划升U2725QE,又担心对付不了小朋友的FPS游戏。
发表于 2025-3-15 09:22 | 显示全部楼层
这么一看可以搞一个跑一下32B的模型,性能还是可以的
发表于 2025-3-15 09:35 | 显示全部楼层
hawie 发表于 2025-3-15 08:45
这台是小朋友在用,友达7.0面板、4K160。为护眼,计划升U2725QE,又担心对付不了小朋友的FPS游戏。 ...

直接U3225QE,我的U3223QE已经2年了,很不错。
发表于 2025-3-15 09:40 | 显示全部楼层
感谢分享~
发表于 2025-3-15 10:59 来自手机 | 显示全部楼层
请问楼主多少钱拿到手的?
 楼主| 发表于 2025-3-15 11:43 | 显示全部楼层
1楼所测AI模型,性能汇总为图表
截屏2025-03-15 11.30.50.png

已更新在1楼。
 楼主| 发表于 2025-3-15 11:55 | 显示全部楼层
dsp 发表于 2025-3-15 10:59
请问楼主多少钱拿到手的?

M4 Pro,双补¥8924入手。请朋友帮忙买的,人情最贵,未还^_^。
BTW:现在M4 Pro万兆版,JD官降了,国补价格¥9298,与双补¥8924差价很小了。
 楼主| 发表于 2025-3-15 12:02 | 显示全部楼层
M4 Pro的万兆网口,只加¥299了。苹果这价格真是……
发表于 2025-3-15 12:57 | 显示全部楼层

能跑17了?这代m4赢麻了。关心的信息都有,很用心,可堪精华!
 楼主| 发表于 2025-3-16 08:31 | 显示全部楼层
zylicheng 发表于 2025-3-14 17:01
好的,明天到了,我测试一下
但是我还算是技术小白
装deepseek,估计要折腾一下。 ...


macOS 比其他OS更容易安装deepseek:
1. 安装ollama,首页点下载、再安装即可。
  1. https://ollama.com
复制代码

2. 打开终端,运行模型。第一次运行检测到没有下载过模型,会自动下载。运行后,输入“你是谁”等任意问题,观察返回的性能。即可。
  1. ollama run hf.co/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF:Q4_K_M --verbose
复制代码

3. Ctrl+D或/bye退出。
下载时,有可能需要科学。
发表于 2025-3-16 08:37 | 显示全部楼层
hawie 发表于 2025-3-15 11:43
1楼所测AI模型,性能汇总为图表

请教一下100%GPU怎么设置?我现在用LM  STUDIO跑32B的,大概就是GGUF  10T/S,MLX  12T/S的样子,17的话速度挺快的
 楼主| 发表于 2025-3-16 08:47 | 显示全部楼层
haoyumena 发表于 2025-3-16 08:37
请教一下100%GPU怎么设置?我现在用LM  STUDIO跑32B的,大概就是GGUF  10T/S,MLX  12T/S的样子,17的话速 ...

修改这两个参数:最低Lower bound (iogpu.wired_lwm_mb),最高Maximum limit (iogpu.wired_limit_mb)。

查看,当前设置:
  1. sudo sysctl -a | grep iogpu.wired_lwm_mb   
  2. sudo sysctl -a | grep iogpu.wired_limit_mb
复制代码

修改设置。我所用模型是19GB大小,加载后ollama ps看到是21GB,默认占用20%/80% CPU/GPU,所以修改设置GPU为19GB ~ 21GB:
  1. sudo sysctl -w iogpu.wired_limit_mb=21504
  2. sudo sysctl -w iogpu.wired_lwm_mb=19456
复制代码

单位是MB,对应19*1024、21*1024。

设置后再运行模型,用ollama ps查看变成了100% GPU。
发表于 2025-3-16 09:50 | 显示全部楼层
hawie 发表于 2025-3-16 08:47
修改这两个参数:最低Lower bound (iogpu.wired_lwm_mb),最高Maximum limit (iogpu.wired_limit_mb)。

...


感谢。我查看了一下我自己的,默认这两个选项已经是0,然后ollama ps显示100%GPU,我自己的是64G的版本,之前测试的速度都是12t/s是基于LM STUDIO自己的CHAT UI,ollama是基于终端CLI的eval rate,按这个命令设置后速度并没有明显变化,推测0应该是指不限制,我之前已经是跑在100% GPU的状态了。

我看你的界面应该是cherry studio,我自己也下了一个来测试,调用ollama qwq 32B 4bit确实也是17t/s,如果LM STUDIO的QWQ 32B 4BIT MLX的话,显示是19T/S,这个符合我之前测试MLX框架比gguf快10-20%的结果。同样问题放到LM STUDIO的CHAT UI是12.5T/S,所以我觉得CHERRY STUDIO和LM、OLLAMA应该是存在统计口径差异的,红迪上LOCALLLM那里老外关于M4PRO测试讨论,速度和10-12这一个比较符合。
 楼主| 发表于 2025-3-16 10:19 | 显示全部楼层
haoyumena 发表于 2025-3-16 09:50
感谢。我查看了一下我自己的,默认这两个选项已经是0,然后ollama ps显示100%GPU,我自己的是64G的版本, ...

0是默认。不是无限制。
在我24GB的机型上,用LM Studio查看默认是16GB GPU。
截屏2025-03-16 10.12.37.png
修改设置后,用LM Studio显示是21GB GPU。
截屏2025-03-16 10.10.38.png
不过,LM Studio在我这非常不稳定,刚开始能加载的,下次可能加载不了。能用的时侯,显示的tokens/s跟ollama基本一致。

你有64GB,可以用指定GPU内存大小,试试挑战一下更大的模型或更高的量化参数?
发表于 2025-3-16 11:23 | 显示全部楼层
hawie 发表于 2025-3-16 10:19
0是默认。不是无限制。
在我24GB的机型上,用LM Studio查看默认是16GB GPU。

加载不了的话可以试试加载保护设置成“关”。64G默认VRAM是48G,基本大概就是70B 4bit这个规模的都可以应付了。LM STUDIO我自己用着挺稳定的,包括提供API给手机和单位电脑远程调用基本都没掉链子,而且MLX框架确实跑得比GGUF快,模型下载管理也方便。除了DOCKER部署OPENWEBUI调用API会出现回答完之后循环积累TOKEN的问题导致没法用这个我一直没解决。

64G看上去多,但实际我现在基本还是以32B 4BIT为主,主要考虑:
1.速度和质量比较均衡,R1的70B在中文语境生成质量没有比32B有明显优势,4BIT速度基本对半砍,我觉得5-10T/S和10-15T/S正好就是卡在速度能接受但有点慢和速度能接受但算快两档,如果能接受70B 4BIT的速度,我觉得32B 8BIT也可以用,速度基本一样的。
2.预留上下文还有其它模型的内存,例如BGE/M3、QWEN VL之类。
3.其它服务的占用,DOCKER、AI画图、达芬奇渲染这些,因为我机子不是纯跑LLM的。
买MINI时128G只能上MBP的M4MAX满血,预算翻倍了,这个有点扛不住。

评分

参与人数 1邪恶指数 +10 收起 理由
hawie + 10 感谢分享!64GB从容多了。

查看全部评分

发表于 2025-3-16 12:04 | 显示全部楼层
Geekbench 6 我其实很好奇具体怎么测的,反正我的MBP上风扇都不转,给人的感觉是根本没给到足够的压力……

都是离电Low Power模式,M3 Max 残血版,14-30

CPU得分,单线程2013,多线程14205,https://browser.geekbench.com/v6/cpu/11048796
GPU得分,Metal,112163,https://browser.geekbench.com/v6/compute/3840849

评分

参与人数 1邪恶指数 +10 收起 理由
hawie + 10 感谢分享!

查看全部评分

发表于 2025-3-16 12:32 | 显示全部楼层
算是苹果比较有诚意的小钢炮了.
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-25 13:51 , Processed in 0.017044 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表