找回密码
 加入我们
搜索
      
查看: 4242|回复: 52

[CPU] mac studio m3utral 跑 671b 模型速度出来了,很不错

[复制链接]
发表于 2025-3-11 21:30 | 显示全部楼层 |阅读模式
671b  4bt量化模型可以做到将近10token,速度不错啊

PixPin_2025-03-11_21-28-32.png

截图来自b站小白评测:
视频
发表于 2025-3-11 21:33 | 显示全部楼层
每秒10tokens很慢啊,也就是不在乎时间的情况下勉强能用而已,要比较好的体验至少要30tokens左右吧
发表于 2025-3-11 21:35 | 显示全部楼层
sthuasheng 发表于 2025-3-11 21:33
每秒10tokens很慢啊,也就是不在乎时间的情况下勉强能用而已,要比较好的体验至少要30tokens左右吧 ...

个人用有20就很可以了,眼睛基本就开始跟不上输出速度了。

发表于 2025-3-11 21:38 | 显示全部楼层
uprit 发表于 2025-3-11 21:35
个人用有20就很可以了,眼睛基本就开始跟不上输出速度了。

讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了
 楼主| 发表于 2025-3-11 21:38 | 显示全部楼层
还有个问题,像是b站这种提前可以测试的up主,他们的设备是苹果送的还是说可以提前购买?听小白的意思是提前购买的,并不是苹果送的
发表于 2025-3-11 21:42 | 显示全部楼层
他是用MLX还是ollama啊,我去看看
发表于 2025-3-11 21:47 | 显示全部楼层
uprit 发表于 2025-3-11 21:35
个人用有20就很可以了,眼睛基本就开始跟不上输出速度了。

不是这样的,之前的模型,10t/s 20t/s 差不多了……

现在推理模型输出量太大,无效 token 多,大一点的问题 20t/s 还是很不够啊,最好能有 50t/s 以上的速度
发表于 2025-3-11 21:52 | 显示全部楼层
双路 8581c  是不是更省一点?
发表于 2025-3-11 22:21 | 显示全部楼层
sthuasheng 发表于 2025-3-11 21:38
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 ...

这个确实。普通用户API足够了。而且Google Gemini 2.0那个速度吊打任何本地机, 还免费。
发表于 2025-3-11 22:28 | 显示全部楼层
张黑黑用512g版本跑mlx的ds r1 4bit,能到19 tokens

https://www.bilibili.com/video/B ... .card_archive.click
发表于 2025-3-11 22:33 | 显示全部楼层
sthuasheng 发表于 2025-3-11 21:38
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 ...

个人用买API省很多,又不是24小时跑,花不了几个钱。
发表于 2025-3-11 23:28 | 显示全部楼层
很不错 自己搭建性价比很高
发表于 2025-3-11 23:31 | 显示全部楼层
sthuasheng 发表于 2025-3-11 21:38
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 ...

好多年?大胆点,满月用到头七
发表于 2025-3-12 00:01 | 显示全部楼层
看到好几个up的测试结果都是~20tps左右,不知道他怎么测的只有~10tps不到
发表于 2025-3-12 00:29 | 显示全部楼层
MDC 发表于 2025-3-11 23:31
好多年?大胆点,满月用到头七

保守了,爷爷满月用到孙儿头七
发表于 2025-3-12 00:48 | 显示全部楼层
屏幕截图 2025-03-12 004438.png
默认只能调用75%的内存作为VRAM,小白没解锁所以VRAM根本装不下完整的671b模型(404 G)文件速度就慢了
发表于 2025-3-12 00:49 来自手机 | 显示全部楼层
可以,能揣包带走的8卡H100
发表于 2025-3-12 00:56 | 显示全部楼层
我选择用双2080TI 22G跑qwq-32B Q4,64K上下文,或者4路2080ti 22G拉满qwq-32B Q8 128K上下文,这配置便宜太多,qwq也能有9成满血R1的功力
发表于 2025-3-12 01:05 | 显示全部楼层
发现很多人只管模型跑起来,不考虑上下文的显存占用。普通的模型还过得去,但是现在火的R1、QWQ这些思维链模型都会有大量的思考过程,轻轻松松用掉大几千token,不得不考虑上下文,否则你会发现模型思考到后面都忘记了一开始的目的,或者陷入了思考循环。在B站都看到不少UP主测试qwq的时候有这个问题,还下结论说qwq很菜
发表于 2025-3-12 01:13 | 显示全部楼层
Dream_Seeker 发表于 2025-3-12 01:05
发现很多人只管模型跑起来,不考虑上下文的显存占用。普通的模型还过得去,但是现在火的R1、QWQ这些思维链 ...

确实,读一个两三页的pdf大概就要消耗6K的tokens。 8K的上下文根本顶不住
发表于 2025-3-12 07:44 | 显示全部楼层
如果证明路径可行,那么就非常省钱了,比如给企事业单位推广和部署低成本,容易买到,价格低的私有AI。 商业机密绝对是企事业最高优先级。 大有可为啊,算力卡对于普通预算紧张的企业几乎遥不可及且越来越难搞到。这个实验非常有意义。
发表于 2025-3-12 07:55 | 显示全部楼层
所以 mac studio 也能像 mini 那样用雷电 5 做集群吗?这样岂不是更牛逼?对于某些特定用户来说,可能是能耗比最佳的选择了吧。。。张黑黑的视频里说了,只要 60w 的功耗就能跑了。
发表于 2025-3-12 08:44 来自手机 | 显示全部楼层
我看另一个Up的用mlx已经跑到19T/s了
发表于 2025-3-12 08:45 | 显示全部楼层
MDC 发表于 2025-3-11 23:31
好多年?大胆点,满月用到头七

确实是这样
发表于 2025-3-12 08:56 | 显示全部楼层
sthuasheng 发表于 2025-3-11 21:38
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 ...

这就像NAS用户和网盘用户之争一样,网盘用户说你买硬盘、买硬件、装系统、装软件花的时间和金钱都够我百度网盘续费多少多少年了,
NAS用户说,你小电影变8秒
发表于 2025-3-12 08:59 | 显示全部楼层
williamqh 发表于 2025-3-11 22:21
这个确实。普通用户API足够了。而且Google Gemini 2.0那个速度吊打任何本地机, 还免费。 ...

gemini 那个合规怪就算了吧,回答的天衣无缝,滴水不漏,仔细一看,毫无软用
发表于 2025-3-12 09:11 | 显示全部楼层
kanshuderen 发表于 2025-3-12 07:55
所以 mac studio 也能像 mini 那样用雷电 5 做集群吗?这样岂不是更牛逼?对于某些特定用户来说,可能是能 ...

功耗没那么低,视频中用的asitop只能显示gpu的功耗,实际上跑这个周边功耗非常高,具体是哪里看不出来,猜测是统一内存的原因。

比如我的m4max,跑的时候gpu功耗也是60w不到,但是整机功耗直接拉满。

截屏2025-03-12 09.08.13.png
发表于 2025-3-12 09:21 | 显示全部楼层
不要说硬件折旧了,只考虑电费大概都是买API划算。
发表于 2025-3-12 09:32 | 显示全部楼层
Aresiusking 发表于 2025-3-12 00:48
默认只能调用75%的内存作为VRAM,小白没解锁所以VRAM根本装不下完整的671b模型(404 G)文件速度就慢了 ...

小白家,我看主要评测手机的,估计ai模型方面不擅长。
发表于 2025-3-12 09:35 | 显示全部楼层
gmlee1999 发表于 2025-3-11 22:33
个人用买API省很多,又不是24小时跑,花不了几个钱。

个人买DP的API,可以推荐个桌面和移动端的前端客户端软件么? cherry studio?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 04:14 , Processed in 0.014731 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表