mac studio m3utral 跑 671b 模型速度出来了，很不错

i6wz1l · 发表于 2025-3-11 21:30

671b 4bt量化模型可以做到将近10token，速度不错啊

截图来自b站小白评测：
视频

sthuasheng · 发表于 2025-3-11 21:33

提示: 作者被禁止或删除内容自动屏蔽

uprit · 发表于 2025-3-11 21:35

sthuasheng 发表于 2025-3-11 21:33
每秒10tokens很慢啊，也就是不在乎时间的情况下勉强能用而已，要比较好的体验至少要30tokens左右吧 ...

个人用有20就很可以了，眼睛基本就开始跟不上输出速度了。

sthuasheng · 发表于 2025-3-11 21:38

提示: 作者被禁止或删除内容自动屏蔽

i6wz1l · 发表于 2025-3-11 21:38

还有个问题，像是b站这种提前可以测试的up主，他们的设备是苹果送的还是说可以提前购买？听小白的意思是提前购买的，并不是苹果送的

PaperMellon · 发表于 2025-3-11 21:42

他是用MLX还是ollama啊，我去看看

Miner · 发表于 2025-3-11 21:47

uprit 发表于 2025-3-11 21:35
个人用有20就很可以了，眼睛基本就开始跟不上输出速度了。

不是这样的，之前的模型，10t/s 20t/s 差不多了……

现在推理模型输出量太大，无效 token 多，大一点的问题 20t/s 还是很不够啊，最好能有 50t/s 以上的速度

21mm · 发表于 2025-3-11 21:52

双路 8581c 是不是更省一点？

williamqh · 发表于 2025-3-11 22:21

sthuasheng 发表于 2025-3-11 21:38
讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了 ...

这个确实。普通用户API足够了。而且Google Gemini 2.0那个速度吊打任何本地机, 还免费。

gavinzyf · 发表于 2025-3-11 22:28

张黑黑用512g版本跑mlx的ds r1 4bit，能到19 tokens

https://www.bilibili.com/video/B ... .card_archive.click

gmlee1999 · 发表于 2025-3-11 22:33

sthuasheng 发表于 2025-3-11 21:38
讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了 ...

个人用买API省很多，又不是24小时跑，花不了几个钱。

jaycty · 发表于 2025-3-11 23:28

很不错自己搭建性价比很高

MDC · 发表于 2025-3-11 23:31

sthuasheng 发表于 2025-3-11 21:38
讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了 ...

好多年？大胆点，满月用到头七

LNT · 发表于 2025-3-12 00:01

看到好几个up的测试结果都是~20tps左右，不知道他怎么测的只有~10tps不到

夏络不名 · 发表于 2025-3-12 00:29

MDC 发表于 2025-3-11 23:31
好多年？大胆点，满月用到头七

保守了，爷爷满月用到孙儿头七

Aresiusking · 发表于 2025-3-12 00:48

默认只能调用75%的内存作为VRAM，小白没解锁所以VRAM根本装不下完整的671b模型（404 G）文件速度就慢了

LocaVoiD · 发表于 2025-3-12 00:49

可以，能揣包带走的8卡H100

Dream_Seeker · 发表于 2025-3-12 00:56

我选择用双2080TI 22G跑qwq-32B Q4，64K上下文，或者4路2080ti 22G拉满qwq-32B Q8 128K上下文，这配置便宜太多，qwq也能有9成满血R1的功力

Dream_Seeker · 发表于 2025-3-12 01:05

发现很多人只管模型跑起来，不考虑上下文的显存占用。普通的模型还过得去，但是现在火的R1、QWQ这些思维链模型都会有大量的思考过程，轻轻松松用掉大几千token，不得不考虑上下文，否则你会发现模型思考到后面都忘记了一开始的目的，或者陷入了思考循环。在B站都看到不少UP主测试qwq的时候有这个问题，还下结论说qwq很菜

LNT · 发表于 2025-3-12 01:13

Dream_Seeker 发表于 2025-3-12 01:05
发现很多人只管模型跑起来，不考虑上下文的显存占用。普通的模型还过得去，但是现在火的R1、QWQ这些思维链 ...

确实，读一个两三页的pdf大概就要消耗6K的tokens。 8K的上下文根本顶不住

wuxi001 · 发表于 2025-3-12 07:44

如果证明路径可行，那么就非常省钱了，比如给企事业单位推广和部署低成本，容易买到，价格低的私有AI。商业机密绝对是企事业最高优先级。大有可为啊，算力卡对于普通预算紧张的企业几乎遥不可及且越来越难搞到。这个实验非常有意义。

kanshuderen · 发表于 2025-3-12 07:55

所以 mac studio 也能像 mini 那样用雷电 5 做集群吗？这样岂不是更牛逼？对于某些特定用户来说，可能是能耗比最佳的选择了吧。。。张黑黑的视频里说了，只要 60w 的功耗就能跑了。

港城钢铁侠 · 发表于 2025-3-12 08:44

我看另一个Up的用mlx已经跑到19T/s了

明镜止水 · 发表于 2025-3-12 08:45

MDC 发表于 2025-3-11 23:31
好多年？大胆点，满月用到头七

确实是这样

chip_discovery · 发表于 2025-3-12 08:56

sthuasheng 发表于 2025-3-11 21:38
讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了 ...

这就像NAS用户和网盘用户之争一样，网盘用户说你买硬盘、买硬件、装系统、装软件花的时间和金钱都够我百度网盘续费多少多少年了，
NAS用户说，你小电影变8秒

chip_discovery · 发表于 2025-3-12 08:59

williamqh 发表于 2025-3-11 22:21
这个确实。普通用户API足够了。而且Google Gemini 2.0那个速度吊打任何本地机, 还免费。 ...

gemini 那个合规怪就算了吧，回答的天衣无缝，滴水不漏，仔细一看，毫无软用

我輩樹である · 发表于 2025-3-12 09:11

kanshuderen 发表于 2025-3-12 07:55
所以 mac studio 也能像 mini 那样用雷电 5 做集群吗？这样岂不是更牛逼？对于某些特定用户来说，可能是能 ...

功耗没那么低，视频中用的asitop只能显示gpu的功耗，实际上跑这个周边功耗非常高，具体是哪里看不出来，猜测是统一内存的原因。

比如我的m4max，跑的时候gpu功耗也是60w不到，但是整机功耗直接拉满。

截屏2025-03-12 09.08.13.png

af_x_if · 发表于 2025-3-12 09:21

不要说硬件折旧了，只考虑电费大概都是买API划算。

bingshitian · 发表于 2025-3-12 09:32

Aresiusking 发表于 2025-3-12 00:48
默认只能调用75%的内存作为VRAM，小白没解锁所以VRAM根本装不下完整的671b模型（404 G）文件速度就慢了 ...

小白家，我看主要评测手机的，估计ai模型方面不擅长。

fatbamboo · 发表于 2025-3-12 09:35

gmlee1999 发表于 2025-3-11 22:33
个人用买API省很多，又不是24小时跑，花不了几个钱。

个人买DP的API，可以推荐个桌面和移动端的前端客户端软件么？ cherry studio?

账号		自动登录	找回密码
密码			加入我们

sthuasheng sthuasheng 当前离线积分 22607	发表于 2025-3-11 21:33 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
sthuasheng sthuasheng 当前离线积分 22607
	回复举报

sthuasheng sthuasheng 当前离线积分 22607	发表于 2025-3-11 21:38 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
sthuasheng sthuasheng 当前离线积分 22607
	回复举报

[CPU] mac studio m3utral 跑 671b 模型速度出来了，很不错

浏览过的版块