找回密码
 加入我们
搜索
      
查看: 11102|回复: 71

[显卡] 新手本地LLM折腾分享

[复制链接]
发表于 2025-2-13 12:13 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W

快个鸡毛,最多也就10t/s的水平

发表于 2025-2-13 12:57 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。

发表于 2025-2-13 16:21 | 显示全部楼层
Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

就是上下文的影响。上下文越长,显存占用越大,推理速度越慢。ollama默认只有2k上下文。

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-6-30 15:08 , Processed in 0.007600 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表