新手本地LLM折腾分享

uprit · 发表于 2025-2-13 12:13

港城钢铁侠发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快，毕竟带宽500多GB/s，价格3个W

快个鸡毛，最多也就10t/s的水平

uprit · 发表于 2025-2-13 12:57

港城钢铁侠发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s，70B模型大一倍，不太可能到20t/s。

uprit · 发表于 2025-2-13 16:21

Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

就是上下文的影响。上下文越长，显存占用越大，推理速度越慢。ollama默认只有2k上下文。

账号		自动登录	找回密码
密码			加入我们

[显卡] 新手本地LLM折腾分享