求教如何选购本地AI部署的硬件系统（超级私人秘书），5090或者Mac Studio Ultra3等

enolc · 发表于 2025-7-6 23:37

本帖最后由 enolc 于 2025-7-6 23:48 编辑

1，目前一块5090拿来当超级小秘，平时工作，娱乐，投资，音频视频剪辑和日常所有的问题都往里扔，几年以后想起来随时问AI以前的任何内容或者相关文件资料，还可以教AI学习和分析理财和投资（初始阶段是在做数据积累），用了一段时间 32b感觉反馈的信息还不够具体和准确，想着70b应该会好很多，无奈5090跑70b也很勉强，必须上专业卡，貌似双5090也只能做推理。

2，还有一种思路就是上48G或者96G的Mac Studio Ultra3 或者等Ultra 4， M4 Pro内存最多64GB。

3，以上所有硬盘都有异地物理备份，防止意外情况发生。

4，平时也用API service作为参考，但是很多信息（涉及到需要隐私保护和保密信息，包括项目具体参数，单位和个人信息）还是觉得不安全。公私合用的时候，用单位电脑还是很不方便。

以下是Grok的比较和解决方案：

jaycty · 发表于 2025-7-7 00:44

性价比最更高的方案应该就是买MAC STUTDIO 至少192GB内存的好像价格是三五万吧

邻居王富贵老师 · 发表于 2025-7-7 01:02

你会发现70b也各种异想天开答非所问脑部万物，还是无法与o3的结果有任何可比性。

你试试看4090 48G双卡

awpak78 · 发表于 2025-7-7 10:02

5090显存太小，跑32B也吃不下太长上下文
Mac Studio速度太慢，72B就已经够慢，吃完长提示词直接慢到失去实用价值
总结就是都跑不了

真想跑72B建议买两块L20 48G

求求AI草履虫们别盯着显存/内存够大=能跑了
连MCP说明都吃不下=什么智能生态都接入不了
吃完MCP速度慢成屎=随便输入点什么反应时间都是10s起步级的慢

l0stc0mpass · 发表于 2025-7-7 11:18

想法很好，但目前大模型达不到你想要的。抛开硬件性能什么的先不谈。模型本身就没有你认为的“记忆”能力。记忆能力都是单独由第三方做的。而且目前没有能管理大量数据又能根据问题百分比精确找出来你要的数据的方法。
再说“聪明程度”，参数越大确实在表现力上更好，会看起来好像更聪明，然而和能不能准确回答问题无关。
现在的AI使用的能给到你用的能有7-8B就不错了（这块数据很多都不公开）。为啥你用32B甚至72B的在整体效果上都比不过在线的7-8B的？
不要以为在线的AI（chat**）≈本地的，实际上差距巨大。在线平台牛逼一个原因是私有模型，另一个原因是你用的在线平台不是直接用的模型，用的是在线平台给你提供的一整套的RAG或者说的高大上一点就是智能体，总之是一整套的系统而不是单纯的模型。你问个问题：“现在的日期是？”你看你本地的模型能回答出来不？但是在线的平台就能回答，原因是在线的平台在模型之外做了超乎你想象的其它工作。

所以你的目标：
拿来当超级小秘，平时工作，娱乐，投资，音频视频剪辑和日常所有的问题都往里扔，几年以后想起来随时问AI以前的任何内容或者相关文件资料，还可以教AI学习和分析理财和投资（初始阶段是在做数据积累）

不是用大参数的模型、用更强的硬件能解决的。你需要在本地解决记忆能力、精准的数据检索能力、非文本数据的抽取能力、对于图片等你还需要牛逼的OCR能力。所以对于你目前的更实际的解决方案是：
1. 用5090（还是Mac Studio Ultra3无所为，能跑到超过20Token/Sec就行了）跑32B的qwen3足够了，用作问问题；
2. 老实记笔记，将遇到的数据都记录成文本的或者图片的
3. 等待有一个牛逼的开源或者本地能部署的牛逼的系统出来，在此之前可以用用：openwebui、lmstudio、ollama，有点动手能力可以尝试部署dify这个端到端的解决方案。

还有一个方案，那就是微调自己的模型，那你就不用解决记忆能力了。但杀鸡为啥用牛刀，你要能拿得起牛刀才行。

enolc · 发表于 2025-7-7 11:19

awpak78 发表于 2025-7-7 10:02
5090显存太小，跑32B也吃不下太长上下文
Mac Studio速度太慢，72B就已经够慢，吃完长提示词直接慢到失去实 ...

确实如此，长上下文太长，5090跑32b也不是那么顺畅

tankren · 发表于 2025-7-7 11:40

不如买服务然后用API吧

PaperMellon · 发表于 2025-7-7 12:16

这个表本身就很不准确。mac作为推理用的话，那些模型都是能跑的。不适合训练的确。也不需要转coreml, 而且coreml也根本不是这个用的啊，要转也是转mlx跑（更快）。
它和5090比就是远远弱的算力(5090有tensor core)以及远高的显存（苹果的UMA）。在5090显存允许的模型内，m3 ultra跑死都跑不过5090的速度，但是一旦模型开始大起来，比如4bit的完整deepseek R1, 单个5090就跑不起来，m3 ultra就能跑。
但是context length，又或者说体验上的记忆能力/联系上下文能力，就不如官网云端，还是受限于512G显存不够大。

说白了，在当下消费级领域，想自己跑完整的大模型就没有合适的设备。mac studio m3 ultra也不过是够着门槛而已，除非苹果GPU有自己的tensor core或者matrix engine，然后UMA最大容量再翻一翻，还是老老实实用云端api最合适。

enolc · 发表于 2025-7-7 12:18

l0stc0mpass 发表于 2025-7-7 11:18
想法很好，但目前大模型达不到你想要的。抛开硬件性能什么的先不谈。模型本身就没有你认为的“记忆”能力。 ...

万分感谢如此中肯具体的建议，很多建议我还未曾想过，看来是是我一厢情愿了

michaelzxp · 发表于 2025-7-7 12:28

都不行，还是用大厂付费的吧

enolc · 发表于 2025-7-7 12:35

michaelzxp 发表于 2025-7-7 12:28
都不行，还是用大厂付费的吧

只能这样了，用大厂付费其实非常麻烦，所有带有人物和相关联信息都必须都要去除和筛选很多次，以确保万无一失，等结果出来还在一步一步把相关信息再加回文档

zhuifeng88 · 发表于 2025-7-7 12:36

l0stc0mpass 发表于 2025-7-7 11:18
想法很好，但目前大模型达不到你想要的。抛开硬件性能什么的先不谈。模型本身就没有你认为的“记忆”能力。 ...

"几年以后想起来随时问AI以前的任何内容或者相关文件资料"这件事情本身就意味着20token/s是远远不够的, (除非你用向量数据库这种原始RAG方案, 当然这也意味着召回效果极差), 像docllm比较早期公开的方案也需要上千起步token/s的output吞吐才能达到勉强能用的响应速度, 而目前商用的流程还要再复杂的多

l0stc0mpass · 发表于 2025-7-7 13:32

zhuifeng88 发表于 2025-7-7 12:36
"几年以后想起来随时问AI以前的任何内容或者相关文件资料"这件事情本身就意味着20token/s是远远不够的, ( ...

就是单纯的跑模型够了。docllm还只是paper吧？

pdvc · 发表于 2025-7-7 16:27

别折腾了，除非你就问一轮，不然几轮下来就个位数速度了……

cga_oliver · 发表于 2025-7-7 16:55

用绿纸结算的为何不直接上Pro6000？70B本地部署最佳配置，勉强可以跑跑int8 32B的training。
。。。然后就会发现70B那种天书式的答案不如换成狗粮还要划算一点。。。
实际跟配置没毛线关系，别掉到当前吹嘘占了99.99%的AI陷阱，当前的模型不管自身性能还是各种应用场景，都让我想起了五六年前的源宇宙！

michaelzxp · 发表于 2025-7-8 12:07

那就用 nv spark 是不是比较合适，马上大量品牌产品出来

Doomhammer · 发表于 2025-7-8 14:06

高级продвинутый

shalei2004 · 发表于 2025-7-10 23:46

最近EVO-X2这个小主机挺火的

karaki · 发表于 2025-7-11 00:10

1，自建，如果没有保密需求，99%场景都不如豆包。毕竟人家一个团队维护，你只有一个人，更别提人家有大量数据支持。
2，不要设想一套系统啥都能干，如果一个公司老板告诉我他啥业务都能做，我第一反应是他要么吹牛逼，要么是皮包公司在我这接单再去找人实现纯纯中间商赚差价。
现阶段ai，你得进一步明确需求，别整那些虚头巴脑的，理清楚你实际需要啥，那些这也要拿也要等的，还是别了

porsche4me · 发表于 2025-7-29 10:08

我和楼主类似, 也想用本地AI来完成些任务, 稍微不同的地方是:

1. 我是想把公司内部的IT管理交给AI来做, 人做什么, AI就做什么. 工作内容基本就是查看日志, 添加路由, Kubernate升级, GKE 网络抓包, Git push 文件, Git读取. Azure管理, GCP管理, 等等. 工作内容其实比较简单, 但人力很贵, 如果能AI化, 那将是翻天覆地的变化.

2. 公司是属于财务敏感型, 这些数据没法上公有AI, 只跑在私有AI下.

3. 目前就是我个人的学习阶段, 等公司上AI估计得几年后, 到时候估计黄花菜都凉了, 所以不想等.

4. 原计划是买Mac mini, 但内存实在不能真正干点啥, AI跑起来后还要有其他的东西跑在机器上, 这样64G貌似也挺紧巴巴的. 后来想上macStudio 128G, 但看了这个帖子感觉即便是128G也是不行, 不仅仅是AI速度/token速度不行, 还有一个是AI的能力不够, 做啥都是错的.... 最终也就是建一个实验环境.... 但我最初的目的不就是建个实验环境吗? 所以心思又回到了Mac Mini m4 Pro 64G.... 仅仅是用来证明一下想法是否可行...

望大神指点指点, 谢谢

xy. · 发表于 2025-7-29 10:15

porsche4me 发表于 2025-7-29 10:08
我和楼主类似, 也想用本地AI来完成些任务, 稍微不同的地方是:

1. 我是想把公司内部的IT管理交给AI来做, 人 ...

你需要 mcp server
https://github.com/punkpeye/awesome-mcp-servers
现在来看落地都不是很好, 主要是巨吃 token.

自己玩的情况下自建不现实.

porsche4me · 发表于 2025-7-29 22:48

xy. 发表于 2025-7-29 10:15
你需要 mcp server
https://github.com/punkpeye/awesome-mcp-servers
现在来看落地都不是很好, 主要是巨 ...

多谢, 我研究研究哈

zvcs · 发表于 2025-7-30 09:56

6000多美金可以用两三年的api服务了。。。。

用户 · 发表于 2025-7-30 10:07

本地llm自用没有batch size，硬件买来都是在空转。卖得越多，亏得越多

iamyangyi · 发表于 2025-7-30 10:15

花这钱还不如充AI会员效率还高些

enolc · 发表于 2025-7-30 10:16

本帖最后由 enolc 于 2025-7-30 10:17 编辑

这个帖子是放在家里自己公私兼用

最新笔记本选择困难的帖子是为了纯工作

，现在家里台式机上的5090暂时凑合先用着，但是依然没有可以具体实施的具体确定方案

la814273 · 发表于 2025-7-30 11:10

别用70b，类似尺寸有腾讯的混元80ba13b和智谱的106ba12b，比之前dense的70b能力强很多还快很多，ds蒸馏的70b是蒸馏llama3的，这个基模太弱了。腾讯和智谱这两个moe模型可以cpu+显卡混合跑，应该能到15到20token/s速度

powerduke · 发表于 2025-7-30 17:33

la814273 发表于 2025-7-30 11:10
别用70b，类似尺寸有腾讯的混元80ba13b和智谱的106ba12b，比之前dense的70b能力强很多还快很多，ds蒸馏的70 ...

下来试试看

la814273 · 发表于 2025-7-30 23:44

powerduke 发表于 2025-7-30 17:33
下来试试看

智谱的前天才出，llama.cpp还没优化好，估计还得三四天才有完整环境

港城钢铁侠 · 发表于 2025-7-30 23:57

只是推理的话可以用mac，如果考虑训练，微调模型，还是直接RTX Pro 6000吧。苹果那边基本上只能跑MLX的模型，跑GGUF速度很慢。还有一种方式是使用CPU+GPU混合推理，目前主流的三个推理框架，ktransformers，fastllm，ik_llama.cpp，fastllm速度最快，使用最简单，但是暂时还不支持gguf，ik_llama.cpp是llama.cpp的分支，兼容性强，速度中等，ktransformers名气最大，推理速度三个里面最差，优点是支持intel AMX指令集加速prefill的速度，但是最近更新进度缓慢，据说重心放到企业版本上，开源版本后续的更新可能跟不上进度。

账号		自动登录	找回密码
密码			加入我们

[装机] 求教如何选购本地AI部署的硬件系统（超级私人秘书），5090或者Mac Studio Ultra3等

评分

浏览过的版块