求教如何选购本地AI部署的硬件系统(超级私人秘书),5090或者Mac Studio Ultra3等
本帖最后由 enolc 于 2025-7-6 23:48 编辑1,目前一块5090拿来当超级小秘,平时工作,娱乐,投资,音频视频剪辑和日常所有的问题都往里扔,几年以后想起来随时问AI以前的任何内容或者相关文件资料,还可以教AI学习和分析理财和投资(初始阶段是在做数据积累),用了一段时间 32b感觉反馈的信息还不够具体和准确,想着70b应该会好很多,无奈5090跑70b也很勉强,必须上专业卡,貌似双5090也只能做推理。
2,还有一种思路就是上48G或者96G的Mac Studio Ultra3 或者等Ultra 4, M4 Pro内存最多64GB。
3,以上所有硬盘都有异地物理备份,防止意外情况发生。
4,平时也用API service作为参考,但是很多信息(涉及到需要隐私保护和保密信息,包括项目具体参数,单位和个人信息)还是觉得不安全。公私合用的时候,用单位电脑还是很不方便。
以下是Grok的比较和解决方案:
性价比最更高的方案应该就是买MAC STUTDIO 至少192GB内存的好像价格是三五万吧 你会发现70b也各种异想天开答非所问脑部万物,还是无法与o3的结果有任何可比性。
你试试看4090 48G双卡 5090显存太小,跑32B也吃不下太长上下文
Mac Studio速度太慢,72B就已经够慢,吃完长提示词直接慢到失去实用价值
总结就是都跑不了
真想跑72B建议买两块L20 48G
求求AI草履虫们别盯着显存/内存够大=能跑了
连MCP说明都吃不下=什么智能生态都接入不了
吃完MCP速度慢成屎=随便输入点什么反应时间都是10s起步级的慢 想法很好,但目前大模型达不到你想要的。抛开硬件性能什么的先不谈。模型本身就没有你认为的“记忆”能力。记忆能力都是单独由第三方做的。而且目前没有能管理大量数据又能根据问题百分比精确找出来你要的数据的方法。
再说“聪明程度”,参数越大确实在表现力上更好,会看起来好像更聪明,然而和能不能准确回答问题无关。
现在的AI使用的能给到你用的能有7-8B就不错了(这块数据很多都不公开)。为啥你用32B甚至72B的在整体效果上都比不过在线的7-8B的?
不要以为在线的AI(chat**)≈本地的,实际上差距巨大。在线平台牛逼一个原因是私有模型,另一个原因是你用的在线平台不是直接用的模型,用的是在线平台给你提供的一整套的RAG或者说的高大上一点就是智能体,总之是一整套的系统而不是单纯的模型。你问个问题:“现在的日期是?”你看你本地的模型能回答出来不?但是在线的平台就能回答,原因是在线的平台在模型之外做了超乎你想象的其它工作。
所以你的目标:
拿来当超级小秘,平时工作,娱乐,投资,音频视频剪辑和日常所有的问题都往里扔,几年以后想起来随时问AI以前的任何内容或者相关文件资料,还可以教AI学习和分析理财和投资(初始阶段是在做数据积累)
不是用大参数的模型、用更强的硬件能解决的。你需要在本地解决记忆能力、精准的数据检索能力、非文本数据的抽取能力、对于图片等你还需要牛逼的OCR能力。所以对于你目前的更实际的解决方案是:
1. 用5090(还是Mac Studio Ultra3无所为,能跑到超过20Token/Sec就行了)跑32B的qwen3足够了,用作问问题;
2. 老实记笔记,将遇到的数据都记录成文本的或者图片的
3. 等待有一个牛逼的开源或者本地能部署的牛逼的系统出来,在此之前可以用用:openwebui、lmstudio、ollama,有点动手能力可以尝试部署dify这个端到端的解决方案。
还有一个方案,那就是微调自己的模型,那你就不用解决记忆能力了。但杀鸡为啥用牛刀,你要能拿得起牛刀才行。 awpak78 发表于 2025-7-7 10:02
5090显存太小,跑32B也吃不下太长上下文
Mac Studio速度太慢,72B就已经够慢,吃完长提示词直接慢到失去实 ...
确实如此,长上下文太长,5090跑32b也不是那么顺畅 不如买服务然后用API吧 这个表本身就很不准确。mac作为推理用的话,那些模型都是能跑的。不适合训练的确。也不需要转coreml, 而且coreml也根本不是这个用的啊,要转也是转mlx跑(更快)。
它和5090比就是远远弱的算力(5090有tensor core)以及远高的显存(苹果的UMA)。在5090显存允许的模型内,m3 ultra跑死都跑不过5090的速度,但是一旦模型开始大起来,比如4bit的完整deepseek R1, 单个5090就跑不起来,m3 ultra就能跑 。
但是context length,又或者说体验上的记忆能力/联系上下文能力,就不如官网云端,还是受限于512G显存不够大。
说白了,在当下消费级领域,想自己跑完整的大模型就没有合适的设备。mac studio m3 ultra也不过是够着门槛而已,除非苹果GPU有自己的tensor core或者matrix engine,然后UMA最大容量再翻一翻,还是老老实实用云端api最合适。
l0stc0mpass 发表于 2025-7-7 11:18
想法很好,但目前大模型达不到你想要的。抛开硬件性能什么的先不谈。模型本身就没有你认为的“记忆”能力。 ...
万分感谢如此中肯具体的建议,很多建议我还未曾想过,看来是是我一厢情愿了[流汗] 都不行,还是用大厂付费的吧 michaelzxp 发表于 2025-7-7 12:28
都不行,还是用大厂付费的吧
只能这样了,用大厂付费其实非常麻烦,所有带有人物和相关联信息都必须都要去除和筛选很多次,以确保万无一失,等结果出来还在一步一步把相关信息再加回文档
l0stc0mpass 发表于 2025-7-7 11:18
想法很好,但目前大模型达不到你想要的。抛开硬件性能什么的先不谈。模型本身就没有你认为的“记忆”能力。 ...
"几年以后想起来随时问AI以前的任何内容或者相关文件资料"这件事情本身就意味着20token/s是远远不够的, (除非你用向量数据库这种原始RAG方案, 当然这也意味着召回效果极差), 像docllm比较早期公开的方案也需要上千起步token/s的output吞吐才能达到勉强能用的响应速度, 而目前商用的流程还要再复杂的多 zhuifeng88 发表于 2025-7-7 12:36
"几年以后想起来随时问AI以前的任何内容或者相关文件资料"这件事情本身就意味着20token/s是远远不够的, ( ...
就是单纯的跑模型够了。docllm还只是paper吧? 别折腾了,除非你就问一轮,不然几轮下来就个位数速度了…… 用绿纸结算的为何不直接上Pro6000?70B本地部署最佳配置,勉强可以跑跑int8 32B的training。
。。。然后就会发现70B那种天书式的答案不如换成狗粮还要划算一点。。。
实际跟配置没毛线关系,别掉到当前吹嘘占了99.99%的AI陷阱,当前的模型不管自身性能还是各种应用场景,都让我想起了五六年前的源宇宙![恶魔]
页:
[1]