零刻GTR9PRO本地部署大模型
本帖最后由 igodczh78 于 2025-11-16 10:52 编辑其实是没啥新东西折腾,本来想看下掌机能不能用上AMD新的385/395
结果一看价格(128G版本)直接16000+,TDP最多就85w,要120W还得外接个水冷模组。。。
这还是掌机吗?不如掌机串流主机
然后就看同样配置一体机价格便宜得多,就趁着双十一入手了零刻GTR9PRO
国补后就12400还有6期免息分期,考虑到内存和SSD现在涨价到离谱,这个价格还是很好得
配置是AMD 395+128G内存+2T SSD
开箱装机激活就略过了,和装台式机没啥区别
请教大佬几个问题:
1. 现在开源的模型哪几个比较好(考虑零刻配置情况)
语言类:Deepseek R1(准备下32B/70B);** OSS 120B;Gemma2 27B还是Gemma 7B?;Qwen3 32B?;
图片类:llava 34B;minicpm-v 8B
2. UI界面使用Page Assistant最简单还是有其它推荐?
下一步要做的事情:
1. 接入专业数据库
2. 联网搜索数据
3. 手机远程接入
接下来报流水账,更新本地部署大模型的进度
11/15
1. 安装Ollama到非C盘,同时安装两个机器做对比,零刻395@128G,以及9950X3D+5090D
2. 下载模型:第一个先下了** OSS 120B,据说性能比较好
3. Ollama模型库存储到D盘,重新下载多个模型
11/16
1. 安装Chatbox,终于可以看到token计数结果,不过正如大佬说的,算力不足,之前的encoding很慢
2. 安装Page Assistant插件,可以联网查数据了,不过用qwen3 30B联网查一个公司年报并分析结果,居然找不到,非要我自己查到了具体链接然后能分析出来结果
本帖最后由 pdvc 于 2025-11-15 18:03 编辑
LLM的迭代速度,已经让本地没意义了……
小模型可以试试Qwen NEXT 80B的 pdvc 发表于 2025-11-15 18:02
LLM的迭代速度,已经让本地没意义了……
小模型可以试试Qwen NEXT 80B的
其实是想自己部署一个专业知识库 igodczh78 发表于 2025-11-15 10:50
其实是想自己部署一个专业知识库
rag langgraph 想workflow就搭个n8n/dify 前端open webui 个人用我就笔记都存md obsidian装copilot插件 igodczh78 发表于 2025-11-15 10:50
其实是想自己部署一个专业知识库
395这种东西和m5之前的apple gpu一样 问题在算力低 会在encode/prefill卡很久 做做短指令生成还可以 igodczh78 发表于 2025-11-15 18:50
其实是想自己部署一个专业知识库
那把知识库部署在本地就完了?用不到显卡…… 我也在关注这个本地AI中心。。主要是 换个5090全套太贵了。。。
首先, Ollama 安装完成之后,记得在设置更改模型的保存位置,否则默认是C盘的。。
ollama 大部大部分模型默认下载都是4bit 量化, 需要根据情况, 在网页里pull 正确的版本来测试
至于视觉任务,目前llama.cpp 支持了一些模型架构,但是Ollama上可能没有对应模型下载
先回答模型, 主要看你做什么任务,因为能下载的都是通用模型,不一定适合所有任务,需要自己二次训练或者微调。
国内的, 推荐 Qwen3,大小可以选择30B或者32B的,推荐分别下载思考模型和指令模型(用来处理不同任务)。视觉模型 Qwen3-VL ,不过这个30B-A3B的好像没有gguf版本,可以是8B的.
界面工具, 可以用Open WebUI,或者 本地的 chatbox, cherry studio(这个配置可以方便点,能识别模型能力),
至于外部工具,例如MCP能力,需要单独安装。看你能力了, 如果不是很懂,可以直接看看客户端里提供安装方法
gyc 发表于 2025-11-16 07:49
我也在关注这个本地AI中心。。主要是 换个5090全套太贵了。。。
首先, Ollama 安装完成之后,记得在设置 ...
Ollama模型保存位置已经更换了,光拷贝变更还不行,出现了500错误,说内存不足
只能重装ollama,更换保存位置后重新下载模型
Qwen3和Qwen3 VL都已经下载了
谢谢大佬指导
我就一个外行,自己瞎折腾一下
现在确实和再上面的大佬说的一样是算力不足
encode/prefilling的时候,70B以上的要半天
11/16
1. 安装Chatbox,终于可以看到token计数结果,不过正如大佬说的,算力不足,之前的encoding很慢
2. 安装Page Assistant插件,可以联网查数据了,不过用qwen3 30B联网查一个公司年报并分析结果,居然找不到,非要我自己查到了具体链接然后能分析出来结果 本地那吞吐速度别想了
h200卖谁去
租个高端gpu机器玩玩就够了 https://www.chiphell.com/thread-2751080-1-1.html
如果要玩推荐Qwen3-235B-A22B Q2。 我輩樹である 发表于 2025-11-16 12:09
https://www.chiphell.com/thread-2751080-1-1.html
如果要玩推荐Qwen3-235B-A22B Q2。
235B,我一台395@128G跑不动吧 升级专业显卡 igodczh78 发表于 2025-11-16 09:44
Ollama模型保存位置已经更换了,光拷贝变更还不行,出现了500错误,说内存不足
只能重装ollama,更换保存 ...
是的,这种价格,就不要像什么算力了。。 哪怕英伟达那个GB10 ,价格3.5万元,性能只有5090的1/5.。 虽然能跑100B模型,但是性能也就那样。。。
对于这种本地模型,我个人推荐有限选择8B,14B 的(int8量化)小模型,其次32B或者30B的量化模型。 然后要在设置里面,把上下文调大,像395这样大显存,可以上到32K以上的上下文,但需要测试,因为选择的越大,占用显存也会更多。
到处是上下文长,尤其是思考模型,自己思考两下,上下文满了。 Error: 500 Internal Server Error: model requires more system memory (48.4 GiB) than is available (45.9 GiB)
我明明有给显卡98G内存啊
为啥老说我memory不够
之前** OSS 120B也出现过这个错误报警
有大佬知道应该怎么设置吗? 500 Internal Server Error: model requires more system memory (113.6 GiB) than is available (42.9 GiB)
现在qwen3 vl 235b的要那么多内存了吗? 这能拿来和5090比,也是厉害了。真想弄一台玩玩,等1W内吧。
这个铝合金外壳,个人感觉没有其他品牌的黑色蜂窝样的漂亮。 mistral 可以搞颜色[偷笑] 这类设备,包括 Nvidia Dgx Spark、AI 395 MAX,虽然内存容量大,但是受限于算力和带宽,注定只能跑稀疏的 MoE 模型。
而 96G/128G 的内存大概能够跑 70B ~ 100B 的模型。然而,目前市面上并没有这个尺寸的优秀开源 MoE 模型。Qwen3-30B-A3B 能够在旗舰消费级显卡上跑,速度远远快于 Nvidia Dgx Spark / AI 395 MAX。Qwen3-235B-A22B 在极致的量化之后确实能跑起来,但是性能损失就太大了。其它比较好的开源 MoE 都远远大于这个尺寸。
所以,比较实用的选择其实有三个:
1. 买两台 AI 395 MAX 或Nvidia Dgx Spark (2w5 / 5w)
2. 买一台 256G / 512G 内存的 Mac Studio (4w5/ 7w5)
3. 买一台服务器插满内存跑 ktransformer (8w ~ 10w)
单台 128G 内存的设备目前比较尴尬,没有合适的模型能跑。 fcten 发表于 2025-11-17 15:03
这类设备,包括 Nvidia Dgx Spark、AI 395 MAX,虽然内存容量大,但是受限于算力和带宽,注定只能跑稀疏的...
那 9950x3d+5090d+256gb 内存,可以跑哪些模型呢? 本帖最后由 fcten 于 2025-11-17 15:38 编辑
bjvava 发表于 2025-11-17 15:16
那 9950x3d+5090d+256gb 内存,可以跑哪些模型呢?
32B 以下的模型。或者极致量化的 70B 左右的模型。
消费级CPU双通道内存的带宽只有 AI 395 MAX 的一半不到(40%左右),带宽瓶颈更加严重。大容量内存没啥意义了。 fcten 发表于 2025-11-17 15:33
32B 以下的模型。或者极致量化的 70B 左右的模型。
消费级CPU双通道内存的带宽只有 AI 395 MAX 的一半不 ...
看来有大内存也没啥用[流汗] igodczh78 发表于 2025-11-16 14:42
Error: 500 Internal Server Error: model requires more system memory (48.4 GiB) than is available (45 ...
有大佬能指导一下怎么调试吗? fcten 发表于 2025-11-17 15:03
这类设备,包括 Nvidia Dgx Spark、AI 395 MAX,虽然内存容量大,但是受限于算力和带宽,注定只能跑稀疏的...
最近看了以下,AMD 395居然开始涨价了。 igodczh78 发表于 2025-11-16 14:42
Error: 500 Internal Server Error: model requires more system memory (48.4 GiB) than is available (45 ...
内存不足, 对于ollama (llama.cpp) ,显存资源不足的时候,会用CPU和系统内存来不足。
对于一个120B的模拟,你可以大致认为
在 BF16精度下,需要至少240GB显存
在Int8精度下,需要至少 120GB显存
在int4精度下,需要至少60GB显存
如果只是像试试,那可以玩玩,但对于本地来说, 这种大模型,性能不会太快的。
除非用上 RTX6000PRO 这种配置。。
igodczh78 发表于 2025-11-16 15:18
500 Internal Server Error: model requires more system memory (113.6 GiB) than is available (42.9 GiB ...
多模态模型会需要更多 显存。。
想要本地运行, 基本最大也就70B,80B模型了,而且还是量化后的。
你可以找找论坛里讨论deepseek 完整部署的硬件讨论, 基本上那个是671B模型,用BF16精度运行就需要是少1.4T的显存。。。(其他模型都是蒸馏训练的,并不是原生的) fcten 发表于 2025-11-17 15:03
这类设备,包括 Nvidia Dgx Spark、AI 395 MAX,虽然内存容量大,但是受限于算力和带宽,注定只能跑稀疏的...
这个尺寸有Qwen3next可以玩,正好官方有fp8 问下,单块pro6000跑哪个比较科学 brucelee1126 发表于 2025-11-18 07:32
问下,单块pro6000跑哪个比较科学
不知道你个科学是说那个部分
首先,这是个计算卡,也是专业卡, 也就说,各种专业,行业模拟类的应该都可以运行。。
至于大模型方面, 看模型大小和具体量化,以及使用的技术。
基本上,FP16的大小 需要模型的参数翻倍的显存,机70B参数大概需要140G显存,
其他量化参考我之前回复。
关于技术方面,使用不同框架和后台提供程序,可以做到将部分任务卸载到内存中。 也就说,除了显存,内存也要大,但性能相对会差
最后,RTX 6000 PRO 单卡应该是96G显存,那么能跑的80B的 FP8或者Int8 量化
32B(30B) 的原生FP16 版本,
或者 120B的 int4 量化
至于哪些 int3,int2, 超级量化, 虽然能用但可能效果不好。。
另外,在提示一点, 对于大模型,提示词也非常重要。尤其是指令型的模型,
告诉他能做什么,不能做什么, 输出什么。。 不能输出什么, 都限定好后, 才会给出符合你期待的内容
SuperBeaver 发表于 2025-11-18 03:24
这个尺寸有Qwen3next可以玩,正好官方有fp8
Qwen3-Next 确实不错……如果能跑起来的话。这模型发布时间太短架构改动又太大,目前各种推理框架的支持和优化都还比较一般。
页:
[1]
2