木子滴血
发表于 2025-9-11 13:37
[偷笑]
要不先搞台5090本地玩玩酒馆扮演试试吧,解馋了再说
五年一装机
发表于 2025-9-11 14:35
本帖最后由 五年一装机 于 2025-9-11 14:40 编辑
StevenG 发表于 2025-9-11 13:11
32g显存也就跑跑30b规模的,看你具体做什么,要是对ai的智商要求高,肯定不够,要是就让他帮你整机文本, ...
谢谢哥们这么细致的信息,可行性很高,做方案备选了,感谢感谢,我这里对吐字速度要求不高就是希望聪明一点,上下文长度可以多一点,感觉这些需求确实很有说法哈,不同的组合,被推荐的方案也不一样,可惜没在一楼写出来
好的我先冷静一下,把楼的信息都消化一下,看看我需要什么程度的,5090也配置一下玩玩看
五年一装机
发表于 2025-9-11 14:38
ahui 发表于 2025-9-11 13:23
是的,楼主要达到较好的效果,得有400G左右的显存才行,运行GLM-4.5就不错了,这个模型目前开源第一仅比2 ...
谢谢关键信息,这就能摸到质量差距大概能有多少了,那我可以多体验一下看看,先在5090上部署个小的玩玩
五年一装机
发表于 2025-9-11 14:42
木子滴血 发表于 2025-9-11 13:37
要不先搞台5090本地玩玩酒馆扮演试试吧,解馋了再说
[偷笑]两个都有,嗯~就是,嗯~被惊到了,才来发贴的~玩这几天API,已经把我一个很难落地的灵感扩展成一个十多万字的游戏脚本了,唉哟简直给我爽完了,我就是文笔差点,想法很多。本来作为一个古法画手还很不喜欢AI,现在被折服的不要不要的
pdvc
发表于 2025-9-11 15:52
五年一装机 发表于 2025-9-11 14:42
两个都有,嗯~就是,嗯~被惊到了,才来发贴的~玩这几天API,已经把我一个很难落地的灵感扩展成一个十多万 ...
RP这种要上OPUS 4.1的,目前最强,木有之一
五年一装机
发表于 2025-9-11 16:37
pdvc 发表于 2025-9-11 15:52
RP这种要上OPUS 4.1的,目前最强,木有之一
谢谢信息,比gemini还强?大模型是有什么细分的排名吗?
Dolfin
发表于 2025-9-11 16:47
建议上云先试试
kuuki
发表于 2025-9-11 16:56
如果没有隐私和搞黄色方面的想法,完全推荐api,还快还聪明
ihe
发表于 2025-9-11 17:10
本帖最后由 ihe 于 2025-9-11 17:16 编辑
想起之前看过一个视频,用的是macmini(studio)集群,性价比超高,可以在b站搜索看看,如:欢迎来到桌面AGI时代!六台M4 Pro本地大模型推理实测
五年一装机
发表于 2025-9-11 17:12
ihe 发表于 2025-9-11 17:10
想起之前看过一个视频,用的是mac studio集群,性价比超高,可以在b站搜索看看,如:欢迎来到桌面AGI时代! ...
谢谢,mac这个方案很特别,也很违反我直觉,但是看样子性价比是真不错
pdvc
发表于 2025-9-11 17:44
五年一装机 发表于 2025-9-11 16:37
谢谢信息,比gemini还强?大模型是有什么细分的排名吗?
Gemini用于RP主要问题是绝望和八股,破限都是各种抗绝望、反八股[流汗]
YsHaNg
发表于 2025-9-11 17:48
ihe 发表于 2025-9-11 09:10
想起之前看过一个视频,用的是macmini(studio)集群,性价比超高,可以在b站搜索看看,如:欢迎来到桌面 ...
mac gpu其实很差 到m5才会加上gemm加速单元 对比n卡老早就有tensor core
YsHaNg
发表于 2025-9-11 17:50
StevenG 发表于 2025-9-11 05:15
30g以内的,都是用的显存,超过的,都用内存了,速度上不去正常。。
用llama.cpp可以自行offload common层 动态offload激活参数量在显存范围内基本可以不用cpu
YsHaNg
发表于 2025-9-11 17:53
五年一装机 发表于 2025-9-11 06:35
谢谢哥们这么细致的信息,可行性很高,做方案备选了,感谢感谢,我这里对吐字速度要求不高就是希望聪明一 ...
自行参考长上下文对显存要求 https://github.com/ollama/ollama/issues/11939#:~:text=It's%20not%20the%20size%20of%20the%20model%20that%20matters%2C%20it's%20the%20size%20of%20the%20memory%20graph.
zhengyueshi
发表于 2025-9-11 17:53
其实是用API最好了
港城钢铁侠
发表于 2025-9-11 18:28
4张RTX Pro 6000大概25W左右可以跑Deepseek-R1 NVFP4量化,性能很不错,大部分场景可以达到API的水平,实际上很多用的也就是FP8量化
港城钢铁侠
发表于 2025-9-11 18:29
混合推理的话成本低很多,2-3W就能获得一个不错的decode速度,但是实际上prefill速度不够,接入到如claude code这些超长上下文的agent工具中完全不可用
五年一装机
发表于 2025-9-11 18:31
YsHaNg 发表于 2025-9-11 17:53
自行参考长上下文对显存要求 https://github.com/ollama/ollama/issues/11939#:~:text=It's%20not%20the% ...
[可爱]谢谢大佬,帮我节省好多时间
五年一装机
发表于 2025-9-11 18:33
港城钢铁侠 发表于 2025-9-11 18:28
4张RTX Pro 6000大概25W左右可以跑Deepseek-R1 NVFP4量化,性能很不错,大部分场景可以达到API的水平,实际 ...
谢谢,那看来以这个为目标是 比较符合标题要求的,我想想
powerduke
发表于 2025-9-11 18:41
本帖最后由 powerduke 于 2025-9-11 18:48 编辑
楼主提的需求提的“聪明点、上下文长点“,是用在coding方面?
只提些方向性的建议吧:
千亿参数的满血模型从成本角度看就不是给个人部署用的;
个人部署一定是硬件成本、生成内容和速度可接受的方案,这就和具体的llm应用分不开了,人机对话/语音识别/文字翻译/智能体自动化/工具调用/RAG等用途不一样,不同方案效果也是不一样的。
模型发展很快,先跑通业务再折腾硬件不迟,所以,云大厂api调用是眼前最好的选择。
llm及其优化技术都在发展,半年前个人部署还在追求的比较平衡的70B,现在已经被30B-A3B的moe按着摩擦了,生成准确度、速度都被暴打,上下文长度也翻了一番吧,128k->262k?),再加上快速注意力等加速不断优化,可能32G的5090就是长期最优解了。
Mashiro_plan_C
发表于 2025-9-11 18:46
你投入10万进去产出能收回这10万吗 冷静冷静罢
pdvc
发表于 2025-9-11 19:58
Mashiro_plan_C 发表于 2025-9-11 18:46
你投入10万进去产出能收回这10万吗 冷静冷静罢
之前和小伙伴们算过,自己攒一套的钱,够用十年API的[吐槽]
个人部署现在只推荐绘图/视频用,这种效果还不错。
五年一装机
发表于 2025-9-11 22:26
本帖最后由 五年一装机 于 2025-9-11 22:32 编辑
powerduke 发表于 2025-9-11 18:41
楼主提的需求提的“聪明点、上下文长点“,是用在coding方面?
只提些方向性的建议吧:
coding和编剧助理(RA)这样,所以就是需要聪明一点加上下文长,我现在用api,继续上下文10万多字生成已经有点肉疼了,生成一次就要好几块钱了,并且网络api经常会报服务器错,DS3.1前天,一天三个时间点报busy,这搞的我很烦。如果像您说的5090是最优解那我会很开心,我就是之前为了它隐含的AI未阉割才加价买的它,moe没听过,现在就去了解一下
sun3797
发表于 2025-9-11 22:34
没必要吧,先租用测试跑跑需求,有项目在手再考虑上本地!
LV3的萝莉控
发表于 2025-9-12 00:17
关键是本地部署有啥用呢,多此一举
fishing87
发表于 2025-9-12 11:27
昨天看到的[偷笑] [偷笑]
pingji
发表于 2025-9-12 11:30
跟收费版差不多的那就是671b版本,那就上dgx吧,现在200w出头一台
anishieh`
发表于 2025-9-12 12:15
不如先把openai google anthropic家的会员都买了,或者其中任何一家也都够用了。
不像今年年初R1刚出来时候,现在开源最好的模型和几家闭源的旗舰模型比都感觉差了不是一点半点,自己用又没那么多合规隐私要求。
natt
发表于 2025-9-12 12:20
是不是家离水电站近点儿会稍微有能源上的优势,我瞎猜的
c2h6o
发表于 2025-9-12 12:33
别想了,如果跑满血,基本上都是300万起步吧。有这钱可以租几辈子的实际使用时长了。如果只是堆显存满足最低要求,也要1百万。
4090 8张只能跑个70B满血。