OPT-OSS-120B在老旧的30系显卡上测测看

chm128256 · 发表于 2025-12-12 19:39

本帖最后由 chm128256 于 2025-12-12 19:45 编辑

看到有坛友进了炼丹群马上就买了5090,真是羡慕啊，我只能继续在30系显卡上挖掘潜力，发现最适合的还是自己编译的llama.cpp,跑起来最快，比lmstudio和vllm都好用。
机器是自己东拼西凑的破烂，基本上都是论坛和闲鱼买的。除了主板，部分显卡，电源，风扇和PEX88048全新

。
先来个默认测试
Screenshot From 2025-12-12 19-26-58.png

最后实际干一下活。
让他输出分别单次输出10000字、25000字、15000字的小说。速度从130tokens/sec降低至95tokens/sec左右。
Screenshot 2025-12-12 at 19-30-10 你好 - llama.cpp.png

监控一下四张卡的状态，还行。
Screenshot From 2025-12-12 19-27-59.png

对比一下96GB的大家伙

142.4/196.3=72.5%，大约7成功力了。
运行时四张卡功耗加起来也差不多600w。

constansino · 发表于 2025-12-12 20:44

好久没关注了，现在是有开源的均衡到集群卡显存上的方案了吗？

StevenG · 发表于 2025-12-12 20:55

看表格，pro6000涡轮版相比工作站版的性能没降低多少呀，但是功耗一个300w，一个600w

chm128256 · 发表于 2025-12-12 21:28

constansino 发表于 2025-12-12 20:44
好久没关注了，现在是有开源的均衡到集群卡显存上的方案了吗？

集群还没能力部署，我还是单机4卡，自己买的3080ti+3090，收了坛友的3090，外加闲鱼的三年保的魔改3080 20G，凑了80GB的显存，vllm对这种非对称的显存容量支持很差，LMstudio可以用但是速度很难看，开始能到85k/s，随着使用就瞬间降低到40-30-20，稳定到20上下。只有llama.cpp，我自己编译了直接用，连ts参数都不用设置，自动均衡。

chm128256 · 发表于 2025-12-12 21:29

StevenG 发表于 2025-12-12 20:55
看表格，pro6000涡轮版相比工作站版的性能没降低多少呀，但是功耗一个300w，一个600w ...

实际也不会满载的。

账号		自动登录	找回密码
密码			加入我们

[显卡] OPT-OSS-120B在老旧的30系显卡上测测看

浏览过的版块