找回密码
 加入我们
搜索
      
查看: 213|回复: 4

[显卡] OPT-OSS-120B在老旧的30系显卡上测测看

[复制链接]
发表于 2025-12-12 19:39 | 显示全部楼层 |阅读模式
本帖最后由 chm128256 于 2025-12-12 19:45 编辑

看到有坛友进了炼丹群马上就买了5090,真是羡慕啊,我只能继续在30系显卡上挖掘潜力,发现最适合的还是自己编译的llama.cpp,跑起来最快,比lmstudio和vllm都好用。
机器是自己东拼西凑的破烂,基本上都是论坛和闲鱼买的。除了主板,部分显卡,电源,风扇和PEX88048全新
先来个默认测试
Screenshot From 2025-12-12 19-26-58.png
最后实际干一下活。
让他输出分别单次输出10000字、25000字、15000字的小说。速度从130tokens/sec降低至95tokens/sec左右。
Screenshot 2025-12-12 at 19-30-10 你好 - llama.cpp.png


监控一下四张卡的状态,还行。
Screenshot From 2025-12-12 19-27-59.png

对比一下96GB的大家伙


142.4/196.3=72.5%,大约7成功力了。
运行时四张卡功耗加起来也差不多600w。
Screenshot 2025-12-12 at 19-35-17 (1) guide running **-oss with llama.cpp · gg.png
发表于 2025-12-12 20:44 | 显示全部楼层
好久没关注了,现在是有开源的均衡到集群卡显存上的方案了吗?
发表于 2025-12-12 20:55 来自手机 | 显示全部楼层
看表格,pro6000涡轮版相比工作站版的性能没降低多少呀,但是功耗一个300w,一个600w
 楼主| 发表于 2025-12-12 21:28 | 显示全部楼层


constansino 发表于 2025-12-12 20:44
好久没关注了,现在是有开源的均衡到集群卡显存上的方案了吗?


集群还没能力部署,我还是单机4卡,自己买的3080ti+3090,收了坛友的3090,外加闲鱼的三年保的魔改3080 20G,凑了80GB的显存,vllm对这种非对称的显存容量支持很差,LMstudio可以用但是速度很难看,开始能到85k/s,随着使用就瞬间降低到40-30-20,稳定到20上下。只有llama.cpp,我自己编译了直接用,连ts参数都不用设置,自动均衡。
 楼主| 发表于 2025-12-12 21:29 | 显示全部楼层


StevenG 发表于 2025-12-12 20:55
看表格,pro6000涡轮版相比工作站版的性能没降低多少呀,但是功耗一个300w,一个600w ...


实际也不会满载的。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-12-12 21:54 , Processed in 0.008120 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表