找回密码
 加入我们
搜索
      
查看: 1376|回复: 4

[显卡] 单机多卡推理问题请教

[复制链接]
发表于 2024-8-13 10:26 | 显示全部楼层 |阅读模式
各位坛友大哥,有个问题请教:

项目有台配置8块3080,128G内存的服务器,现在要部署llama,只做推理不做训练。

怎么配置优化这8块卡才能提高推理速度,或者各位大佬提供下优化方向!

之前团队没搞过大模型,项目比较紧急,一下子有点蒙没有方向。
 楼主| 发表于 2024-8-13 11:32 | 显示全部楼层
q3again0605 发表于 2024-8-13 10:49
405b? 4bit量化也需要200多G显存吧,80G/96G显存不够用,再低的量化根据72b之内的经验可能不太好用,然后你 ...

谢谢大哥,没有并发的需求。

客户的需求就是单人提问然后给出答案,给出答案的速度有要求,需要3秒左右,因为我实在是菜又第一次弄这个,现在先和客户协商限制提问的文本长度。

硬件是客户提供的,换不了,哭死。。。
 楼主| 发表于 2024-8-13 11:33 | 显示全部楼层
awpak78 发表于 2024-8-13 11:01
半块RTX4090 玩转70B大语言模型
👆

感谢大哥,好好学习下您的帖子。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-30 13:01 , Processed in 0.008780 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表