单机多卡推理问题请教

eclipser9 发表于 2024-8-13 10:26

各位坛友大哥，有个问题请教：

项目有台配置8块3080，128G内存的服务器，现在要部署llama，只做推理不做训练。

怎么配置优化这8块卡才能提高推理速度，或者各位大佬提供下优化方向！

之前团队没搞过大模型，项目比较紧急，一下子有点蒙没有方向。

q3again0605 发表于 2024-8-13 10:49

405b? 4bit量化也需要200多G显存吧，80G/96G显存不够用，再低的量化根据72b之内的经验可能不太好用，然后你显存还是不够。做工程70b 8bit量化可能能跑看对上下文长度和并发数量的要求，4bit量化的需要35G左右，但是你8卡通讯损耗太大了，你可以比较一下4,6,8的情况看。可以根据测试下来效果ok的模型大小然后确定配置，可以卖3080换其它显卡。2500一块不知道卖不卖的了,差不多可以买a5000（24G）x2，4000 ada/sff ada（20G）x3(要加点钱，但是电费省不少），至少支持p2p，卡间通讯快不少。

awpak78 发表于 2024-8-13 11:01

半块RTX4090 玩转70B大语言模型
👆

我怀疑你把3080都卖了, 换成V100可能还快点

eclipser9 发表于 2024-8-13 11:32

q3again0605 发表于 2024-8-13 10:49
405b? 4bit量化也需要200多G显存吧，80G/96G显存不够用，再低的量化根据72b之内的经验可能不太好用，然后你 ...

谢谢大哥，没有并发的需求。

客户的需求就是单人提问然后给出答案，给出答案的速度有要求，需要3秒左右，因为我实在是菜又第一次弄这个，现在先和客户协商限制提问的文本长度。

硬件是客户提供的，换不了，哭死。。。

eclipser9 发表于 2024-8-13 11:33

awpak78 发表于 2024-8-13 11:01
半块RTX4090 玩转70B大语言模型
👆

感谢大哥，好好学习下您的帖子。

页: [1]

Chiphell - 分享与交流用户体验's Archiver

单机多卡推理问题请教