YsHaNg 发表于 2025-3-2 19:25
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
...
sun3797 发表于 2025-3-2 20:49
vllm才能发挥出硬件的实力,ollama和LMS也只能单用户轻量化用用,多卡并发还得看vllm~~ ...
hcym 发表于 2025-3-2 20:58
怕烦,实体安装steam不成,游戏也就算了吧
xysquare 发表于 2025-3-2 11:43
这也太麻烦了,喜欢命令行用OLLAMA,喜欢有界面用LM STUDIO不好么
iwaitu 发表于 2025-3-2 21:40
昨天刚装了一台志强6338+256GbRAM+H100x2 的服务器,用vllm 跑Qwen 72b,和玩单卡完全是两码事,踩了很多坑 ...
gyc 发表于 2025-3-3 04:25
这个是编译了一个Intel 专用的扩展版本吧? 还是CPU计算的。
KimmyGLM 发表于 2025-3-3 09:26
llama.cpp VLLM安装都算简单友好的;
KTransformers 装起来才要命,配套的环境要严格匹配,编译一直出错; ...
os39000 发表于 2025-3-3 18:40
H100?? 就是NB
欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) | Powered by Discuz! X3.5 |