Chiphell - 分享与交流用户体验

标题: 今天成功安装了vllm [打印本页]

作者: os39000 时间: 2025-3-2 15:06
标题: 今天成功安装了vllm
1.Intel® Extension for PyTorch* Installation Guide
网址：https://pytorch-extension.intel. ... sl2&package=pip
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
python -m pip install intel-extension-for-pytorch
python -m pip install oneccl_bind_pt --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/cpu/us/
2.安装vllm
网址：https://docs.vllm.ai/en/latest/g ... tion/cpu/index.html
(, 下载次数: 18)

3.开始执行

(, 下载次数: 19)
(, 下载次数: 16)

作者: YsHaNg 时间: 2025-3-2 19:25
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HUGGING_FACE_HUB_TOKEN=<secret>" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:latest \

作者: xysquare 时间: 2025-3-2 19:43
这也太麻烦了，喜欢命令行用OLLAMA，喜欢有界面用LM STUDIO不好么

作者: sun3797 时间: 2025-3-2 20:49
vllm才能发挥出硬件的实力，ollama和LMS也只能单用户轻量化用用，多卡并发还得看vllm~~

作者: hcym 时间: 2025-3-2 20:58
怕烦，实体安装steam不成，游戏也就算了吧

作者: os39000 时间: 2025-3-2 21:31

YsHaNg 发表于 2025-3-2 19:25
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
...

下次再试试清华方案

作者: os39000 时间: 2025-3-2 21:34

sun3797 发表于 2025-3-2 20:49
vllm才能发挥出硬件的实力，ollama和LMS也只能单用户轻量化用用，多卡并发还得看vllm~~ ...

就是想看看能有多快

作者: os39000 时间: 2025-3-2 21:34

hcym 发表于 2025-3-2 20:58
怕烦，实体安装steam不成，游戏也就算了吧

搞个ladder

作者: iwaitu 时间: 2025-3-2 21:40
昨天刚装了一台志强6338+256GbRAM+H100x2 的服务器，用vllm 跑Qwen 72b，和玩单卡完全是两码事，踩了很多坑

作者: YsHaNg 时间: 2025-3-2 22:11

xysquare 发表于 2025-3-2 11:43
这也太麻烦了，喜欢命令行用OLLAMA，喜欢有界面用LM STUDIO不好么

市面上开源推理框架现在只有vllm实现了FlashMLA 用web前端http方式各种ollama/llama.cpp/transformers都能接入gui

作者: gyc 时间: 2025-3-3 04:25
这个是编译了一个Intel 专用的扩展版本吧？还是CPU计算的。

作者: KimmyGLM 时间: 2025-3-3 09:26
本帖最后由 KimmyGLM 于 2025-3-3 09:27 编辑

llama.cpp VLLM安装都算简单友好的；

KTransformers 装起来才要命，配套的环境要严格匹配，编译一直出错；
V0.3 更像是一个课题组搞的测试，自己跑通即可，不用管其他部署起来好不好用；
我都快被折磨得抑郁了，他们自己的docker 还没适配0.3
issue里面一大堆稀奇古怪的问题，哎；

作者: os39000 时间: 2025-3-3 18:40

iwaitu 发表于 2025-3-2 21:40
昨天刚装了一台志强6338+256GbRAM+H100x2 的服务器，用vllm 跑Qwen 72b，和玩单卡完全是两码事，踩了很多坑 ...

H100?? 就是NB

作者: os39000 时间: 2025-3-3 18:41

gyc 发表于 2025-3-3 04:25
这个是编译了一个Intel 专用的扩展版本吧？还是CPU计算的。

对，针对intel cpu优化的，已经编译好的，安装就行

作者: os39000 时间: 2025-3-3 18:42

KimmyGLM 发表于 2025-3-3 09:26
llama.cpp VLLM安装都算简单友好的；

KTransformers 装起来才要命，配套的环境要严格匹配，编译一直出错； ...

我去，我还没开始呢，看看吧，真麻烦就不装了。
早点的版本还好吧？

作者: iwaitu 时间: 2025-3-9 14:36

os39000 发表于 2025-3-3 18:40
H100?? 就是NB

(, 下载次数: 24)

其中一块H100回来两天就出问题了，拿去退换了

欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/)