WSL+ktransformers 6.4tokens/s deepseek 1Q1S量化

os39000 发表于 2025-4-1 21:45

直接在wsl里面安装，cuda最开始12.8导致后面装不下去，切换到12.4，接下来就是模型要拷贝到wsl系统里面，
否则就是启动两小时。
运行的时候提示我找不到flash_infer，不必理会。
感觉问题还是很多，连10tokens都没到。
8581C+384GB@5600+3090ti*2

hawie 发表于 2025-4-1 22:27

满血》量化（unsloth、kt）》蒸馏，真是个无底洞。
玩过一圈之后，老老实实选择了API充值，坐享其成算了。最多本地加个蒸馏模型与知识库。

页: [1]

Chiphell - 分享与交流用户体验's Archiver