os39000 发表于 2025-4-1 21:45

WSL+ktransformers 6.4tokens/s deepseek 1Q1S量化

直接在wsl里面安装,cuda最开始12.8导致后面装不下去,切换到12.4,接下来就是模型要拷贝到wsl系统里面,
否则就是启动两小时。
运行的时候提示我找不到flash_infer,不必理会。
感觉问题还是很多,连10tokens都没到。
8581C+384GB@5600+3090ti*2

hawie 发表于 2025-4-1 22:27

满血》 量化 (unsloth、kt) 》 蒸馏,真是个无底洞。
玩过一圈之后,老老实实选择了API充值,坐享其成算了。最多本地加个蒸馏模型与知识库。
页: [1]
查看完整版本: WSL+ktransformers 6.4tokens/s deepseek 1Q1S量化