WSL+ktransformers 6.4tokens/s deepseek 1Q1S量化
直接在wsl里面安装,cuda最开始12.8导致后面装不下去,切换到12.4,接下来就是模型要拷贝到wsl系统里面,否则就是启动两小时。
运行的时候提示我找不到flash_infer,不必理会。
感觉问题还是很多,连10tokens都没到。
8581C+384GB@5600+3090ti*2 满血》 量化 (unsloth、kt) 》 蒸馏,真是个无底洞。
玩过一圈之后,老老实实选择了API充值,坐享其成算了。最多本地加个蒸馏模型与知识库。
页:
[1]