deepfishing 发表于 2025-7-15 12:05

395单主机跑235b qwen3,速度居然还行

当然不是全量,跑的q2_k_l,得益于moe,最简单的问答能有18t/s的速度,当然上下文上来速度会下去


开40k的上下文,显存跑到快90G左右,不过农企这玩意还是需要更多的软件适配,还有统一内存到底咋玩

taichow 发表于 2025-7-15 13:01

[音乐][喜欢]羡慕,只能想想。

powerduke 发表于 2025-7-15 13:08

期待更多测试结果,例如多轮几十k的长上下文的速度,运营稳定性等

manwomans 发表于 2025-7-15 13:37

说实话q2没啥意思
已经量化的有点弱智了

rankaiyx 发表于 2025-8-11 17:31

在linux下,可以完整利用128G作为共享的GTT显存,从而不受96G的限制
页: [1]
查看完整版本: 395单主机跑235b qwen3,速度居然还行