有没有5090已经到手的兄弟,5090的32g显存跑deepseek70b的模型可以么
我看官方需求是35g以上,显卡是4090x2[晕倒] 如果只是ds,最便宜搞法去买两张3090````整4台M4 Mac Mini 找gguf的模型
显存用完了用内存
看看能跑几t/s 蒸馏模型没什么用,除非你只是想跑翻译啥的专家模型
gerbigo 发表于 2025-2-3 01:22
如果只是ds,最便宜搞法去买两张3090````
明明是两张2080ti 22G 5090都在黄牛手上 艹艹艹 我是64g m4p跑的,速度还凑合 gerbigo 发表于 2025-2-3 03:22
如果只是ds,最便宜搞法去买两张3090````
两张3090 怎么玩法?求教 70b要43GB,不过超出的能用内存跑。DDR5能有10-20token的速度。 70b有Q2量化,26GB就够。 5090D 不是砍掉算力了吗
为啥不用4090FE 两张7900XTX行不行? 一张4090 48g 32g跑不了70b的,直接上48g的魔改卡或者24g双卡 hmu888 发表于 2025-2-3 10:19
5090D 不是砍掉算力了吗
为啥不用4090FE
不带d的阿,而且5090是32g finalkiki 发表于 2025-2-3 07:42
两张3090 怎么玩法?求教
3090可以用nvlink显存可以实现叠加的 tim6252 发表于 2025-2-3 12:33
3090可以用nvlink显存可以实现叠加的
其实不需要nvlink,看过一个测试,即便推理70B模型,显卡之间通信基本也没超过5GB/s,所以能支持到pcie3.0*8或pcie4.0*4拆分基本就够用了,双卡推理,一般的消费主板只要支持拆分基本都够用。
manwomans 发表于 2025-2-3 03:04
找gguf的模型
显存用完了用内存
看看能跑几t/s
不会的, llama.cpp 有不同运行引擎, 如果 显存不足,直接用内存加载,CPU计算。 pci 3.0x16 2个,2080ti22g 2个
老点的主板能用上 不是专业人士部署本地模型有啥用?还不如调用api,花不了几个钱。 uprit 发表于 2025-2-3 12:57
其实不需要nvlink,看过一个测试,即便推理70B模型,显卡之间通信基本也没超过5GB/s,所以能支持到pcie3. ...
原来对卡间互联要求这么低呀 finalkiki 发表于 2025-2-3 07:42
两张3090 怎么玩法?求教
3090是支持nvlink的,40系以后没有了 刚才又用了70b随便问了个问题试了一下,下图是资源占用情况
收藏技术贴
4090x2应该可以跑的很快,还有个问题就是你的内存有多大,因为deepseek(MoE架构)会将部分没有命中的专家参数放到内存里面,所以账面上需要的显存比较小,但也意味着显存+内存必须至少大于参数量,同时也会慢一些。
目前ggml和ollama这两个流行的后端都支持这种延迟加载策略。
MoE架构也会预加载一些热门专家模型或者常识专家(共享专家)来提高gating网络的命中率。
MoE的流行可能对多卡相当友好,试想一下每张卡只需要预载入少量专家模型整个网络就可以运行了,这样每张卡都不需要很大的显存,现在来说。 买192GB内存的MAC STUDIO是目前性价比最高的方案 可以跑近乎满血的R1
自己一个人用 速度也够了 好像每秒十几个TOKEN jaycty 发表于 2025-2-3 23:03
买192GB内存的MAC STUDIO是目前性价比最高的方案 可以跑近乎满血的R1
自己一个人用 速度也够了 好像每秒十 ...
满血671b,192gb内存不够
页:
[1]