gnhen5415 发表于 2025-2-3 01:14

有没有5090已经到手的兄弟,5090的32g显存跑deepseek70b的模型可以么

我看官方需求是35g以上,显卡是4090x2[晕倒]

gerbigo 发表于 2025-2-3 01:22

如果只是ds,最便宜搞法去买两张3090````

P2FX 发表于 2025-2-3 01:26

整4台M4 Mac Mini

manwomans 发表于 2025-2-3 03:04

找gguf的模型
显存用完了用内存
看看能跑几t/s

yangzi123aaa20 发表于 2025-2-3 03:12

蒸馏模型没什么用,除非你只是想跑翻译啥的专家模型

寒蝉鸣泣 发表于 2025-2-3 03:29

gerbigo 发表于 2025-2-3 01:22
如果只是ds,最便宜搞法去买两张3090````

明明是两张2080ti 22G

beckcppes 发表于 2025-2-3 03:39

5090都在黄牛手上 艹艹艹

nielshe 发表于 2025-2-3 07:35

我是64g m4p跑的,速度还凑合

finalkiki 发表于 2025-2-3 07:42

gerbigo 发表于 2025-2-3 03:22
如果只是ds,最便宜搞法去买两张3090````

两张3090 怎么玩法?求教

pdvc 发表于 2025-2-3 07:50

70b要43GB,不过超出的能用内存跑。DDR5能有10-20token的速度。

os39000 发表于 2025-2-3 09:51

70b有Q2量化,26GB就够。

hmu888 发表于 2025-2-3 10:19

5090D 不是砍掉算力了吗
为啥不用4090FE

2ndWeapon 发表于 2025-2-3 10:21

两张7900XTX行不行?

michaelzxp 发表于 2025-2-3 10:35

一张4090 48g

CristalKing 发表于 2025-2-3 10:38

32g跑不了70b的,直接上48g的魔改卡或者24g双卡

gnhen5415 发表于 2025-2-3 11:50

hmu888 发表于 2025-2-3 10:19
5090D 不是砍掉算力了吗
为啥不用4090FE

不带d的阿,而且5090是32g

tim6252 发表于 2025-2-3 12:33

finalkiki 发表于 2025-2-3 07:42
两张3090 怎么玩法?求教

3090可以用nvlink显存可以实现叠加的

uprit 发表于 2025-2-3 12:57

tim6252 发表于 2025-2-3 12:33
3090可以用nvlink显存可以实现叠加的

其实不需要nvlink,看过一个测试,即便推理70B模型,显卡之间通信基本也没超过5GB/s,所以能支持到pcie3.0*8或pcie4.0*4拆分基本就够用了,双卡推理,一般的消费主板只要支持拆分基本都够用。

gyc 发表于 2025-2-3 14:31

manwomans 发表于 2025-2-3 03:04
找gguf的模型
显存用完了用内存
看看能跑几t/s

不会的, llama.cpp 有不同运行引擎, 如果 显存不足,直接用内存加载,CPU计算。

nagashinn 发表于 2025-2-3 14:45

pci 3.0x16 2个,2080ti22g 2个
老点的主板能用上

yoloh 发表于 2025-2-3 14:47

不是专业人士部署本地模型有啥用?还不如调用api,花不了几个钱。

tim6252 发表于 2025-2-3 15:57

uprit 发表于 2025-2-3 12:57
其实不需要nvlink,看过一个测试,即便推理70B模型,显卡之间通信基本也没超过5GB/s,所以能支持到pcie3. ...

原来对卡间互联要求这么低呀

gerbigo 发表于 2025-2-3 16:29

finalkiki 发表于 2025-2-3 07:42
两张3090 怎么玩法?求教

3090是支持nvlink的,40系以后没有了

chh-carter 发表于 2025-2-3 17:06

刚才又用了70b随便问了个问题试了一下,下图是资源占用情况

nice 发表于 2025-2-3 17:17

收藏技术贴

我輩樹である 发表于 2025-2-3 17:24

4090x2应该可以跑的很快,还有个问题就是你的内存有多大,因为deepseek(MoE架构)会将部分没有命中的专家参数放到内存里面,所以账面上需要的显存比较小,但也意味着显存+内存必须至少大于参数量,同时也会慢一些。

目前ggml和ollama这两个流行的后端都支持这种延迟加载策略。

MoE架构也会预加载一些热门专家模型或者常识专家(共享专家)来提高gating网络的命中率。

MoE的流行可能对多卡相当友好,试想一下每张卡只需要预载入少量专家模型整个网络就可以运行了,这样每张卡都不需要很大的显存,现在来说。

jaycty 发表于 2025-2-3 23:03

买192GB内存的MAC STUDIO是目前性价比最高的方案 可以跑近乎满血的R1
自己一个人用 速度也够了 好像每秒十几个TOKEN

williamqh 发表于 2025-2-3 23:44

jaycty 发表于 2025-2-3 23:03
买192GB内存的MAC STUDIO是目前性价比最高的方案 可以跑近乎满血的R1
自己一个人用 速度也够了 好像每秒十 ...

满血671b,192gb内存不够
页: [1]
查看完整版本: 有没有5090已经到手的兄弟,5090的32g显存跑deepseek70b的模型可以么