有没有5090已经到手的兄弟，5090的32g显存跑deepseek70b的模型可以么

gnhen5415 · 发表于 2025-2-3 01:14

我看官方需求是35g以上，显卡是4090x2

gerbigo · 发表于 2025-2-3 01:22

如果只是ds，最便宜搞法去买两张3090````

P2FX · 发表于 2025-2-3 01:26

整4台M4 Mac Mini

manwomans · 发表于 2025-2-3 03:04

找gguf的模型
显存用完了用内存
看看能跑几t/s

yangzi123aaa20 · 发表于 2025-2-3 03:12

蒸馏模型没什么用，除非你只是想跑翻译啥的专家模型

寒蝉鸣泣 · 发表于 2025-2-3 03:29

gerbigo 发表于 2025-2-3 01:22
如果只是ds，最便宜搞法去买两张3090````

明明是两张2080ti 22G

beckcppes · 发表于 2025-2-3 03:39

5090都在黄牛手上艹艹艹

nielshe · 发表于 2025-2-3 07:35

我是64g m4p跑的，速度还凑合

finalkiki · 发表于 2025-2-3 07:42

gerbigo 发表于 2025-2-3 03:22
如果只是ds，最便宜搞法去买两张3090````

两张3090 怎么玩法？求教

pdvc · 发表于 2025-2-3 07:50

70b要43GB，不过超出的能用内存跑。DDR5能有10-20token的速度。

os39000 · 发表于 2025-2-3 09:51

70b有Q2量化，26GB就够。

hmu888 · 发表于 2025-2-3 10:19

5090D 不是砍掉算力了吗
为啥不用4090FE

2ndWeapon · 发表于 2025-2-3 10:21

两张7900XTX行不行？

michaelzxp · 发表于 2025-2-3 10:35

一张4090 48g

CristalKing · 发表于 2025-2-3 10:38

32g跑不了70b的，直接上48g的魔改卡或者24g双卡

gnhen5415 · 发表于 2025-2-3 11:50

hmu888 发表于 2025-2-3 10:19
5090D 不是砍掉算力了吗
为啥不用4090FE

不带d的阿，而且5090是32g

tim6252 · 发表于 2025-2-3 12:33

finalkiki 发表于 2025-2-3 07:42
两张3090 怎么玩法？求教

3090可以用nvlink显存可以实现叠加的

uprit · 发表于 2025-2-3 12:57

tim6252 发表于 2025-2-3 12:33
3090可以用nvlink显存可以实现叠加的

其实不需要nvlink，看过一个测试，即便推理70B模型，显卡之间通信基本也没超过5GB/s，所以能支持到pcie3.0*8或pcie4.0*4拆分基本就够用了，双卡推理，一般的消费主板只要支持拆分基本都够用。

gyc · 发表于 2025-2-3 14:31

manwomans 发表于 2025-2-3 03:04
找gguf的模型
显存用完了用内存
看看能跑几t/s

不会的， llama.cpp 有不同运行引擎，如果显存不足，直接用内存加载，CPU计算。

nagashinn · 发表于 2025-2-3 14:45

pci 3.0x16 2个，2080ti22g 2个
老点的主板能用上

yoloh · 发表于 2025-2-3 14:47

不是专业人士部署本地模型有啥用？还不如调用api，花不了几个钱。

tim6252 · 发表于 2025-2-3 15:57

uprit 发表于 2025-2-3 12:57
其实不需要nvlink，看过一个测试，即便推理70B模型，显卡之间通信基本也没超过5GB/s，所以能支持到pcie3. ...

原来对卡间互联要求这么低呀

gerbigo · 发表于 2025-2-3 16:29

finalkiki 发表于 2025-2-3 07:42
两张3090 怎么玩法？求教

3090是支持nvlink的，40系以后没有了

chh-carter · 发表于 2025-2-3 17:06

刚才又用了70b随便问了个问题试了一下，下图是资源占用情况

nice · 发表于 2025-2-3 17:17

收藏技术贴

我輩樹である · 发表于 2025-2-3 17:24

4090x2应该可以跑的很快，还有个问题就是你的内存有多大，因为deepseek（MoE架构）会将部分没有命中的专家参数放到内存里面，所以账面上需要的显存比较小，但也意味着显存+内存必须至少大于参数量，同时也会慢一些。

目前ggml和ollama这两个流行的后端都支持这种延迟加载策略。

MoE架构也会预加载一些热门专家模型或者常识专家（共享专家）来提高gating网络的命中率。

MoE的流行可能对多卡相当友好，试想一下每张卡只需要预载入少量专家模型整个网络就可以运行了，这样每张卡都不需要很大的显存，现在来说。

jaycty · 发表于 2025-2-3 23:03

买192GB内存的MAC STUDIO是目前性价比最高的方案可以跑近乎满血的R1
自己一个人用速度也够了好像每秒十几个TOKEN

williamqh · 发表于 2025-2-3 23:44

jaycty 发表于 2025-2-3 23:03
买192GB内存的MAC STUDIO是目前性价比最高的方案可以跑近乎满血的R1
自己一个人用速度也够了好像每秒十 ...

满血671b，192gb内存不够

账号		自动登录	找回密码
密码			加入我们

[显卡] 有没有5090已经到手的兄弟，5090的32g显存跑deepseek70b的模型可以么