找回密码
 加入我们
搜索
      
查看: 7873|回复: 27

[显卡] 有没有5090已经到手的兄弟,5090的32g显存跑deepseek70b的模型可以么

[复制链接]
发表于 2025-2-3 01:14 | 显示全部楼层 |阅读模式
我看官方需求是35g以上,显卡是4090x2
发表于 2025-2-3 01:22 | 显示全部楼层
如果只是ds,最便宜搞法去买两张3090````
发表于 2025-2-3 01:26 | 显示全部楼层
整4台M4 Mac Mini
发表于 2025-2-3 03:04 | 显示全部楼层
找gguf的模型
显存用完了用内存
看看能跑几t/s
发表于 2025-2-3 03:12 | 显示全部楼层
蒸馏模型没什么用,除非你只是想跑翻译啥的专家模型
发表于 2025-2-3 03:29 | 显示全部楼层
gerbigo 发表于 2025-2-3 01:22
如果只是ds,最便宜搞法去买两张3090````

明明是两张2080ti 22G
发表于 2025-2-3 03:39 来自手机 | 显示全部楼层
5090都在黄牛手上 艹艹艹
发表于 2025-2-3 07:35 | 显示全部楼层
我是64g m4p跑的,速度还凑合
发表于 2025-2-3 07:42 | 显示全部楼层
gerbigo 发表于 2025-2-3 03:22
如果只是ds,最便宜搞法去买两张3090````

两张3090 怎么玩法?求教
发表于 2025-2-3 07:50 来自手机 | 显示全部楼层
70b要43GB,不过超出的能用内存跑。DDR5能有10-20token的速度。
发表于 2025-2-3 09:51 | 显示全部楼层
70b有Q2量化,26GB就够。
发表于 2025-2-3 10:19 | 显示全部楼层
5090D 不是砍掉算力了吗
为啥不用4090FE
发表于 2025-2-3 10:21 | 显示全部楼层
两张7900XTX行不行?
发表于 2025-2-3 10:35 | 显示全部楼层
一张4090 48g
发表于 2025-2-3 10:38 | 显示全部楼层
32g跑不了70b的,直接上48g的魔改卡或者24g双卡
 楼主| 发表于 2025-2-3 11:50 | 显示全部楼层
hmu888 发表于 2025-2-3 10:19
5090D 不是砍掉算力了吗
为啥不用4090FE

不带d的阿,而且5090是32g
发表于 2025-2-3 12:33 来自手机 | 显示全部楼层
finalkiki 发表于 2025-2-3 07:42
两张3090 怎么玩法?求教

3090可以用nvlink显存可以实现叠加的
发表于 2025-2-3 12:57 | 显示全部楼层
tim6252 发表于 2025-2-3 12:33
3090可以用nvlink显存可以实现叠加的

其实不需要nvlink,看过一个测试,即便推理70B模型,显卡之间通信基本也没超过5GB/s,所以能支持到pcie3.0*8或pcie4.0*4拆分基本就够用了,双卡推理,一般的消费主板只要支持拆分基本都够用。

发表于 2025-2-3 14:31 | 显示全部楼层
manwomans 发表于 2025-2-3 03:04
找gguf的模型
显存用完了用内存
看看能跑几t/s

不会的, llama.cpp 有不同运行引擎, 如果 显存不足,直接用内存加载,CPU计算。
发表于 2025-2-3 14:45 | 显示全部楼层
pci 3.0x16 2个,2080ti22g 2个
老点的主板能用上
发表于 2025-2-3 14:47 | 显示全部楼层
不是专业人士部署本地模型有啥用?还不如调用api,花不了几个钱。
发表于 2025-2-3 15:57 来自手机 | 显示全部楼层
uprit 发表于 2025-2-3 12:57
其实不需要nvlink,看过一个测试,即便推理70B模型,显卡之间通信基本也没超过5GB/s,所以能支持到pcie3. ...

原来对卡间互联要求这么低呀
发表于 2025-2-3 16:29 | 显示全部楼层
finalkiki 发表于 2025-2-3 07:42
两张3090 怎么玩法?求教

3090是支持nvlink的,40系以后没有了
发表于 2025-2-3 17:06 | 显示全部楼层
刚才又用了70b随便问了个问题试了一下,下图是资源占用情况
fyi.jpg
发表于 2025-2-3 17:17 | 显示全部楼层
收藏技术贴
发表于 2025-2-3 17:24 | 显示全部楼层
4090x2应该可以跑的很快,还有个问题就是你的内存有多大,因为deepseek(MoE架构)会将部分没有命中的专家参数放到内存里面,所以账面上需要的显存比较小,但也意味着显存+内存必须至少大于参数量,同时也会慢一些。

目前ggml和ollama这两个流行的后端都支持这种延迟加载策略。

MoE架构也会预加载一些热门专家模型或者常识专家(共享专家)来提高gating网络的命中率。

MoE的流行可能对多卡相当友好,试想一下每张卡只需要预载入少量专家模型整个网络就可以运行了,这样每张卡都不需要很大的显存,现在来说。
发表于 2025-2-3 23:03 | 显示全部楼层
买192GB内存的MAC STUDIO是目前性价比最高的方案 可以跑近乎满血的R1
自己一个人用 速度也够了 好像每秒十几个TOKEN
发表于 2025-2-3 23:44 | 显示全部楼层
jaycty 发表于 2025-2-3 23:03
买192GB内存的MAC STUDIO是目前性价比最高的方案 可以跑近乎满血的R1
自己一个人用 速度也够了 好像每秒十 ...

满血671b,192gb内存不够
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 21:27 , Processed in 0.014116 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表