能跑本地图像生成和本地知识库的显卡最低要什么

richardlynn · 发表于 2024-4-28 14:43

打算618买一张新卡来体验下,能跑本地图像生成和本地知识库的显卡,不敢奢望能跑的多快,能凑合就行.不要**,只要新卡,顺便用来玩下游戏

chuxuanax · 发表于 2024-4-28 14:45

3090 4090

richardlynn · 发表于 2024-4-28 14:52

chuxuanax 发表于 2024-4-28 14:45
3090 4090

这也不低啊

xy. · 发表于 2024-4-28 14:59

如果你的本地知识库想要看起来不像个弱智并且速度可接受
那基本上就告别消费级 GPU 了

一般来说知识库不是这么玩的, 而是通过向量库把资料给到 prompt
很脏+累的活

21mm · 发表于 2024-4-28 15:15

不是训练的话单跑输出显存大一点即可。

Miner · 发表于 2024-4-28 15:16

最近刚好也在看这方面，图形生成不了解

大语言模型本地做推理，int4 部署，8B的模型12G显存基本能流畅运行，33B的至少要12G*2才能勉强运行

8B 目前在特化领域还行，泛化知识问答大概比**3.5还有不小差距，llama3-70B 3bit量化后一张4090还是放不下；mixtra 8*22B，本地部署需要4*4090~ 效果会比**3.5好，总之大于40B的模型本地部署成本太高了

本地推理主要瓶颈是显存容量和位宽，皮衣黄刀法比蒂姆厨还狠

可以考虑弄个3060 12G，这个有新卡吧，未来两年8B的模型能力还会有提升

dcl2009 · 发表于 2024-4-28 15:20

这货能勉强跑一跑，娱乐输出级别，跑训练请上h100多卡服务器，百万起步，囊中羞涩可以撸几块A100凑活着用

我輩樹である · 发表于 2024-4-28 15:26

跑sd图生成一般需要16GB显存，才能放下sdxl这个级别的模型。

llm的话因为有offload机制的存在，理论上只要等得起显存小一点也没事。但一般认为生成速度要达到10token/s才算可用。

8b的模型对配置基本没什么要求，但效果一般，70b q4的模型最便宜的方案是双路3090+nvlink，可以达到12-14 token/s的速度，跟chat**差不多了。

屏幕截图 2024-04-28 152417.jpg

Miner · 发表于 2024-4-28 15:35

我輩樹である发表于 2024-4-28 15:26
跑sd图生成一般需要16GB显存，才能放下sdxl这个级别的模型。

llm的话因为有offload机制的存在，理论上只要 ...

3090 有矿，4090 木有 nvlink，打倒皮衣黄

我輩樹である · 发表于 2024-4-28 15:39

Miner 发表于 2024-4-28 15:35
3090 有矿，4090 木有 nvlink，打倒皮衣黄

矿就矿呗，反正跑不死，我已经收矿了。

还有个便宜的方案就是内存80G以上m2以上的mac，也可以跑10t以上的70b，只是前段的tokenization会久一点。

llwin · 发表于 2024-4-28 16:28

4070tis可以跑qwen-32b，8k上下文，gguf q3量化，速度14t/s

Miner · 发表于 2024-4-28 17:13

llwin 发表于 2024-4-28 16:28
4070tis可以跑qwen-32b，8k上下文，gguf q3量化，速度14t/s

有测试 Q4 量化的速度吗？

llwin · 发表于 2024-4-28 17:25

Miner 发表于 2024-4-28 17:13
有测试 Q4 量化的速度吗？

没有，q3显存都不够，只加载了60/65层

Miner · 发表于 2024-4-28 17:30

llwin 发表于 2024-4-28 17:25
没有，q3显存都不够，只加载了60/65层

哎，未来不可期，50系列卡，皮衣黄能给到12G起步就开恩了，nvlink 估计也不会有。苏妈这边作业都抄不好

goat · 发表于 2024-4-28 19:55

我輩樹である发表于 2024-4-28 15:26
跑sd图生成一般需要16GB显存，才能放下sdxl这个级别的模型。

llm的话因为有offload机制的存在，理论上只要 ...

问一下单靠双路128核的epyc这种跑冒烟也是慢的没法用吗

richardlynn · 发表于 2024-4-28 19:56

4060ti 16g不知道够不够用？

我輩樹である · 发表于 2024-4-28 20:07

goat 发表于 2024-4-28 19:55
问一下单靠双路128核的epyc这种跑冒烟也是慢的没法用吗

不知道，reddit上有人说可以在epyc上跑4-5t，不过没看到他给出具体规格。

lightingstar · 发表于 2024-4-28 21:08

richardlynn 发表于 2024-4-28 19:56
4060ti 16g不知道够不够用？

4060 小孩那桌

powerduke · 发表于 2024-4-28 21:15

体验的话整个账号不就行了，自己买卡，搭环境，这时间资金投入可要多好多。

binne · 发表于 2024-4-28 21:27

显存容量优先，容量不够，会爆。带宽和速度可以等。
预算一定的情况下，选大显存。

tanrenye · 发表于 2024-4-28 21:40

4060ti 16G，我就在用，stable diffusion随便玩，常见的开源小模型千问等等也是轻松跑

richardlynn · 发表于 2024-4-28 22:22

tanrenye 发表于 2024-4-28 21:40
4060ti 16G，我就在用，stable diffusion随便玩，常见的开源小模型千问等等也是轻松跑 ...

请问你用的千问是7B那个吗？

tanrenye · 发表于 2024-4-29 00:00

richardlynn 发表于 2024-4-28 22:22
请问你用的千问是7B那个吗？

14b Int4,7b那个也可以跑

账号		自动登录	找回密码
密码			加入我们

[显卡] 能跑本地图像生成和本地知识库的显卡最低要什么

浏览过的版块