能跑本地图像生成和本地知识库的显卡最低要什么
打算618买一张新卡来体验下,能跑本地图像生成和本地知识库的显卡,不敢奢望能跑的多快,能凑合就行.不要**,只要新卡,顺便用来玩下游戏 3090 4090 [偷笑] chuxuanax 发表于 2024-4-28 14:453090 4090
这也不低啊[晕倒] 如果你的本地知识库想要看起来不像个弱智并且速度可接受
那基本上就告别消费级 GPU 了
一般来说知识库不是这么玩的, 而是通过向量库把资料给到 prompt
很脏+累的活 不是训练的话 单跑输出 显存大一点即可。 最近刚好也在看这方面,图形生成不了解
大语言模型本地做推理,int4 部署,8B的模型12G显存基本能流畅运行,33B的至少要12G*2才能勉强运行
8B 目前在特化领域还行,泛化知识问答大概比**3.5还有不小差距,llama3-70B 3bit量化后一张4090还是放不下;mixtra 8*22B,本地部署需要4*4090~ 效果会比**3.5好,总之大于40B的模型本地部署成本太高了
本地推理主要瓶颈是显存容量和位宽,皮衣黄刀法比蒂姆厨还狠
可以考虑弄个3060 12G,这个有新卡吧,未来两年8B的模型能力还会有提升 这货能勉强跑一跑,娱乐输出级别,跑训练请上h100多卡服务器,百万起步,囊中羞涩可以撸几块A100凑活着用
跑sd图生成一般需要16GB显存,才能放下sdxl这个级别的模型。
llm的话因为有offload机制的存在,理论上只要等得起显存小一点也没事。但一般认为生成速度要达到10token/s才算可用。
8b的模型对配置基本没什么要求,但效果一般,70b q4的模型最便宜的方案是双路3090+nvlink,可以达到12-14 token/s的速度,跟chat**差不多了。
我輩樹である 发表于 2024-4-28 15:26
跑sd图生成一般需要16GB显存,才能放下sdxl这个级别的模型。
llm的话因为有offload机制的存在,理论上只要 ...
3090 有矿,4090 木有 nvlink,打倒皮衣黄 Miner 发表于 2024-4-28 15:35
3090 有矿,4090 木有 nvlink,打倒皮衣黄
矿就矿呗,反正跑不死,我已经收矿了。
还有个便宜的方案就是内存80G以上m2以上的mac,也可以跑10t以上的70b,只是前段的tokenization会久一点。 4070tis可以跑qwen-32b,8k上下文,gguf q3量化,速度14t/s llwin 发表于 2024-4-28 16:28
4070tis可以跑qwen-32b,8k上下文,gguf q3量化,速度14t/s
有测试 Q4 量化的速度吗? Miner 发表于 2024-4-28 17:13
有测试 Q4 量化的速度吗?
没有,q3显存都不够,只加载了60/65层 llwin 发表于 2024-4-28 17:25
没有,q3显存都不够,只加载了60/65层
哎,未来不可期,50系列卡,皮衣黄能给到12G起步就开恩了,nvlink 估计也不会有。苏妈这边作业都抄不好 我輩樹である 发表于 2024-4-28 15:26
跑sd图生成一般需要16GB显存,才能放下sdxl这个级别的模型。
llm的话因为有offload机制的存在,理论上只要 ...
问一下单靠双路128核的epyc这种跑冒烟也是慢的没法用吗 4060ti 16g不知道够不够用? goat 发表于 2024-4-28 19:55
问一下单靠双路128核的epyc这种跑冒烟也是慢的没法用吗
不知道,reddit上有人说可以在epyc上跑4-5t,不过没看到他给出具体规格。 richardlynn 发表于 2024-4-28 19:56
4060ti 16g不知道够不够用?
4060 小孩那桌 体验的话整个账号不就行了,自己买卡,搭环境,这时间资金投入可要多好多。 显存容量优先,容量不够,会爆。带宽和速度可以等。
预算一定的情况下,选大显存。 4060ti 16G,我就在用,stable diffusion随便玩,常见的开源小模型千问等等也是轻松跑 tanrenye 发表于 2024-4-28 21:40
4060ti 16G,我就在用,stable diffusion随便玩,常见的开源小模型千问等等也是轻松跑 ...
请问你用的千问是7B那个吗? richardlynn 发表于 2024-4-28 22:22
请问你用的千问是7B那个吗?
14b Int4,7b那个也可以跑
页:
[1]