双intel a770 16g本地部署deepseek 32b蒸馏模型
本帖最后由 earn21th 于 2025-3-18 19:26 编辑最近看了几贴此方案,于是就想自己来试试。
现在小黄鱼上价格还行,买了两张公版2800搞定。
win11上用lm部署,实测下来生成速度还是要比单张nv显卡慢不少(主要原因还是cuda的效率比较高),优点就在于便宜,intel支持两张交火并且显存可叠加,可用,操作简单。
平均在11 token/s
运行中的负载
不错。昨天看到一个单卡4090运行DeepSeek满血版KTransformers。现在门槛越来越低了。不过4090还是有点贵。下不手。 B580不说有24G么
回头弄个三五张,这事儿就基本上齐活了 好像跟macmini速度差不多? 建议柠檬 发表于 2025-3-18 19:53
B580不说有24G么
回头弄个三五张,这事儿就基本上齐活了
B580不是只有12G的大小吗 测一下vllm和ollama,应该会有提升 再多加两三张会更好么[困惑] ImGrG 发表于 2025-3-18 20:16
B580不是只有12G的大小吗
前几天看说要出24G了 ttsammammb 发表于 2025-3-18 20:41
再多加两三张会更好么
intel官方的文档,4卡能70b 那个手里六张卡的卖家?我见他死活不肯包邮,就没下手,昨晚在狗东不到1700买了两张全新的,不过不是公版,搞不了四卡直插。不过也无所谓了,我是给同事买来一起打游戏用的,游戏不玩了再来耍耍deepseek[狂笑] 还有,楼主用的板子是家用版还是服务器板子,pcie带宽也可能是瓶颈,家用只能双x8 这么说2张B580也可以交火? StevenG 发表于 2025-3-18 20:58
intel官方的文档,4卡能70b
看2楼的回复,4张a770跑满血版deepseek有戏么,应该要大内存[困惑] 不错,显存叠加很重要 这玩意儿跑多卡,是纯软件,还是硬件显卡需要SLI之类的线缆连接? 我说今天咋有人要买我挂的公版A770,还愿意直接转钱……[睡觉] 我是正好手头剩几张6700xt,就拿了两张跑32B,也是11左右 mumford 发表于 2025-3-19 00:19
我是正好手头剩几张6700xt,就拿了两张跑32B,也是11左右
还可以了 本质上还是一张卡在计算。。。。 ttsammammb 发表于 2025-3-18 22:08
看2楼的回复,4张a770跑满血版deepseek有戏么,应该要大内存
没戏,最多是671B量化版。 昨天装了DS在8745H上,内存显存分配为32G+16G
下了14B的模型,运行占用大概15g
用下来发现运行在内存里用CPU推理比运行在集显上速度快一倍,780M集显还是性能弱了点 双卡32B Q4才11t/s ?
比我想象中要低太多了,你GPU卸载拉满了吗 这个速度肯定是没调好的,目前效率最高的应该还是vllm,但是对于i卡的支持性暂时未知。建议楼主试下Linux下部署,还有就是两卡的话最好都是插在直连CPU的PCIE上,两个4.0 x8的话速度应该还能再快点 我的板子双卡只有3.0x8 应该会更慢 StevenG 发表于 2025-3-18 20:58
intel官方的文档,4卡能70b
官方那个是4卡32B FP16 66G
而且最重要的人家是w7-3455 有加速芯片的,八通道D5,也就是频率没拉到8000
不然那四张卡都是多余的 st1860 发表于 2025-3-19 10:05
官方那个是4卡32B FP16 66G
而且最重要的人家是w7-3455 有加速芯片的,八通道D5,也就是频率没拉到8000
...
那篇文章里最后有个表格,4卡能跑量化版本的70b。还有,那个文章里,其实没有amx的配置,就是说用不用至强都可以。。不过它的预告倒是写了,未来会基于清华的技术和amx适配一版满血版 StevenG 发表于 2025-3-19 10:26
那篇文章里最后有个表格,4卡能跑量化版本的70b。还有,那个文章里,其实没有amx的配置,就是说用不用至 ...
楼主的11t/s低过头了
B站有个Z890+265K+D5 8000双卡的能跑32b q425t/s st1860 发表于 2025-3-19 10:29
楼主的11t/s低过头了
B站有个Z890+265K+D5 8000双卡的能跑32b q425t/s
内存带宽肯定有影响,我买了2块770还在路上,先借给同事玩玩游戏,等五一放假,我试试epyc ddr4平台,估计还能提升一些 本帖最后由 古明地觉 于 2025-3-19 11:21 编辑
[困惑]说起来a770这个价位和规格倒是和魔改v100 16g 撞个满怀。。。v100那边速度虽然倒是能接近3090有快30tks,但是400w的转接魔改卡是真的让人放不下心,而且是真的除了大语言模型啥也不行。。。和a770的稳定保值但速度差点属于是两个极端了。
突然想起来t10好像也在一千三四这个范畴。。。双卡用vllm配置好单发32bQ6能有十七八tks,也算是一个不那么极端的选项了 建议柠檬 发表于 2025-3-18 20:42
前几天看说要出24G了
去年就说了,到现在还没影子,不过牙膏确实在努力出大显存的新卡,看电商供货能感觉的到。
页:
[1]
2