找回密码
 加入我们
搜索
      
查看: 4285|回复: 42

[显卡] 双intel a770 16g本地部署deepseek 32b蒸馏模型

[复制链接]
发表于 2025-3-18 19:26 | 显示全部楼层 |阅读模式
本帖最后由 earn21th 于 2025-3-18 19:26 编辑

最近看了几贴此方案,于是就想自己来试试。

现在小黄鱼上价格还行,买了两张公版2800搞定。

win11上用lm部署,实测下来生成速度还是要比单张nv显卡慢不少(主要原因还是cuda的效率比较高),优点就在于便宜,intel支持两张交火并且显存可叠加,可用,操作简单。
平均在11 token/s

1.png
2.png
3.png
4.png
运行中的负载
5.png
发表于 2025-3-18 19:34 | 显示全部楼层
不错。昨天看到一个单卡4090运行DeepSeek满血版KTransformers。现在门槛越来越低了。不过4090还是有点贵。下不手。
发表于 2025-3-18 19:53 | 显示全部楼层
B580不说有24G么
回头弄个三五张,这事儿就基本上齐活了
发表于 2025-3-18 20:14 来自手机 | 显示全部楼层
好像跟macmini速度差不多?
发表于 2025-3-18 20:16 | 显示全部楼层
建议柠檬 发表于 2025-3-18 19:53
B580不说有24G么
回头弄个三五张,这事儿就基本上齐活了

B580不是只有12G的大小吗
发表于 2025-3-18 20:40 | 显示全部楼层
测一下vllm和ollama,应该会有提升
发表于 2025-3-18 20:41 来自手机 | 显示全部楼层
再多加两三张会更好么
发表于 2025-3-18 20:42 | 显示全部楼层
ImGrG 发表于 2025-3-18 20:16
B580不是只有12G的大小吗

前几天看说要出24G了
发表于 2025-3-18 20:58 来自手机 | 显示全部楼层
ttsammammb 发表于 2025-3-18 20:41
再多加两三张会更好么

intel官方的文档,4卡能70b
发表于 2025-3-18 21:01 来自手机 | 显示全部楼层
那个手里六张卡的卖家?我见他死活不肯包邮,就没下手,昨晚在狗东不到1700买了两张全新的,不过不是公版,搞不了四卡直插。不过也无所谓了,我是给同事买来一起打游戏用的,游戏不玩了再来耍耍deepseek
发表于 2025-3-18 21:04 来自手机 | 显示全部楼层
还有,楼主用的板子是家用版还是服务器板子,pcie带宽也可能是瓶颈,家用只能双x8
发表于 2025-3-18 21:33 | 显示全部楼层
这么说2张B580也可以交火?
发表于 2025-3-18 22:08 来自手机 | 显示全部楼层
StevenG 发表于 2025-3-18 20:58
intel官方的文档,4卡能70b

看2楼的回复,4张a770跑满血版deepseek有戏么,应该要大内存
发表于 2025-3-18 22:32 | 显示全部楼层
不错,显存叠加很重要
发表于 2025-3-18 22:38 | 显示全部楼层
这玩意儿跑多卡,是纯软件,还是硬件显卡需要SLI之类的线缆连接?
发表于 2025-3-18 23:31 | 显示全部楼层
我说今天咋有人要买我挂的公版A770,还愿意直接转钱……
发表于 2025-3-19 00:19 | 显示全部楼层
我是正好手头剩几张6700xt,就拿了两张跑32B,也是11左右
发表于 2025-3-19 00:37 来自手机 | 显示全部楼层
mumford 发表于 2025-3-19 00:19
我是正好手头剩几张6700xt,就拿了两张跑32B,也是11左右

还可以了
发表于 2025-3-19 08:58 | 显示全部楼层
本质上还是一张卡在计算。。。。
发表于 2025-3-19 09:14 | 显示全部楼层
ttsammammb 发表于 2025-3-18 22:08
看2楼的回复,4张a770跑满血版deepseek有戏么,应该要大内存

没戏,最多是671B量化版。
发表于 2025-3-19 09:42 | 显示全部楼层
昨天装了DS在8745H上,内存显存分配为32G+16G
下了14B的模型,运行占用大概15g
用下来发现运行在内存里用CPU推理比运行在集显上速度快一倍,780M集显还是性能弱了点
发表于 2025-3-19 09:58 | 显示全部楼层
双卡32B Q4才11t/s ?
比我想象中要低太多了,你GPU卸载拉满了吗
发表于 2025-3-19 10:01 | 显示全部楼层
这个速度肯定是没调好的,目前效率最高的应该还是vllm,但是对于i卡的支持性暂时未知。建议楼主试下Linux下部署,还有就是两卡的话最好都是插在直连CPU的PCIE上,两个4.0 x8的话速度应该还能再快点
发表于 2025-3-19 10:04 | 显示全部楼层
我的板子双卡只有3.0x8 应该会更慢
发表于 2025-3-19 10:05 | 显示全部楼层
StevenG 发表于 2025-3-18 20:58
intel官方的文档,4卡能70b

官方那个是4卡32B FP16 66G
而且最重要的人家是w7-3455 有加速芯片的,八通道D5,也就是频率没拉到8000
不然那四张卡都是多余的
发表于 2025-3-19 10:26 来自手机 | 显示全部楼层
st1860 发表于 2025-3-19 10:05
官方那个是4卡32B FP16 66G
而且最重要的人家是w7-3455 有加速芯片的,八通道D5,也就是频率没拉到8000
...

那篇文章里最后有个表格,4卡能跑量化版本的70b。还有,那个文章里,其实没有amx的配置,就是说用不用至强都可以。。不过它的预告倒是写了,未来会基于清华的技术和amx适配一版满血版
发表于 2025-3-19 10:29 | 显示全部楼层
StevenG 发表于 2025-3-19 10:26
那篇文章里最后有个表格,4卡能跑量化版本的70b。还有,那个文章里,其实没有amx的配置,就是说用不用至 ...

楼主的11t/s低过头了
B站有个Z890+265K+D5 8000双卡的能跑32b q4  25t/s
发表于 2025-3-19 10:36 来自手机 | 显示全部楼层
st1860 发表于 2025-3-19 10:29
楼主的11t/s低过头了
B站有个Z890+265K+D5 8000双卡的能跑32b q4  25t/s

内存带宽肯定有影响,我买了2块770还在路上,先借给同事玩玩游戏,等五一放假,我试试epyc ddr4平台,估计还能提升一些
发表于 2025-3-19 10:53 | 显示全部楼层
本帖最后由 古明地觉 于 2025-3-19 11:21 编辑

说起来a770这个价位和规格倒是和魔改v100 16g 撞个满怀。。。v100那边速度虽然倒是能接近3090有快30tks,但是400w的转接魔改卡是真的让人放不下心,而且是真的除了大语言模型啥也不行。。。和a770的稳定保值但速度差点属于是两个极端了。


突然想起来t10好像也在一千三四这个范畴。。。双卡用vllm配置好单发32bQ6能有十七八tks,也算是一个不那么极端的选项了
发表于 2025-3-19 12:32 | 显示全部楼层
建议柠檬 发表于 2025-3-18 20:42
前几天看说要出24G了

去年就说了,到现在还没影子,不过牙膏确实在努力出大显存的新卡,看电商供货能感觉的到。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 01:37 , Processed in 0.074583 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表