最近我想本地部署deepseek真是魔怔了，大家看看这个跑70b模型速度怎么样

i6wz1l · 发表于 2025-2-7 09:46

最近疯狂的想折腾本地部署deepseek，已经试过了手中的几套配置，基本到14b模型，在往上可用性就不行了，当然目前我也买了很多api，速度都不怎么样，想着深入研究一下本地部署，看了rtx8000、40090 40g魔改、a6000、a100、双路2080ti，很多设备。

目前想法如果咸鱼diy一套7900xtx  大概1w元左右（没想到7900xtx也涨价了）

n卡系列二手2080ti是个选择毕竟显存高，其他的显存都太低了，4090 24g显存  5090 32g显存  价格过高，难买，跑模型高负载如果坏了保修还是问题。
目前好的选择是macmini m4  利用统一内存当显存跑，搜索了几个b站视频看起来速度还行。

于是京东关注了mac mini高配，发现魔怔的不止我一个，京东高配的mac mini居然都没货了，可能是因为这几天网上的那个利用8台顶配mac m4pro 顶配桥接部署完整r1的模型给部分玩家带来的可行性。

昨天m4pro到货了，我下了个订单，但是没有付款，各位感觉这个配置跑70b 怎么样。

或者说这个价位还有更好的硬件推荐么？

wangzorro · 发表于 2025-2-17 09:52

maaaaaaagie 发表于 2025-2-12 13:28
咱就猜，会不会以后mac也被禁止销售了

商用就mac那点算力不够看的，民用就那点需求犯不着禁

yueshen · 发表于 2025-2-17 08:40

雨季不再来发表于 2025-2-15 12:29
这个怎么测试？我刚刚试了32b的，汉字就是一个一个的显示出来的，就像键盘一个一个输入一样，这个算多少 ...

ollama run命令加个 --verbose 参数

buffff · 发表于 2025-2-16 02:24

估计还是看个人能接受的token速度了

雨季不再来 · 发表于 2025-2-15 20:13

zzyzzy0512 发表于 2025-2-15 18:20
看你用什么软件了，ollama的话加上--verbose命令，就是ollama run xxxx --verbose，输出完了会显示速度 ...

谢谢，待会试试。

zzyzzy0512 · 发表于 2025-2-15 18:20

雨季不再来发表于 2025-2-15 12:29
这个怎么测试？我刚刚试了32b的，汉字就是一个一个的显示出来的，就像键盘一个一个输入一样，这个算多少 ...

看你用什么软件了，ollama的话加上--verbose命令，就是ollama run xxxx --verbose，输出完了会显示速度

yopmai · 发表于 2025-2-15 16:27

用22G 2080Ti性价比最高

hanba · 发表于 2025-2-15 14:13

我的4070S 只能部署14B, 32b有点吃力

williamqh · 发表于 2025-2-15 13:51

本地部署要花几万买专门的服务器硬件速度还慢，在云服务商租硬件$5-6/million tokens, 速度快得多。。。又不是24小时都要咨询大模型。

like2022 · 发表于 2025-2-15 12:42

jihuan 发表于 2025-2-7 10:26
这么多api能用一定要部署离线的干嘛？价格贵速度慢费时间，真是想不明白。怕国内api不安全还可以用其他国 ...

就是在线的不是自己的。自己的再差，在不花很多钱的情况下，训练一个私有的玩玩，也是目前的顶级科技。

sun3797 · 发表于 2025-2-15 12:42

自己部署成本还是太高，大显存的计算卡价格都抬头了~M40 Maxwell都可以卖断货

，还是付钱api来的实际一些吧~

雨季不再来 · 发表于 2025-2-15 12:29

yueshen 发表于 2025-2-11 09:04
已经在跑了，速度有点慢，我看有up主测试，5.9tokens/s，我有空测试一下速度

这个怎么测试？我刚刚试了32b的，汉字就是一个一个的显示出来的，就像键盘一个一个输入一样，这个算多少token/s？

kkiller007 · 发表于 2025-2-15 12:28

本地弄了14b用1080ti跑着玩，写写小作文还是可以的，快的飞起

雨季不再来 · 发表于 2025-2-15 12:27

tim6252 发表于 2025-2-7 13:57
家用ai搭建真的有啥用么

玩啊，那么多人买几万的5090是为了什么？

买法拉利的又是为了什么？

PaperMellon · 发表于 2025-2-15 12:26

64G部署70B有些吃紧。主要是context length会非常受限。M4 Pro的算力勉强够用，但是内存不够的。

雨季不再来 · 发表于 2025-2-15 12:22

psps3 发表于 2025-2-7 10:09
b站这个视频m4pro芯片64g内存，跑本地 70b deepseek r1 ，速度看上去不快
http://b23.tv/hbB0KhA ...

这个视频的速度是多少token/s？

baoziking · 发表于 2025-2-15 12:20

已放弃本地部署，直接AI充钱。费这个劲整半天。。。他还是个弱智关键。

hen898 · 发表于 2025-2-15 11:05

mkkkno1 发表于 2025-2-7 14:16

这是哪个平台？

LocaVoiD · 发表于 2025-2-12 13:37

觉得本地部署这些小规模的意义有限
70B 32B效果都比完整模型差很远，就算是1B量化，参考之前其它开源模型的经验，比起4B差距也是很大

maaaaaaagie · 发表于 2025-2-12 13:28

咱就猜，会不会以后mac也被禁止销售了

ANSANGLI · 发表于 2025-2-12 09:19

测试了几种民用配置后，放弃了。
这个还是要上A100，H100才真正有实用性。671B跑的流畅需要二百万左右吧。还是老老实实用API吧。

yueshen · 发表于 2025-2-11 09:04

已经在跑了，速度有点慢，我看有up主测试，5.9tokens/s，我有空测试一下速度

he8898 · 发表于 2025-2-10 07:43

你买个二手macbookpro max2 96g，性价比最高

gmlee1999 · 发表于 2025-2-7 22:44

个人就别搞本地，折腾费时费力费钱，结果效果还不好。

liushihao · 发表于 2025-2-7 22:39

本地部署是啥意思？

lyys · 发表于 2025-2-7 22:34

3080ti 部署ollama蒸馏的 DS 32b q4路过，好玩，速度不慢，CPU 7800x3d 32G内存。
结论：没个量化精度玩个毛

nepdaisuki · 发表于 2025-2-7 22:32

i6wz1l 发表于 2025-2-7 10:48
是这样的忍住了先不买了，在等等

m4 pro我看了，8台组合跑671b，输出是5tokens，基本属于不能用的状态

1014982466 · 发表于 2025-2-7 21:53

本地部署毫无意义+1
你API都觉得慢本地部署更慢，要是快那精度早都没眼看了
最后搞半天还被免费的gemini暴打

i6wz1l · 发表于 2025-2-7 21:11

暂时是猫发表于 2025-2-7 17:59
应该就是想买个mac mini 玩玩，其他是借口罢了

我其实买过两个 mac mini的乞丐版本了都是用了几天就卖了

暂时是猫 · 发表于 2025-2-7 17:59

archxm 发表于 2025-2-7 17:47
这些其实并不成熟，花大价钱购买硬件，不值当

应该就是想买个mac mini 玩玩，其他是借口罢了

账号		自动登录	找回密码
密码			加入我们

[装机] 最近我想本地部署deepseek真是魔怔了，大家看看这个跑70b模型速度怎么样

浏览过的版块