找回密码
 加入我们
搜索
      
楼主: i6wz1l

[装机] 最近我想本地部署deepseek真是魔怔了,大家看看这个跑70b模型速度怎么样

[复制链接]
发表于 2025-2-7 22:32 | 显示全部楼层
i6wz1l 发表于 2025-2-7 10:48
是这样的 忍住了 先不买了,在等等

m4 pro我看了,8台组合跑671b,输出是5tokens,基本属于不能用的状态
发表于 2025-2-7 22:34 | 显示全部楼层
3080ti 部署ollama蒸馏的 DS 32b q4路过,好玩,速度不慢,CPU 7800x3d  32G内存。
结论:没个量化精度玩个毛
发表于 2025-2-7 22:39 | 显示全部楼层
本地部署是啥意思?
发表于 2025-2-7 22:44 | 显示全部楼层
个人就别搞本地,折腾费时费力费钱,结果效果还不好。
发表于 2025-2-10 07:43 来自手机 | 显示全部楼层
你买个二手macbookpro max2 96g,性价比最高
发表于 2025-2-11 09:04 | 显示全部楼层
已经在跑了,速度有点慢,我看有up主测试,5.9tokens/s,我有空测试一下速度
发表于 2025-2-12 09:19 | 显示全部楼层
测试了几种民用配置后,放弃了。
这个还是要上A100,H100才真正有实用性。671B跑的流畅需要二百万左右吧。还是老老实实用API吧。
发表于 2025-2-12 13:28 | 显示全部楼层
咱就猜,会不会以后mac也被禁止销售了
发表于 2025-2-12 13:37 来自手机 | 显示全部楼层
觉得本地部署这些小规模的意义有限
70B 32B效果都比完整模型差很远,就算是1B量化,参考之前其它开源模型的经验,比起4B差距也是很大
发表于 2025-2-15 11:05 | 显示全部楼层

这是哪个平台?
发表于 2025-2-15 12:20 | 显示全部楼层
已放弃本地部署,直接AI充钱。费这个劲整半天。。。他还是个弱智关键。
发表于 2025-2-15 12:22 | 显示全部楼层
psps3 发表于 2025-2-7 10:09
b站这个视频m4pro芯片64g内存,跑本地 70b deepseek r1 ,速度看上去不快
http://b23.tv/hbB0KhA ...

这个视频的速度是多少token/s?
发表于 2025-2-15 12:26 | 显示全部楼层
64G部署70B有些吃紧。主要是context length会非常受限。M4 Pro的算力勉强够用,但是内存不够的。
发表于 2025-2-15 12:27 | 显示全部楼层
tim6252 发表于 2025-2-7 13:57
家用ai搭建真的有啥用么

玩啊,那么多人买几万的5090是为了什么?

买法拉利的又是为了什么?
发表于 2025-2-15 12:28 来自手机 | 显示全部楼层
本地弄了14b用1080ti跑着玩,写写小作文还是可以的,快的飞起
发表于 2025-2-15 12:29 | 显示全部楼层
yueshen 发表于 2025-2-11 09:04
已经在跑了,速度有点慢,我看有up主测试,5.9tokens/s,我有空测试一下速度

这个怎么测试? 我刚刚试了32b的,汉字就是一个一个的显示出来的,就像键盘一个一个输入一样,这个算多少token/s?
发表于 2025-2-15 12:42 | 显示全部楼层
自己部署成本还是太高,大显存的计算卡价格都抬头了~M40 Maxwell都可以卖断货,还是付钱api来的实际一些吧~
发表于 2025-2-15 12:42 | 显示全部楼层
jihuan 发表于 2025-2-7 10:26
这么多api能用 一定要部署离线的干嘛?价格贵速度慢费时间,真是想不明白。怕国内api不安全还可以用其他国 ...

就是在线的不是自己的。自己的再差,在不花很多钱的情况下,训练一个私有的玩玩,也是目前的顶级科技。
发表于 2025-2-15 13:51 | 显示全部楼层
本地部署要花几万买专门的服务器硬件速度还慢,在云服务商租硬件$5-6/million tokens, 速度快得多。。。又不是24小时都要咨询大模型。
发表于 2025-2-15 14:13 | 显示全部楼层
我的4070S 只能部署14B, 32b有点吃力
发表于 2025-2-15 16:27 | 显示全部楼层
用22G 2080Ti性价比最高
发表于 2025-2-15 18:20 | 显示全部楼层
雨季不再来 发表于 2025-2-15 12:29
这个怎么测试? 我刚刚试了32b的,汉字就是一个一个的显示出来的,就像键盘一个一个输入一样,这个算多少 ...

看你用什么软件了,ollama的话加上--verbose命令,就是ollama run xxxx --verbose,输出完了会显示速度
发表于 2025-2-15 20:13 | 显示全部楼层
zzyzzy0512 发表于 2025-2-15 18:20
看你用什么软件了,ollama的话加上--verbose命令,就是ollama run xxxx --verbose,输出完了会显示速度 ...

谢谢,待会试试。
发表于 2025-2-16 02:24 来自手机 | 显示全部楼层
估计还是看个人能接受的token速度了
发表于 2025-2-17 08:40 | 显示全部楼层
雨季不再来 发表于 2025-2-15 12:29
这个怎么测试? 我刚刚试了32b的,汉字就是一个一个的显示出来的,就像键盘一个一个输入一样,这个算多少 ...

ollama run命令加个 --verbose 参数
发表于 2025-2-17 09:52 | 显示全部楼层
maaaaaaagie 发表于 2025-2-12 13:28
咱就猜,会不会以后mac也被禁止销售了

商用就mac那点算力不够看的,民用就那点需求犯不着禁
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 17:36 , Processed in 0.012308 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表