kingofgu 发表于 2025-1-21 23:13

自己部署deepseek-r1是选5000ada还是a6000好

一个32gb 一个48gb
我看了下都只能跑32b 区别是一个是全程q8量化 一个是q6推理 q8输出
加钱6000ada单卡也跑不了完整模型

neavo 发表于 2025-1-21 23:18

官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢

kingofgu 发表于 2025-1-21 23:21

neavo 发表于 2025-1-21 23:18
官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢 ...

肯定是部署distilled的版本啊 32b的那个
我之前没研究过用api 都是直接开的**和claude,一个月加起来50刀往上还有用量限制 用力半年多有的时候token还不够用,成本也不低了
如果用deepseek的api的话 前端有推荐的吗

yangzi123aaa20 发表于 2025-1-21 23:21

neavo 发表于 2025-1-21 23:18
官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢 ...

可能是要求保密吧

neavo 发表于 2025-1-21 23:25

本帖最后由 neavo 于 2025-1-21 23:30 编辑

kingofgu 发表于 2025-1-21 23:21
肯定是部署distilled的版本啊 32b的那个
我之前没研究过用api 都是直接开的**和claude,一个月加起来50刀 ...

那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090

这几个蒸馏版我玩了一天了,确实在本地模型里面也是断崖式的强,但是跟在线模型还是有差距的

为了这个买卡不如直接买官方 API 用,DS 的 API 不限制并发数,快到飞起

kingofgu 发表于 2025-1-21 23:38

neavo 发表于 2025-1-21 23:25
那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090

这几个蒸馏版我玩了一天了, ...

买api的话有推荐的前端吗

kingofgu 发表于 2025-1-21 23:39

yangzi123aaa20 发表于 2025-1-21 23:21
可能是要求保密吧

确实也有很多单位有保密需要的 但我只是个人用用

neavo 发表于 2025-1-21 23:46

kingofgu 发表于 2025-1-21 23:38
买api的话有推荐的前端吗

只是聊聊天的话,我觉得用官网免费网页版就可以了,完全没有任何使用量的限制

需要API进行数据二次处理就看你自己的需求了,我都是写脚本直接处理数据的,没怎么用过聊天 UI

zxy2001 发表于 2025-1-22 00:01

LZ 真壕。。。自己玩,买5000Ada、A6000。。。可以上魔改的48G 4090

用户 发表于 2025-1-22 00:11

廉价版可以8480+1T+内存,不知道能到几token/s。

uprit 发表于 2025-1-22 01:22

neavo 发表于 2025-1-21 23:25
那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090

这几个蒸馏版我玩了一天了, ...

和qwen2.5有啥区别?

kingofgu 发表于 2025-1-22 01:30

uprit 发表于 2025-1-22 01:22
和qwen2.5有啥区别?

权重不一样

YsHaNg 发表于 2025-1-22 03:11

uprit 发表于 2025-1-21 17:22
和qwen2.5有啥区别?

借用Nvidia一张图

ScjMitsui 发表于 2025-1-22 04:07

前端用cherry studio

YsHaNg 发表于 2025-1-22 04:26

neavo 发表于 2025-1-21 15:46
只是聊聊天的话,我觉得用官网免费网页版就可以了,完全没有任何使用量的限制

需要API进行数据二次处理 ...

网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全没问题

kingofgu 发表于 2025-1-22 07:09

ScjMitsui 发表于 2025-1-22 04:07
前端用cherry studio

试了一下 还可以 搭配LM Studio一个本地一个在线基本零代码部署即开即用

kingofgu 发表于 2025-1-22 07:10

YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

检查一下自己的网络出口是不是被黑名单了 用手机开热点访问一下试试

我輩樹である 发表于 2025-1-22 09:20

YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

你在海外么?

我輩樹である 发表于 2025-1-22 09:21

最便宜的方案。

Miner 发表于 2025-1-22 09:43

完全体的R1是660B啊,你说的是R1蒸馏出的小模型,那两张消费级旗舰卡就能跑了,还要看你上下文,RAG 大小

neavo 发表于 2025-1-22 09:45

YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

所以前面说看个人需求,不过这几个蒸馏版拿来干活还是粗糙了点,而且本地跑就算是4090也挺慢的,能 API 还是尽量 API

kingofgu 发表于 2025-1-22 10:29

我輩樹である 发表于 2025-1-22 09:21
最便宜的方案。

用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头了

我輩樹である 发表于 2025-1-22 10:32

本帖最后由 我輩樹である 于 2025-1-22 10:39 编辑

kingofgu 发表于 2025-1-22 10:29
用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头 ...

prefill的时间20-25秒。图里面有。
strix halo可能跟mac有一样的问题,GPU不够强。

neavo 发表于 2025-1-22 10:39

本帖最后由 neavo 于 2025-1-22 10:40 编辑

kingofgu 发表于 2025-1-22 10:29
用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头 ...

推理很慢,已经有设备了将就用一下挺好的,专门为了推理买 Mac 设备就没什么性价比了

YsHaNg 发表于 2025-1-22 19:34

我輩樹である 发表于 2025-1-22 01:20
你在海外么?

对 是境内网站需要censorship的缘故吗

我輩樹である 发表于 2025-1-22 19:35

YsHaNg 发表于 2025-1-22 19:34
对 是境内网站需要censorship的缘故吗

现在好像不想给境外提供服务。

YsHaNg 发表于 2025-1-22 19:36

kingofgu 发表于 2025-1-21 23:10
检查一下自己的网络出口是不是被黑名单了 用手机开热点访问一下试试

我是指让模型去访问站点

YsHaNg 发表于 2025-1-22 19:38

我輩樹である 发表于 2025-1-22 11:35
现在好像不想给境外提供服务。

那我挂**用吧[流汗]

anishieh` 发表于 2025-1-22 19:45

目前两张4090,可以vllm部署qwen 32b,但没法部署70b的。

用lmstudio 70b的模型能跑,但上下文很短。

目前我是小规模想省钱就本地vllm,不过多数还是直接api了。

YsHaNg 发表于 2025-1-22 19:45

neavo 发表于 2025-1-22 01:45
所以前面说看个人需求,不过这几个蒸馏版拿来干活还是粗糙了点,而且本地跑就算是4090也挺慢的,能 API...

你们能让网页r1访问站点吗 我试了搜索可以 但是扔一个网址给它就不行 类似于rag 如果不能做api也没辙吧 本地host用rag是独立的embedding model一点问题没有
页: [1] 2
查看完整版本: 自己部署deepseek-r1是选5000ada还是a6000好