自己部署deepseek-r1是选5000ada还是a6000好
一个32gb 一个48gb我看了下都只能跑32b 区别是一个是全程q8量化 一个是q6推理 q8输出
加钱6000ada单卡也跑不了完整模型 官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢 neavo 发表于 2025-1-21 23:18
官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢 ...
肯定是部署distilled的版本啊 32b的那个
我之前没研究过用api 都是直接开的**和claude,一个月加起来50刀往上还有用量限制 用力半年多有的时候token还不够用,成本也不低了
如果用deepseek的api的话 前端有推荐的吗 neavo 发表于 2025-1-21 23:18
官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢 ...
可能是要求保密吧 本帖最后由 neavo 于 2025-1-21 23:30 编辑
kingofgu 发表于 2025-1-21 23:21
肯定是部署distilled的版本啊 32b的那个
我之前没研究过用api 都是直接开的**和claude,一个月加起来50刀 ...
那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090
这几个蒸馏版我玩了一天了,确实在本地模型里面也是断崖式的强,但是跟在线模型还是有差距的
为了这个买卡不如直接买官方 API 用,DS 的 API 不限制并发数,快到飞起 neavo 发表于 2025-1-21 23:25
那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090
这几个蒸馏版我玩了一天了, ...
买api的话有推荐的前端吗 yangzi123aaa20 发表于 2025-1-21 23:21
可能是要求保密吧
确实也有很多单位有保密需要的 但我只是个人用用 kingofgu 发表于 2025-1-21 23:38
买api的话有推荐的前端吗
只是聊聊天的话,我觉得用官网免费网页版就可以了,完全没有任何使用量的限制
需要API进行数据二次处理就看你自己的需求了,我都是写脚本直接处理数据的,没怎么用过聊天 UI LZ 真壕。。。自己玩,买5000Ada、A6000。。。可以上魔改的48G 4090 廉价版可以8480+1T+内存,不知道能到几token/s。 neavo 发表于 2025-1-21 23:25
那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090
这几个蒸馏版我玩了一天了, ...
和qwen2.5有啥区别?
uprit 发表于 2025-1-22 01:22
和qwen2.5有啥区别?
权重不一样 uprit 发表于 2025-1-21 17:22
和qwen2.5有啥区别?
借用Nvidia一张图
前端用cherry studio neavo 发表于 2025-1-21 15:46
只是聊聊天的话,我觉得用官网免费网页版就可以了,完全没有任何使用量的限制
需要API进行数据二次处理 ...
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全没问题 ScjMitsui 发表于 2025-1-22 04:07
前端用cherry studio
试了一下 还可以 搭配LM Studio一个本地一个在线基本零代码部署即开即用 YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...
检查一下自己的网络出口是不是被黑名单了 用手机开热点访问一下试试 YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...
你在海外么? 最便宜的方案。
完全体的R1是660B啊,你说的是R1蒸馏出的小模型,那两张消费级旗舰卡就能跑了,还要看你上下文,RAG 大小 YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...
所以前面说看个人需求,不过这几个蒸馏版拿来干活还是粗糙了点,而且本地跑就算是4090也挺慢的,能 API 还是尽量 API 我輩樹である 发表于 2025-1-22 09:21
最便宜的方案。
用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头了 本帖最后由 我輩樹である 于 2025-1-22 10:39 编辑
kingofgu 发表于 2025-1-22 10:29
用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头 ...
prefill的时间20-25秒。图里面有。
strix halo可能跟mac有一样的问题,GPU不够强。 本帖最后由 neavo 于 2025-1-22 10:40 编辑
kingofgu 发表于 2025-1-22 10:29
用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头 ...
推理很慢,已经有设备了将就用一下挺好的,专门为了推理买 Mac 设备就没什么性价比了 我輩樹である 发表于 2025-1-22 01:20
你在海外么?
对 是境内网站需要censorship的缘故吗 YsHaNg 发表于 2025-1-22 19:34
对 是境内网站需要censorship的缘故吗
现在好像不想给境外提供服务。 kingofgu 发表于 2025-1-21 23:10
检查一下自己的网络出口是不是被黑名单了 用手机开热点访问一下试试
我是指让模型去访问站点 我輩樹である 发表于 2025-1-22 11:35
现在好像不想给境外提供服务。
那我挂**用吧[流汗] 目前两张4090,可以vllm部署qwen 32b,但没法部署70b的。
用lmstudio 70b的模型能跑,但上下文很短。
目前我是小规模想省钱就本地vllm,不过多数还是直接api了。 neavo 发表于 2025-1-22 01:45
所以前面说看个人需求,不过这几个蒸馏版拿来干活还是粗糙了点,而且本地跑就算是4090也挺慢的,能 API...
你们能让网页r1访问站点吗 我试了搜索可以 但是扔一个网址给它就不行 类似于rag 如果不能做api也没辙吧 本地host用rag是独立的embedding model一点问题没有
页:
[1]
2