kingofgu 发表于 2025-1-22 19:47

我輩樹である 发表于 2025-1-22 19:35
现在好像不想给境外提供服务。

我刚刚试了 欧洲这边用deepseek的api没问题

YsHaNg 发表于 2025-1-22 19:47

anishieh` 发表于 2025-1-22 11:45
目前两张4090,可以vllm部署qwen 32b,但没法部署70b的。

用lmstudio 70b的模型能跑,但上下文很短。


你是哪个模型 我用ollama加载Nvidia的nemo context length可以1024k

YsHaNg 发表于 2025-1-22 19:54

kingofgu 发表于 2025-1-22 11:47
我刚刚试了 欧洲这边用deepseek的api没问题

扔一个url进去呢?思考部分有没有说Hmm, I can't actually browse the internet.
我看网页版大概是不能rag的原因

anishieh` 发表于 2025-1-22 20:03

YsHaNg 发表于 2025-1-22 19:47
你是哪个模型 我用ollama加载Nvidia的nemo context length可以1024k

llama 3.3 70b 和r1的蒸馏版本,qwen 2.5 72b

8k上下文已经爆显存很难用了,我下次也试试ollama

我輩樹である 发表于 2025-1-22 20:08

kingofgu 发表于 2025-1-22 19:47
我刚刚试了 欧洲这边用deepseek的api没问题

你试试让它读个网页总结一下,是不是rag功能封了。

Leciel 发表于 2025-1-22 21:16

在amd 7900xtx部署了32gb。速度还行。想30到60秒,出结果很快。

问了几个特别尖锐的问题。只能说,这个模型非常的反动。迟早要被清算。简单的几个诱导就会让ai走上不归路。

kingofgu 发表于 2025-1-22 21:32

我輩樹である 发表于 2025-1-22 20:08
你试试让它读个网页总结一下,是不是rag功能封了。

是的 没有网络访问权限

kingofgu 发表于 2025-1-22 21:33

Leciel 发表于 2025-1-22 21:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒,出结果很快。

问了几个特别尖锐的问题。只能说,这个模 ...

使用工具的是人

YsHaNg 发表于 2025-1-22 22:11

我輩樹である 发表于 2025-1-22 12:08
你试试让它读个网页总结一下,是不是rag功能封了。

国内使用网页版有rag能力吗

YsHaNg 发表于 2025-1-22 22:13

Leciel 发表于 2025-1-22 13:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒,出结果很快。

问了几个特别尖锐的问题。只能说,这个模 ...

你试试同样问题给网页版 那个有做alignment 不然不可能上浙备案号

我輩樹である 发表于 2025-1-22 23:01

YsHaNg 发表于 2025-1-22 22:11
国内使用网页版有rag能力吗

有。网页或上传文件都可以。

i6wz1l 发表于 2025-1-31 15:15

Leciel 发表于 2025-1-22 21:16
在amd 7900xtx部署了32gb。速度还行。想30到60秒,出结果很快。

问了几个特别尖锐的问题。只能说,这个模 ...

最近想买一套设备上这个模型一直在纠结 上7900xtx还是5080,我搜索了很多资料室 amd的 最新驱动对于这个模型使用舒适度还是很可可以的?能做到每秒多少token

wjm47196 发表于 2025-1-31 15:25

kingofgu 发表于 2025-1-22 07:09
试了一下 还可以 搭配LM Studio一个本地一个在线基本零代码部署即开即用

那你不如买7900xtx,32b能跑30多tokens每秒

装陈醋的酱油瓶 发表于 2025-1-31 15:52

如果只是跑大模型毫无疑问显存更大的那个

su2353 发表于 2025-2-1 00:32

看到有用六七台m4 mac mini集群跑完整版的671B

mythgo 发表于 2025-2-1 00:47

自己玩当是魔改48G显存的4090最好。ampere架构已经过时了,除非是80G的A100,否则别再买了。

YsHaNg 发表于 2025-2-1 01:21

i6wz1l 发表于 2025-1-31 07:15
最近想买一套设备上这个模型一直在纠结 上7900xtx还是5080,我搜索了很多资料室 amd的 最新驱动对于 ...

7900xtx 小模型还是参数量为王

Kevin_Yip 发表于 2025-2-1 01:31

neavo 发表于 2025-1-22 09:45
所以前面说看个人需求,不过这几个蒸馏版拿来干活还是粗糙了点,而且本地跑就算是4090也挺慢的,能 API...

你用32b 4Q 5Q model還是很快的
36token/s自己用的話,你估計看不過來

Kevin_Yip 发表于 2025-2-1 01:32

YsHaNg 发表于 2025-1-22 19:45
你们能让网页r1访问站点吗 我试了搜索可以 但是扔一个网址给它就不行 类似于rag 如果不能做api也没辙吧...

可以。。。配上google的API能搜索內容
但是檢索到的網頁比較傻,網頁真偽也不太會判斷

Kevin_Yip 发表于 2025-2-1 01:36

i6wz1l 发表于 2025-1-31 15:15
最近想买一套设备上这个模型一直在纠结 上7900xtx还是5080,我搜索了很多资料室 amd的 最新驱动对于 ...

4090 48G是最佳選擇
其次就是3090和3090Ti
4090單卡的話可以做到36token/s左右,48G剛好能吃下一個70b的模型

BFG9K 发表于 2025-2-1 02:15

看看你哪里能不能买到二手的A100 80G

用户 发表于 2025-2-1 02:41

BFG9K 发表于 2025-2-1 02:15
看看你哪里能不能买到二手的A100 80G

这玩意现在多少钱?美国好像$8000的都不多,要$14000

YsHaNg 发表于 2025-2-1 02:57

Kevin_Yip 发表于 2025-1-31 17:32
可以。。。配上google的API能搜索內容
但是檢索到的網頁比較傻,網頁真偽也不太會判斷 ...

这个我也做了Google pse 搜索是没问题 rag parse html有问题 只能pdf
页: 1 [2]
查看完整版本: 自己部署deepseek-r1是选5000ada还是a6000好