brucelee1126 发表于 2025-11-19 10:49

有没有人玩过威联通集成的LLM

想玩一玩,没卡,也不了解跑哪个模型,机器只能跑功耗300w以内的卡,求解惑,有单槽推荐就更巴适

Dolfin 发表于 2025-11-19 10:59

用的 deepseek 的 api,rag 搜索用,检索文件最多只出5个,闹不明白…

自挂东南枝 发表于 2025-11-19 10:59

列表里的模型都很老,从现在的眼光看已经算“弱智模型”了。如果可以自定义的话推荐去下一个Qwen3

brucelee1126 发表于 2025-11-19 11:13

Dolfin 发表于 2025-11-19 10:59
用的 deepseek 的 api,rag 搜索用,检索文件最多只出5个,闹不明白…

用api的话检索本地文件会不会造成本地文件上传

brucelee1126 发表于 2025-11-19 11:14

自挂东南枝 发表于 2025-11-19 10:59
列表里的模型都很老,从现在的眼光看已经算“弱智模型”了。如果可以自定义的话推荐去下一个Qwen3 ...

没有Qwen3,连Qwen的api都没,比较简陋的功能

自挂东南枝 发表于 2025-11-19 12:02

brucelee1126 发表于 2025-11-19 11:14
没有Qwen3,连Qwen的api都没,比较简陋的功能

本地服务这里应该是可以自定义添加的吧,这个看起来是本地运行模型[震惊]

mosigan 发表于 2025-11-19 12:03

nas搞这个真是吃多了,算力外置不好吗

mdeu 发表于 2025-11-19 13:03

能上传其他的吗?现在列表里的几个模型放这个时间点属于“睿智”一档的,要是不能传其他的别花钱折腾了

StevenG 发表于 2025-11-19 14:34

先说合适的硬件哈,要是4u,影驰有一个5060ti无双,单槽,价格黄鱼4000,狗东4999
要是2u,上一个魔改单槽的tesla t4或者等rtx 2000 blackwell魔改单槽散热器价格也在5000左右
没办法单槽选择不多哈

接着说跑什么模型,你列表里12g以下的模型,都能用上面的16g卡跑起来,不过速度一般般,个人用还行。至于效果,30b这个规模,基本的问答,编程,都还可以,但是会有幻觉,看你具体的任务,一般来讲,70b以上,才算有不错的体验,但是显存需求高,一张卡基本不够(也就6万+的rtx pro 6000及它的各种大哥有一战之力),看你具体做什么哈~

StevenG 发表于 2025-11-19 14:43

qsirch,是那个类似知识库的应用吧?基于rag的话,你可以试试同类的ragflow,不一定非得用威联通的应用。简单点的,可以windows下,用docker跑ragflow,然后大模型用lm studio,把服务开起来,配到ragflow上。

看了一眼,新版ragflow支持s3存储了,你可以试试威联通的s3,看看能不能对接上,这样你也不用非得在nas里接显卡搞了,那个限制太多~

brucelee1126 发表于 2025-11-19 14:49

StevenG 发表于 2025-11-19 14:43
qsirch,是那个类似知识库的应用吧?基于rag的话,你可以试试同类的ragflow,不一定非得用威联通的应用。简 ...

是把nas里的内容做知识库,仔细想一想,好像也没啥大用,nas里也没存啥知识,就是想玩玩这个功能

brucelee1126 发表于 2025-11-19 14:53

mdeu 发表于 2025-11-19 13:03
能上传其他的吗?现在列表里的几个模型放这个时间点属于“睿智”一档的,要是不能传其他的别花钱折腾了 ...

刚开始时候有过,后来更新给精简掉了,不能自行上传其他模型,比较简陋,感觉也就是玩个乐呵

l0stc0mpass 发表于 2025-11-19 14:57

有**-oss 还算老?gemma 3 虽然较老但是很能打。qwen3至今structure output 还是一坨。

StevenG 发表于 2025-11-19 15:01

brucelee1126 发表于 2025-11-19 14:49
是把nas里的内容做知识库,仔细想一想,好像也没啥大用,nas里也没存啥知识,就是想玩玩这个功能 ...

那没啥必要,这类工具原理就是把文档切片,然后根据你输入的内容,匹配最符合语义的切片内容,再作为引用数据,一并提交给大模型提问

Dolfin 发表于 2025-11-19 22:05

brucelee1126 发表于 2025-11-19 11:13
用api的话检索本地文件会不会造成本地文件上传

不好说,这个机制我不是清楚,得专业人士回答了

nepdaisuki 发表于 2025-11-20 00:21

用api吧,这里面的模型你没显卡,或者显卡显存不够转内存+cpu,会非常慢。还有这个之前有bug,显存不会自动清空。不知道更新了两个版本后修了没

nepdaisuki 发表于 2025-11-20 00:22

还有这个qsirch我感觉不如威联通那个mcp用的舒服

淡蓝七星 发表于 2025-11-21 15:52

没10W+的设备跑什么本地大模型。。。
页: [1]
查看完整版本: 有没有人玩过威联通集成的LLM