有没有人玩过威联通集成的LLM

brucelee1126 发表于 2025-11-19 10:49

想玩一玩，没卡，也不了解跑哪个模型，机器只能跑功耗300w以内的卡，求解惑，有单槽推荐就更巴适

Dolfin 发表于 2025-11-19 10:59

用的 deepseek 的 api，rag 搜索用，检索文件最多只出5个，闹不明白…

自挂东南枝 发表于 2025-11-19 10:59

列表里的模型都很老，从现在的眼光看已经算“弱智模型”了。如果可以自定义的话推荐去下一个Qwen3

brucelee1126 发表于 2025-11-19 11:13

Dolfin 发表于 2025-11-19 10:59
用的 deepseek 的 api，rag 搜索用，检索文件最多只出5个，闹不明白…

用api的话检索本地文件会不会造成本地文件上传

brucelee1126 发表于 2025-11-19 11:14

自挂东南枝发表于 2025-11-19 10:59
列表里的模型都很老，从现在的眼光看已经算“弱智模型”了。如果可以自定义的话推荐去下一个Qwen3 ...

没有Qwen3，连Qwen的api都没，比较简陋的功能

自挂东南枝 发表于 2025-11-19 12:02

brucelee1126 发表于 2025-11-19 11:14
没有Qwen3，连Qwen的api都没，比较简陋的功能

本地服务这里应该是可以自定义添加的吧，这个看起来是本地运行模型[震惊]

mosigan 发表于 2025-11-19 12:03

nas搞这个真是吃多了，算力外置不好吗

mdeu 发表于 2025-11-19 13:03

能上传其他的吗？现在列表里的几个模型放这个时间点属于“睿智”一档的，要是不能传其他的别花钱折腾了

StevenG 发表于 2025-11-19 14:34

先说合适的硬件哈，要是4u，影驰有一个5060ti无双，单槽，价格黄鱼4000，狗东4999
要是2u，上一个魔改单槽的tesla t4或者等rtx 2000 blackwell魔改单槽散热器价格也在5000左右
没办法单槽选择不多哈

接着说跑什么模型，你列表里12g以下的模型，都能用上面的16g卡跑起来，不过速度一般般，个人用还行。至于效果，30b这个规模，基本的问答，编程，都还可以，但是会有幻觉，看你具体的任务，一般来讲，70b以上，才算有不错的体验，但是显存需求高，一张卡基本不够（也就6万+的rtx pro 6000及它的各种大哥有一战之力），看你具体做什么哈~

StevenG 发表于 2025-11-19 14:43

qsirch，是那个类似知识库的应用吧？基于rag的话，你可以试试同类的ragflow，不一定非得用威联通的应用。简单点的，可以windows下，用docker跑ragflow，然后大模型用lm studio，把服务开起来，配到ragflow上。

看了一眼，新版ragflow支持s3存储了，你可以试试威联通的s3，看看能不能对接上，这样你也不用非得在nas里接显卡搞了，那个限制太多~

brucelee1126 发表于 2025-11-19 14:49

StevenG 发表于 2025-11-19 14:43
qsirch，是那个类似知识库的应用吧？基于rag的话，你可以试试同类的ragflow，不一定非得用威联通的应用。简 ...

是把nas里的内容做知识库，仔细想一想，好像也没啥大用，nas里也没存啥知识，就是想玩玩这个功能

brucelee1126 发表于 2025-11-19 14:53

mdeu 发表于 2025-11-19 13:03
能上传其他的吗？现在列表里的几个模型放这个时间点属于“睿智”一档的，要是不能传其他的别花钱折腾了 ...

刚开始时候有过，后来更新给精简掉了，不能自行上传其他模型，比较简陋，感觉也就是玩个乐呵

l0stc0mpass 发表于 2025-11-19 14:57

有**-oss 还算老？gemma 3 虽然较老但是很能打。qwen3至今structure output 还是一坨。

StevenG 发表于 2025-11-19 15:01

brucelee1126 发表于 2025-11-19 14:49
是把nas里的内容做知识库，仔细想一想，好像也没啥大用，nas里也没存啥知识，就是想玩玩这个功能 ...

那没啥必要，这类工具原理就是把文档切片，然后根据你输入的内容，匹配最符合语义的切片内容，再作为引用数据，一并提交给大模型提问

Dolfin 发表于 2025-11-19 22:05

brucelee1126 发表于 2025-11-19 11:13
用api的话检索本地文件会不会造成本地文件上传

不好说，这个机制我不是清楚，得专业人士回答了

nepdaisuki 发表于 2025-11-20 00:21

用api吧，这里面的模型你没显卡，或者显卡显存不够转内存+cpu，会非常慢。还有这个之前有bug，显存不会自动清空。不知道更新了两个版本后修了没

nepdaisuki 发表于 2025-11-20 00:22

还有这个qsirch我感觉不如威联通那个mcp用的舒服

淡蓝七星 发表于 2025-11-21 15:52

没10W+的设备跑什么本地大模型。。。

页: [1]

Chiphell - 分享与交流用户体验's Archiver

有没有人玩过威联通集成的LLM