邪恶的光B 发表于 2025-7-7 17:50 实际上,除了满血,其他量化版本都不太理想,而且0528基本上没什么人做32B左右的量化了。 |
盐湖 发表于 2025-7-7 09:52 唉是吗 我没自己看reddit讨论 抱抱脸文档里作者说是finetune过的 好吧 真有可能就简单改了一下激活专家数 但在我这效果提升不少 可能自己没用过几个好东西=。= This is a simple "finetune" of the Qwen's "Qwen 30B-A3B" (MOE) model, setting the experts in use from 8 to 16 (out of 128 experts). |
本帖最后由 盐湖 于 2025-7-7 17:54 编辑 YsHaNg 发表于 2025-7-7 17:42 感谢指教,我确实是用llama.cpp自己调激活专家数时发现拉满128直接胡言乱语,这个情况之前在lm studio升级cuda运行时v1.33后也出现了,我当时以为是lms的锅,后来回过神来想明白了,旧版本压根就没实装专家数量滑条的功能,所以拉满128没胡言乱语,因为就没生效,而新版本使专家功能生效了,128专家就开始胡言乱语了。然后在自用的llama.cpp上一调就生效然后胡言乱语是同样的情况,后面我去搜了一下才知道qwen3低参数模型24专家就开始胡言乱语了。。 然后看您意思这个a6b并非简单改配置参数,而是真finetune过的?但是我看red上有人说除配置相关权重文件有变化以外,其他权重的sha256都没变,那么实际上仍然有修改只是没反应在权重文件中? 这个上下文的研究很有意义,我回家了认真看看,感谢指路!受教了! |
现在DeepSeek R1最新的是0528吧?好像那个强一些吧 |
a010301208 发表于 2025-7-7 13:37 谢谢,周末仔细搞搞 |
盐湖 发表于 2025-7-7 09:28 我感觉是的 a3b很多情况下比14b差很多 但是8gb显存能16k上下文 其实你自用vllm/llama.cpp就能调单次激活量 一个意思 这个a6b是finetune过的overlay好很多效果比a3b强 预训练模型卡上下文其实意义不大 https://fiction.live/stories/Fiction-liveBench-Feb-21-2025/oQdzQvKHw8JyXbN87 |
本帖最后由 盐湖 于 2025-7-7 17:31 编辑 YsHaNg 发表于 2025-7-7 16:57 好吧,我看到这个A6B的讨论中有提到只是在配置中把原A3B的模型激活参数翻倍了,同时还有人在讨论激活专家数改到了16,这个当时A3B就有人讨论过,我自己也发现了,就是激活专家数大于12时效果开始不稳定,大于24后开始无法正常使用,默认是8,我是12在用说实话没感觉出来太大区别,不过这几天还是打算尝试一下A6B,A3B体验已经太好了,看看A6B能有什么不一样的感受 QwQ-32B比qwen3-30B强一点的地方就是上下文能有128K,qwen3-30B默认32K上下文虽然日常不至于不够用,但是心里有点别扭。。不过毫无疑问qwen3-30B-A3B的tps性能是吊打QwQ-32B的,大概这就是激活参数少的好处?但我还不确定大参数量小激活量会不会沾点掩耳盗铃。。 |
盐湖 发表于 2025-7-7 05:53 有个单独的模型 不过超过十几k以后召回率就很惨 |
hawie 发表于 2025-7-7 00:53 手里有老平台相比起来专门买mac干推理性价比不是很高 |
这题真难![]() |
128k上下文怎么开的能讲讲吗?我看源文件页面说32K+8K用于输出总计40K上下文,但red上的讨论确实有提到128k上下文的 |
ahrenschan 发表于 2025-7-7 13:22 LunaTranslator设置本地模型API,开OCR识别模拟器画面,实时翻译 ![]() https://github.com/HIllya51/LunaTranslator |
本帖最后由 yakeyyy 于 2025-7-7 13:30 编辑 xinxin1982 发表于 2025-7-7 12:24 这个明显错的,正方体旋转群的阶是24,正八胞体(四维超立方体)旋转群的阶是192,这个明显当成正方体旋转群来用了。 |
5090有没有可用的翻译模型推荐?我有个在玩的r18手游一直想通过大模型翻译一下,但是似乎是有些词汇太过露骨总会触发风控,很蛋疼 |
gartour 发表于 2025-7-6 17:26 浇水的近义词 |
hawie 发表于 2025-7-6 15:37 为啥kimi差这么多。。。 要确定用8种颜色涂正八胞体的8个胞的方法数,我们需要考虑正八胞体的对称性。正八胞体有24个旋转对称性,这意味着有24种不同的方式旋转正八胞体,使其看起来与之前相同。 如果我们不考虑对称性,涂色的方法数将是\(8!\)(8的阶乘),因为我们可以以任何顺序将8种颜色分配给8个胞。然而,由于正八胞体的对称性,我们需要将这个数字除以对称性的数量,以避免重复计数。 因此,不同的涂色方法数由下式给出: \[ \frac{8!}{24} \] 首先,我们计算\(8!\): \[ 8! = 8 \times 7 \times 6 \times 5 \times 4 \times 3 \times 2 \times 1 = 40320 \] 接下来,我们将\(40320\)除以\(24\): \[ \frac{40320}{24} = 1680 \] 因此,用8种颜色涂正八胞体的8个胞的不同方法数是\(\boxed{1680}\)。 |
除了涉密信息必须搞本地部署,其它的运用场景我实在没想到有什么需要本地环境的必要性。 |
BetaHT 发表于 2025-7-6 18:04 听起来很叼,但是目前还不太现实,怕是正经的知识一个没记住,幻觉出来的答案倒是记住了一堆 ![]() |
l泰然处之01 发表于 2025-7-7 02:32 大多m4pro一般也就是兼顾跑跑AI玩,主力用途还是在视频编辑。N卡24GB以上的入门卡,看 后续是不是真上5070tis? |
BetaHT 发表于 2025-7-6 18:04 数字人离你不远了。 |
Heatherfield 发表于 2025-7-6 18:57 壕!96GB显存可以干很多别人干不了的事了。 |
YsHaNg 发表于 2025-7-6 18:17 是,pc或可以这么干,但mac没有额外内存,有内存就不如划为显存跑。 |
M4 Pro 推理的速度还可以,出第一个字的延迟很大,而且由于推理框架的不同,与 N卡 即使跑同模型,表现出来的整体效果也不太一样,我自己测的同模型同精度,M4 Pro 的输出内容总要少一些 |
sfczhw 发表于 2025-7-6 14:53 我之前也想买,就是怕 挂的几率有点大 |
BetaHT 发表于 2025-7-6 18:04 +1 无脑支持一下 |
四张3090有没有什么推荐的模型?机器组起来还没怎么来得及折腾。 |
30b a6b?这个大小我的137K+64G内存勉强也能跑 |
hawie 发表于 2025-7-6 09:47 总参数量30b 单次激活6b 保证激活张量层在vram就行 |
普通使用,我就用混元了。 我是支持本地部署的,一直有拿AI做超级秘书的想法。 把每天接触到的所有信息全部扔给AI,让AI记着、分析。以后问AI 10年前,某天听到的音乐是什么,AI能说出来,岂不是很屌。 |
YsHaNg 发表于 2025-7-6 17:40 这个模型大小是30b的,超过了16GB,16gb独显也不够的。不是纯a6b。 |
Archiver|手机版|小黑屋|Chiphell
( 沪ICP备12027953号-5 )310112100042806
GMT+8, 2025-7-17 08:41 , Processed in 0.027155 second(s), 9 queries , Gzip On, Redis On.
Powered by Discuz! X3.5 Licensed
© 2007-2024 Chiphell.com All rights reserved.