求推荐点大容量D5，然后上B850还是Z890

平安是福 · 发表于 2025-10-15 20:43

给AI弄魔怔了，准备上点大内存跑moe

求推荐点48gx4或者64gx4的d5条子（内存预算5-6k）

平安是福 · 发表于 2025-10-16 15:10

xy. 发表于 2025-10-15 20:48
6k 加点买佰维或者宏碁的 48x4, 主要是 expo 好开, 256g 现在预算应该不够了.

我看了看单根64g的好像只有5600 c40这种英睿达不知道镁光什么颗粒的普条，单价1200一根，然后是金邦巨蟹6000 c40的，单根2000

平安是福 · 发表于 2025-10-16 16:50

盐湖发表于 2025-10-16 16:48
真的要纯cpu+内存硬跑本地llm吗？弄个双v100虽然架构老，但是速度怎么也比同预算的大内存纯cpu快吧，而且价 ...

标题说了要跑moe架构的模型，典型是qwen3 80b-a3b 激活参数仅3b，v100这种老古董不支持fp8加速实际跑起来速度甚至能被4060ti秒杀

平安是福 · 发表于 2025-10-16 16:52

盐湖发表于 2025-10-16 16:48
真的要纯cpu+内存硬跑本地llm吗？弄个双v100虽然架构老，但是速度怎么也比同预算的大内存纯cpu快吧，而且价 ...

内存只是拿来做kv缓存和模型权重存储的地方，实际上还是在显卡里面跑的，实际上激活的3b参数还是在卡里面跑

平安是福 · 发表于 2025-10-16 18:02

Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑？

不是每次都要完全重新加载，如果有tokens取权重取到重复的专家完全可以赖在显存里面不走的，每次只激活3b，3b的参数按16位也才6g，到不了pcie瓶颈的

平安是福 · 发表于 2025-10-16 18:03

Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑？

千问官方在B站有做视频教部署来着，不过确实没有适配llamacpp就是了

平安是福 · 发表于 2025-10-16 18:04

Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑？

具体的实现可以看KTransformer和SGlang，Ktansformer有实现对各种moe的加速，在github上有

平安是福 · 发表于 2025-10-16 18:09

xy. 发表于 2025-10-16 15:12
后者是三星

两者超频性能能差多少呢？看后期的颗粒插4跟也能6000/C28了，英睿达的条子能差多少

B850和Z890差距大吗

平安是福 · 发表于 2025-10-16 19:02

xy. 发表于 2025-10-16 18:44
能开 expo 就算成功

我主要是想知道，英睿达那条是5600c40的超频频率，是不如d4的频率，百维这个6000c28其实是一个很极限的频率了，比7200c36这种还要强度高，4条打不开我觉得也算正常。

平安是福 · 发表于 2025-10-23 15:22

Miner 发表于 2025-10-23 15:16
我上面回复有提到，PCIE5是瓶颈，从内存频繁搬运砖家上卡是常态，每个 token 路由到不同专家时是性能噩梦 ...

KT已经作为SGlang的代码合并了，提升并不是非常有限。像最新的QWEN3 80BA3B已经做过设计让token选取时尽量选靠近的专家设计，而并不是每个token 全都miss了路由到别的专家。而且你一个问题很难同时跨所有专家的吧？从艺术问到如何上太空这种问题，这种极端情况很少的

平安是福 · 发表于 2025-10-23 15:24

qe2bbngit66 发表于 2025-10-23 14:58
友情提醒，消费级平台跑模型，用内存的话，内存读取带宽速度是最关键的，也是瓶颈，光考虑内存频率还不够， ...

这个我知道，我也没可能上9800x3d这种cpu，只是偶然跑训练的时候没事做兼职玩玩（我有3张卡，其中打游戏那个只能算亮机的，给他丢芯片组的4.0x4上用着

）

平安是福 · 发表于 2025-10-23 15:25

寒蝉鸣泣发表于 2025-10-23 14:44
PDD 套餐 Z890算下来都才600块了有啥好考虑的

主要是大容量内存的兼容性问题，有的插4根甚至点不亮那种

平安是福 · 发表于 2025-10-23 15:26

mdeu 发表于 2025-10-23 14:57
当下内存涨的比黄金的都快了，6000不够，除非你愿意搞那种老古董颗粒D5 都不知道能不能稳4条 4800的 ...

我仔细看了看有海盗船的48/.64g单条可以选，单根1200+左右，这个好像是三星的颗粒，5600c40 64g

平安是福 · 发表于 2025-10-23 17:43

盐湖发表于 2025-10-23 16:43
我前段时间玩qwen3-30B-A3B的时候遇到过一个问题，就是无法激活12个以上专家，默认8个专家是最稳定的状态 ...

千问3 30B-A3B默认就只推荐8个专家

平安是福 · 发表于 2025-10-23 17:44

盐湖发表于 2025-10-23 16:44
这么看H20还是相当有存在价值的

主要我是穷哥们，有钱能全部在gpu里面跑那肯定是最快的，但问题是一张H20可以买几套这种192g+4090/5090的配置了，，，小网站做分流跑并行能比单卡h20快多少倍了？

平安是福 · 发表于 2025-10-23 18:48

盐湖发表于 2025-10-23 18:44
它是有128个但只能开8个，你知道80BA3B是几个吗？

数据来自huggingface页面

QWEN3 NEXT 80B A3B 专家混合:

专家人数:512
活跃专家人数:10人
共享专家数量:1
专家中级尺寸:512

平安是福 · 发表于 2025-10-23 18:50

盐湖发表于 2025-10-23 18:45
没推荐买H20，只是因为这个事改变了我之前认为H20价格不符合性能的认识，之前是觉得它性能太低空有大显存 ...

所以第二代禁卡令加上了显存速度限制。老黄H20是没有砍显存的，因为大语言模型的推理本身是个内存密集型任务，H20大部分情况核心性能不构成瓶颈。他这个核心算力可能会在预填充阶段受限（很小）

账号		自动登录	找回密码
密码			加入我们

[内存] 求推荐点大容量D5，然后上B850还是Z890