求推荐点大容量D5，然后上B850还是Z890

平安是福 · 发表于 2025-10-15 20:43

给AI弄魔怔了，准备上点大内存跑moe

求推荐点48gx4或者64gx4的d5条子（内存预算5-6k）

xy. · 发表于 2025-10-15 20:48

6k 加点买佰维或者宏碁的 48x4, 主要是 expo 好开, 256g 现在预算应该不够了.

平安是福 · 发表于 2025-10-16 15:10

xy. 发表于 2025-10-15 20:48
6k 加点买佰维或者宏碁的 48x4, 主要是 expo 好开, 256g 现在预算应该不够了.

我看了看单根64g的好像只有5600 c40这种英睿达不知道镁光什么颗粒的普条，单价1200一根，然后是金邦巨蟹6000 c40的，单根2000

xy. · 发表于 2025-10-16 15:12

平安是福发表于 2025-10-16 15:10
我看了看单根64g的好像只有5600 c40这种英睿达不知道镁光什么颗粒的普条，单价1200一根，然后是金邦巨蟹6 ...

后者是三星

盐湖 · 发表于 2025-10-16 16:48

真的要纯cpu+内存硬跑本地llm吗？弄个双v100虽然架构老，但是速度怎么也比同预算的大内存纯cpu快吧，而且价格刚好也是四千这个价位。

平安是福 · 发表于 2025-10-16 16:50

盐湖发表于 2025-10-16 16:48
真的要纯cpu+内存硬跑本地llm吗？弄个双v100虽然架构老，但是速度怎么也比同预算的大内存纯cpu快吧，而且价 ...

标题说了要跑moe架构的模型，典型是qwen3 80b-a3b 激活参数仅3b，v100这种老古董不支持fp8加速实际跑起来速度甚至能被4060ti秒杀

平安是福 · 发表于 2025-10-16 16:52

盐湖发表于 2025-10-16 16:48
真的要纯cpu+内存硬跑本地llm吗？弄个双v100虽然架构老，但是速度怎么也比同预算的大内存纯cpu快吧，而且价 ...

内存只是拿来做kv缓存和模型权重存储的地方，实际上还是在显卡里面跑的，实际上激活的3b参数还是在卡里面跑

Miner · 发表于 2025-10-16 17:28

平安是福发表于 2025-10-16 16:52
内存只是拿来做kv缓存和模型权重存储的地方，实际上还是在显卡里面跑的，实际上激活的3b参数还是在卡里面 ...

这样速度可能还不如在内存里跑？

问题是，qwen3 80b-a3b，目前官方还没适配llama.cpp，PC上纯CPU暂时没法跑

CPU+显卡混合推理，显存不够的时候需要频繁从内存搬专家上卡，PCIE 是瓶颈

平安是福 · 发表于 2025-10-16 18:02

Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑？

不是每次都要完全重新加载，如果有tokens取权重取到重复的专家完全可以赖在显存里面不走的，每次只激活3b，3b的参数按16位也才6g，到不了pcie瓶颈的

平安是福 · 发表于 2025-10-16 18:03

Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑？

千问官方在B站有做视频教部署来着，不过确实没有适配llamacpp就是了

平安是福 · 发表于 2025-10-16 18:04

Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑？

具体的实现可以看KTransformer和SGlang，Ktansformer有实现对各种moe的加速，在github上有

平安是福 · 发表于 2025-10-16 18:09

xy. 发表于 2025-10-16 15:12
后者是三星

两者超频性能能差多少呢？看后期的颗粒插4跟也能6000/C28了，英睿达的条子能差多少

B850和Z890差距大吗

xy. · 发表于 2025-10-16 18:44

平安是福发表于 2025-10-16 18:09
两者超频性能能差多少呢？看后期的颗粒插4跟也能6000/C28了，英睿达的条子能差多少B850和Z890差距大吗 ...

能开 expo 就算成功

平安是福 · 发表于 2025-10-16 19:02

xy. 发表于 2025-10-16 18:44
能开 expo 就算成功

我主要是想知道，英睿达那条是5600c40的超频频率，是不如d4的频率，百维这个6000c28其实是一个很极限的频率了，比7200c36这种还要强度高，4条打不开我觉得也算正常。

盐湖 · 发表于 2025-10-17 11:23

平安是福发表于 2025-10-16 16:52
内存只是拿来做kv缓存和模型权重存储的地方，实际上还是在显卡里面跑的，实际上激活的3b参数还是在卡里面 ...

还能这么玩的吗？我也和楼上持相同疑问，这种方式显卡的存在还有意义吗，在推理速度被频繁存取内存拖累的情况下。

盐湖 · 发表于 2025-10-17 11:23

平安是福发表于 2025-10-16 18:04
具体的实现可以看KTransformer和SGlang，Ktansformer有实现对各种moe的加速，在github上有 ...

上面的疑问在这层已经得到解答，我去了解一下

xunne5220 · 发表于 2025-10-23 14:10

雷克沙好像出了64GBx2的，4000块钱一套，不晓得价格和crucial比怎么样

寒蝉鸣泣 · 发表于 2025-10-23 14:44

PDD 套餐 Z890算下来都才600块了有啥好考虑的

qe2bbngit66 · 发表于 2025-10-23 14:53

Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑？

你是否在寻找fastllm？这个推理框架已经支持了80bnext，还可以直接windows下面跑，具体可以去b站搜索黄歪歪这个up主，他开发的c++推理架构，速度贼快。激活的3b在显卡跑，其他的留在内存里，如果内存不够还可以额外加在到显卡里更多内容。不过消费平台内存带宽太低了，速度估计10-20t/s吧，具体看内存情况

mdeu · 发表于 2025-10-23 14:57

当下内存涨的比黄金的都快了，6000不够，除非你愿意搞那种老古董颗粒D5 都不知道能不能稳4条 4800的

qe2bbngit66 · 发表于 2025-10-23 14:58

友情提醒，消费级平台跑模型，用内存的话，内存读取带宽速度是最关键的，也是瓶颈，光考虑内存频率还不够，也要cpu和主板。
我有限的观察和研究，结论是d5高频内存，尽量用12-14代的英特尔处理器，高频能力更强，而且内存带宽明显更高，可以到100g/s甚至更高。am5 单ccd的cpu，基本上只能打到60-70g/s的速度，只有双ccd的高端u（贼贵）才能实现和intel差不多的速度。

Miner · 发表于 2025-10-23 15:16

盐湖发表于 2025-10-17 11:23
还能这么玩的吗？我也和楼上持相同疑问，这种方式显卡的存在还有意义吗，在推理速度被频繁存取内存拖累的 ...

我上面回复有提到，PCIE5是瓶颈，从内存频繁搬运砖家上卡是常态，每个 token 路由到不同专家时是性能噩梦

Ktransformer 提升非常有限

否则，皮衣黄显存就不会比金子还贵了

现阶段带宽是硬瓶颈，哪怕 MoE，软件再怎样优化也改变不了物理限制

平安是福 · 发表于 2025-10-23 15:22

Miner 发表于 2025-10-23 15:16
我上面回复有提到，PCIE5是瓶颈，从内存频繁搬运砖家上卡是常态，每个 token 路由到不同专家时是性能噩梦 ...

KT已经作为SGlang的代码合并了，提升并不是非常有限。像最新的QWEN3 80BA3B已经做过设计让token选取时尽量选靠近的专家设计，而并不是每个token 全都miss了路由到别的专家。而且你一个问题很难同时跨所有专家的吧？从艺术问到如何上太空这种问题，这种极端情况很少的

平安是福 · 发表于 2025-10-23 15:24

qe2bbngit66 发表于 2025-10-23 14:58
友情提醒，消费级平台跑模型，用内存的话，内存读取带宽速度是最关键的，也是瓶颈，光考虑内存频率还不够， ...

这个我知道，我也没可能上9800x3d这种cpu，只是偶然跑训练的时候没事做兼职玩玩（我有3张卡，其中打游戏那个只能算亮机的，给他丢芯片组的4.0x4上用着

）

平安是福 · 发表于 2025-10-23 15:25

寒蝉鸣泣发表于 2025-10-23 14:44
PDD 套餐 Z890算下来都才600块了有啥好考虑的

主要是大容量内存的兼容性问题，有的插4根甚至点不亮那种

平安是福 · 发表于 2025-10-23 15:26

mdeu 发表于 2025-10-23 14:57
当下内存涨的比黄金的都快了，6000不够，除非你愿意搞那种老古董颗粒D5 都不知道能不能稳4条 4800的 ...

我仔细看了看有海盗船的48/.64g单条可以选，单根1200+左右，这个好像是三星的颗粒，5600c40 64g

盐湖 · 发表于 2025-10-23 16:43

平安是福发表于 2025-10-23 15:22
KT已经作为SGlang的代码合并了，提升并不是非常有限。像最新的QWEN3 80BA3B已经做过设计让token选取时尽 ...

我前段时间玩qwen3-30B-A3B的时候遇到过一个问题，就是无法激活12个以上专家，默认8个专家是最稳定的状态，12个专家就已经处于不稳定状态了，12个以上会导致回复内容混乱不可读，而且这个情况是外网玩家也广泛发现了，不知道你说的这个80B-A3B情况怎么样

盐湖 · 发表于 2025-10-23 16:44

Miner 发表于 2025-10-23 15:16
我上面回复有提到，PCIE5是瓶颈，从内存频繁搬运砖家上卡是常态，每个 token 路由到不同专家时是性能噩梦 ...

这么看H20还是相当有存在价值的

平安是福 · 发表于 2025-10-23 17:43

盐湖发表于 2025-10-23 16:43
我前段时间玩qwen3-30B-A3B的时候遇到过一个问题，就是无法激活12个以上专家，默认8个专家是最稳定的状态 ...

千问3 30B-A3B默认就只推荐8个专家

平安是福 · 发表于 2025-10-23 17:44

盐湖发表于 2025-10-23 16:44
这么看H20还是相当有存在价值的

主要我是穷哥们，有钱能全部在gpu里面跑那肯定是最快的，但问题是一张H20可以买几套这种192g+4090/5090的配置了，，，小网站做分流跑并行能比单卡h20快多少倍了？

账号		自动登录	找回密码
密码			加入我们

[内存] 求推荐点大容量D5，然后上B850还是Z890