找回密码
 加入我们
搜索
      
查看: 1547|回复: 34

[内存] 求推荐点大容量D5,然后上B850还是Z890

[复制链接]
发表于 2025-10-15 20:43 | 显示全部楼层 |阅读模式
给AI弄魔怔了,准备上点大内存跑moe求推荐点48gx4或者64gx4的d5条子(内存预算5-6k)
发表于 2025-10-15 20:48 | 显示全部楼层
6k 加点买佰维或者宏碁的 48x4, 主要是 expo 好开, 256g 现在预算应该不够了.
 楼主| 发表于 2025-10-16 15:10 | 显示全部楼层
xy. 发表于 2025-10-15 20:48
6k 加点买佰维或者宏碁的 48x4, 主要是 expo 好开, 256g 现在预算应该不够了.

我看了看单根64g的好像只有5600 c40这种英睿达不知道镁光什么颗粒的普条,单价1200一根,然后是金邦巨蟹6000 c40的,单根2000
发表于 2025-10-16 15:12 | 显示全部楼层
平安是福 发表于 2025-10-16 15:10
我看了看单根64g的好像只有5600 c40这种英睿达不知道镁光什么颗粒的普条,单价1200一根,然后是金邦巨蟹6 ...

后者是三星
发表于 2025-10-16 16:48 | 显示全部楼层
真的要纯cpu+内存硬跑本地llm吗?弄个双v100虽然架构老,但是速度怎么也比同预算的大内存纯cpu快吧,而且价格刚好也是四千这个价位。
 楼主| 发表于 2025-10-16 16:50 | 显示全部楼层
盐湖 发表于 2025-10-16 16:48
真的要纯cpu+内存硬跑本地llm吗?弄个双v100虽然架构老,但是速度怎么也比同预算的大内存纯cpu快吧,而且价 ...

标题说了要跑moe架构的模型,典型是qwen3 80b-a3b 激活参数仅3b,v100这种老古董不支持fp8加速实际跑起来速度甚至能被4060ti秒杀
 楼主| 发表于 2025-10-16 16:52 | 显示全部楼层
盐湖 发表于 2025-10-16 16:48
真的要纯cpu+内存硬跑本地llm吗?弄个双v100虽然架构老,但是速度怎么也比同预算的大内存纯cpu快吧,而且价 ...

内存只是拿来做kv缓存和模型权重存储的地方,实际上还是在显卡里面跑的,实际上激活的3b参数还是在卡里面跑
发表于 2025-10-16 17:28 | 显示全部楼层
平安是福 发表于 2025-10-16 16:52
内存只是拿来做kv缓存和模型权重存储的地方,实际上还是在显卡里面跑的,实际上激活的3b参数还是在卡里面 ...

这样速度可能还不如在内存里跑?


问题是,qwen3 80b-a3b,目前官方还没适配llama.cpp,PC上纯CPU暂时没法跑

CPU+显卡混合推理,显存不够的时候需要频繁从内存搬专家上卡,PCIE 是瓶颈
 楼主| 发表于 2025-10-16 18:02 | 显示全部楼层
Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑?

不是每次都要完全重新加载,如果有tokens取权重取到重复的专家完全可以赖在显存里面不走的,每次只激活3b,3b的参数按16位也才6g,到不了pcie瓶颈的
 楼主| 发表于 2025-10-16 18:03 | 显示全部楼层
Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑?

千问官方在B站有做视频教部署来着,不过确实没有适配llamacpp就是了
 楼主| 发表于 2025-10-16 18:04 | 显示全部楼层
Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑?

具体的实现 可以看KTransformer和SGlang,Ktansformer有实现对各种moe的加速,在github上有
 楼主| 发表于 2025-10-16 18:09 | 显示全部楼层

两者超频性能能差多少呢?看后期的颗粒插4跟也能6000/C28了,英睿达的条子能差多少B850和Z890差距大吗
发表于 2025-10-16 18:44 来自手机 | 显示全部楼层
平安是福 发表于 2025-10-16 18:09
两者超频性能能差多少呢?看后期的颗粒插4跟也能6000/C28了,英睿达的条子能差多少B850和Z890差距大吗 ...

能开 expo 就算成功
 楼主| 发表于 2025-10-16 19:02 | 显示全部楼层
xy. 发表于 2025-10-16 18:44
能开 expo 就算成功

我主要是想知道,英睿达那条是5600c40的超频频率,是不如d4的频率,百维这个6000c28其实是一个很极限的频率了,比7200c36这种还要强度高,4条打不开我觉得也算正常。
发表于 2025-10-17 11:23 | 显示全部楼层
平安是福 发表于 2025-10-16 16:52
内存只是拿来做kv缓存和模型权重存储的地方,实际上还是在显卡里面跑的,实际上激活的3b参数还是在卡里面 ...

还能这么玩的吗?我也和楼上持相同疑问,这种方式显卡的存在还有意义吗,在推理速度被频繁存取内存拖累的情况下。
发表于 2025-10-17 11:23 | 显示全部楼层
平安是福 发表于 2025-10-16 18:04
具体的实现 可以看KTransformer和SGlang,Ktansformer有实现对各种moe的加速,在github上有 ...

上面的疑问在这层已经得到解答,我去了解一下
发表于 2025-10-23 14:10 | 显示全部楼层
雷克沙好像出了64GBx2的,4000块钱一套,不晓得价格和crucial比怎么样
发表于 2025-10-23 14:44 | 显示全部楼层
PDD 套餐 Z890算下来都才600块了 有啥好考虑的
发表于 2025-10-23 14:53 | 显示全部楼层
Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑?

你是否在寻找fastllm?   这个推理框架已经支持了80bnext,还可以直接windows下面跑,具体 可以去b站搜索黄歪歪这个up主,他开发的c++推理架构,速度贼快。激活的3b在显卡跑,其他的留在内存里,如果内存不够还可以额外加在到显卡里更多内容。不过消费平台内存带宽太低了,速度估计10-20t/s吧,具体看内存情况
发表于 2025-10-23 14:57 | 显示全部楼层
当下内存涨的比黄金的都快了,6000不够,除非你愿意搞那种老古董颗粒D5 都不知道能不能稳4条 4800的
发表于 2025-10-23 14:58 | 显示全部楼层
友情提醒,消费级平台跑模型,用内存的话,内存读取带宽速度是最关键的,也是瓶颈,光考虑内存频率还不够,也要cpu和主板。
我有限的观察和研究,结论是d5高频内存,尽量用12-14代的英特尔处理器,高频能力更强,而且内存带宽明显更高,可以到100g/s甚至更高。am5 单ccd的cpu,基本上只能打到60-70g/s的速度,只有双ccd的高端u(贼贵)才能实现和intel差不多的速度。
发表于 2025-10-23 15:16 | 显示全部楼层
盐湖 发表于 2025-10-17 11:23
还能这么玩的吗?我也和楼上持相同疑问,这种方式显卡的存在还有意义吗,在推理速度被频繁存取内存拖累的 ...

我上面回复有提到,PCIE5是瓶颈,从内存频繁搬运砖家上卡是常态,每个 token 路由到不同专家时是性能噩梦

Ktransformer 提升非常有限

否则,皮衣黄显存就不会比金子还贵了

现阶段带宽是硬瓶颈,哪怕 MoE,软件再怎样优化也改变不了物理限制
 楼主| 发表于 2025-10-23 15:22 | 显示全部楼层
Miner 发表于 2025-10-23 15:16
我上面回复有提到,PCIE5是瓶颈,从内存频繁搬运砖家上卡是常态,每个 token 路由到不同专家时是性能噩梦 ...

KT已经作为SGlang的代码合并了,提升并不是非常有限。像最新的QWEN3 80BA3B已经做过设计让token选取时尽量选靠近的专家设计,而并不是每个token 全都miss了路由到别的专家。而且你一个问题很难同时跨所有专家的吧?从艺术问到如何上太空这种问题,这种极端情况很少的
 楼主| 发表于 2025-10-23 15:24 | 显示全部楼层
qe2bbngit66 发表于 2025-10-23 14:58
友情提醒,消费级平台跑模型,用内存的话,内存读取带宽速度是最关键的,也是瓶颈,光考虑内存频率还不够, ...

这个我知道,我也没可能上9800x3d这种cpu,只是偶然跑训练的时候没事做兼职玩玩(我有3张卡,其中打游戏那个只能算亮机的,给他丢芯片组的4.0x4上用着
 楼主| 发表于 2025-10-23 15:25 | 显示全部楼层
寒蝉鸣泣 发表于 2025-10-23 14:44
PDD 套餐 Z890算下来都才600块了 有啥好考虑的

主要是大容量内存的兼容性问题,有的插4根甚至点不亮那种
 楼主| 发表于 2025-10-23 15:26 | 显示全部楼层
mdeu 发表于 2025-10-23 14:57
当下内存涨的比黄金的都快了,6000不够,除非你愿意搞那种老古董颗粒D5 都不知道能不能稳4条 4800的 ...

我仔细看了看有海盗船的48/.64g单条可以选,单根1200+左右,这个好像是三星的颗粒,5600c40  64g
发表于 2025-10-23 16:43 | 显示全部楼层
平安是福 发表于 2025-10-23 15:22
KT已经作为SGlang的代码合并了,提升并不是非常有限。像最新的QWEN3 80BA3B已经做过设计让token选取时尽 ...


我前段时间玩qwen3-30B-A3B的时候遇到过一个问题,就是无法激活12个以上专家,默认8个专家是最稳定的状态,12个专家就已经处于不稳定状态了,12个以上会导致回复内容混乱不可读,而且这个情况是外网玩家也广泛发现了,不知道你说的这个80B-A3B情况怎么样
发表于 2025-10-23 16:44 | 显示全部楼层
Miner 发表于 2025-10-23 15:16
我上面回复有提到,PCIE5是瓶颈,从内存频繁搬运砖家上卡是常态,每个 token 路由到不同专家时是性能噩梦 ...

这么看H20还是相当有存在价值的
 楼主| 发表于 2025-10-23 17:43 | 显示全部楼层
盐湖 发表于 2025-10-23 16:43
我前段时间玩qwen3-30B-A3B的时候遇到过一个问题,就是无法激活12个以上专家,默认8个专家是最稳定的状态 ...

千问3 30B-A3B默认就只推荐8个专家
 楼主| 发表于 2025-10-23 17:44 | 显示全部楼层
盐湖 发表于 2025-10-23 16:44
这么看H20还是相当有存在价值的

主要我是穷哥们,有钱能全部在gpu里面跑那肯定是最快的,但问题是一张H20可以买几套这种192g+4090/5090的配置了,,,小网站做分流跑并行能比单卡h20快多少倍了?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-10-23 22:31 , Processed in 0.009664 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表