找回密码
 加入我们
搜索
      
查看: 1885|回复: 34

[内存] 求推荐点大容量D5,然后上B850还是Z890

[复制链接]
发表于 2025-10-15 20:43 | 显示全部楼层 |阅读模式
给AI弄魔怔了,准备上点大内存跑moe求推荐点48gx4或者64gx4的d5条子(内存预算5-6k)
 楼主| 发表于 2025-10-16 15:10 | 显示全部楼层
xy. 发表于 2025-10-15 20:48
6k 加点买佰维或者宏碁的 48x4, 主要是 expo 好开, 256g 现在预算应该不够了.

我看了看单根64g的好像只有5600 c40这种英睿达不知道镁光什么颗粒的普条,单价1200一根,然后是金邦巨蟹6000 c40的,单根2000
 楼主| 发表于 2025-10-16 16:50 | 显示全部楼层
盐湖 发表于 2025-10-16 16:48
真的要纯cpu+内存硬跑本地llm吗?弄个双v100虽然架构老,但是速度怎么也比同预算的大内存纯cpu快吧,而且价 ...

标题说了要跑moe架构的模型,典型是qwen3 80b-a3b 激活参数仅3b,v100这种老古董不支持fp8加速实际跑起来速度甚至能被4060ti秒杀
 楼主| 发表于 2025-10-16 16:52 | 显示全部楼层
盐湖 发表于 2025-10-16 16:48
真的要纯cpu+内存硬跑本地llm吗?弄个双v100虽然架构老,但是速度怎么也比同预算的大内存纯cpu快吧,而且价 ...

内存只是拿来做kv缓存和模型权重存储的地方,实际上还是在显卡里面跑的,实际上激活的3b参数还是在卡里面跑
 楼主| 发表于 2025-10-16 18:02 | 显示全部楼层
Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑?

不是每次都要完全重新加载,如果有tokens取权重取到重复的专家完全可以赖在显存里面不走的,每次只激活3b,3b的参数按16位也才6g,到不了pcie瓶颈的
 楼主| 发表于 2025-10-16 18:03 | 显示全部楼层
Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑?

千问官方在B站有做视频教部署来着,不过确实没有适配llamacpp就是了
 楼主| 发表于 2025-10-16 18:04 | 显示全部楼层
Miner 发表于 2025-10-16 17:28
这样速度可能还不如在内存里跑?

具体的实现 可以看KTransformer和SGlang,Ktansformer有实现对各种moe的加速,在github上有
 楼主| 发表于 2025-10-16 18:09 | 显示全部楼层

两者超频性能能差多少呢?看后期的颗粒插4跟也能6000/C28了,英睿达的条子能差多少B850和Z890差距大吗
 楼主| 发表于 2025-10-16 19:02 | 显示全部楼层
xy. 发表于 2025-10-16 18:44
能开 expo 就算成功

我主要是想知道,英睿达那条是5600c40的超频频率,是不如d4的频率,百维这个6000c28其实是一个很极限的频率了,比7200c36这种还要强度高,4条打不开我觉得也算正常。
 楼主| 发表于 2025-10-23 15:22 | 显示全部楼层
Miner 发表于 2025-10-23 15:16
我上面回复有提到,PCIE5是瓶颈,从内存频繁搬运砖家上卡是常态,每个 token 路由到不同专家时是性能噩梦 ...

KT已经作为SGlang的代码合并了,提升并不是非常有限。像最新的QWEN3 80BA3B已经做过设计让token选取时尽量选靠近的专家设计,而并不是每个token 全都miss了路由到别的专家。而且你一个问题很难同时跨所有专家的吧?从艺术问到如何上太空这种问题,这种极端情况很少的
 楼主| 发表于 2025-10-23 15:24 | 显示全部楼层
qe2bbngit66 发表于 2025-10-23 14:58
友情提醒,消费级平台跑模型,用内存的话,内存读取带宽速度是最关键的,也是瓶颈,光考虑内存频率还不够, ...

这个我知道,我也没可能上9800x3d这种cpu,只是偶然跑训练的时候没事做兼职玩玩(我有3张卡,其中打游戏那个只能算亮机的,给他丢芯片组的4.0x4上用着
 楼主| 发表于 2025-10-23 15:25 | 显示全部楼层
寒蝉鸣泣 发表于 2025-10-23 14:44
PDD 套餐 Z890算下来都才600块了 有啥好考虑的

主要是大容量内存的兼容性问题,有的插4根甚至点不亮那种
 楼主| 发表于 2025-10-23 15:26 | 显示全部楼层
mdeu 发表于 2025-10-23 14:57
当下内存涨的比黄金的都快了,6000不够,除非你愿意搞那种老古董颗粒D5 都不知道能不能稳4条 4800的 ...

我仔细看了看有海盗船的48/.64g单条可以选,单根1200+左右,这个好像是三星的颗粒,5600c40  64g
 楼主| 发表于 2025-10-23 17:43 | 显示全部楼层
盐湖 发表于 2025-10-23 16:43
我前段时间玩qwen3-30B-A3B的时候遇到过一个问题,就是无法激活12个以上专家,默认8个专家是最稳定的状态 ...

千问3 30B-A3B默认就只推荐8个专家
 楼主| 发表于 2025-10-23 17:44 | 显示全部楼层
盐湖 发表于 2025-10-23 16:44
这么看H20还是相当有存在价值的

主要我是穷哥们,有钱能全部在gpu里面跑那肯定是最快的,但问题是一张H20可以买几套这种192g+4090/5090的配置了,,,小网站做分流跑并行能比单卡h20快多少倍了?
 楼主| 发表于 2025-10-23 18:48 | 显示全部楼层
盐湖 发表于 2025-10-23 18:44
它是有128个但只能开8个,你知道80BA3B是几个吗?

数据来自huggingface页面

QWEN3 NEXT 80B A3B 专家混合:

    专家人数:512
    活跃专家人数:10人
    共享专家数量:1
    专家中级尺寸:512
 楼主| 发表于 2025-10-23 18:50 | 显示全部楼层
盐湖 发表于 2025-10-23 18:45
没推荐买H20,只是因为这个事改变了我之前认为H20价格不符合性能的认识,之前是觉得它性能太低空有大显存 ...

所以第二代禁卡令加上了显存速度限制。老黄H20是没有砍显存的,因为大语言模型的推理本身是个内存密集型任务,H20大部分情况核心性能不构成瓶颈。他这个核心算力可能会在预填充阶段受限(很小)
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-10-28 13:49 , Processed in 0.008414 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表