找回密码
 加入我们
搜索
      
查看: 18285|回复: 50

[内存] 第一代傲腾持久内存在DeepSeek上的可用度很低

[复制链接]
发表于 2025-2-6 16:18 | 显示全部楼层 |阅读模式
1、这东西1代只有2666,哪怕你的cpu支持2933、3200,也会将内存速度拉到2666
2、如果你有256g内存,再上512g傲腾持久,此时系统内存容量为512G,而不是768G,也就是如果想硬跑完整版671b模型,得上512*2、256*4的傲腾持久,速度还很慢。
3、96G 6通道2933跑70b模型大概能到1.8token/s,内存速度大概115GB/s,而装上128G*2傲腾持久内存后,只剩约0.6token/s速度(我没跑完,也懒得测此时内存速度)。
4、傲腾这东西没想象中的难配置,内存模式超微主板插上就是,AD(当ssd用)模式得改参数重启2次。
5、用cpu跑DeepSeek,cpu占用只有50%是因为超线程,实际此时cpu已经满载了,将超线程关掉就能满载。
6、70b模型在我的6通道ddr4 2933机器上,4060级别的显卡用不用区别不大,尝试禁用显卡跑,速度没掉。
7、标题虽然说的是第一代,但我觉得所有的持久内存都可用度很低,要么贵,要么速度太慢,真想完整跑671b请无脑上ddr5 12通道。
截屏2025-02-06 16.02.36.png


8、切AD模式能跑到220万ipos随机读和24G顺序读,但按道理应该到40G顺序读才对(ddr4 2666双盘同时读写),有可能傲腾持久内存128G只有这个速度,网上别人测的都是256G、512G。
下图分别是傲腾持久随机读写、三星980双盘raid0随机读写,傲腾持久顺序读写,具体读写参数图上有。
CrystalDiskMark_20250206152458.png
CrystalDiskMark_20250206152718.png
CrystalDiskMark_20250206153727.png


9、我为啥突然关注这个,因为我正好手上的平台能用,加上咸鱼本地正好有人出,2条才250块钱。
IMG_0003.JPG

评分

参与人数 1邪恶指数 +5 收起 理由
Barcelona + 5

查看全部评分

发表于 2025-5-18 15:16 | 显示全部楼层
n37fr0g 发表于 2025-2-8 15:22
1.看了一些文章,了解到傲腾持久内存共推出三代,其中Intel Optane Persistent Memory 300 Series为最新一 ...

有没有大哥测试过这个第三代傲腾持久内存的效果
发表于 2025-4-27 13:14 来自手机 | 显示全部楼层
二代志强 R640 平台,两组 ddr4 4x32g 通道2666 内存,跑70B 大概0.8 token的。性价比还行吧
 楼主| 发表于 2025-4-27 09:15 | 显示全部楼层
rubycon2008 发表于 2025-4-27 06:01
第一项 RND4K Q64T36 是怎么设置出来的?

这个测试软件的菜单里可以设置,你自己摸索一下,很容易找到,我现在是mac,没法截图。
发表于 2025-4-27 06:01 | 显示全部楼层
第一项 RND4K Q64T36 是怎么设置出来的?
发表于 2025-4-27 03:03 来自手机 | 显示全部楼层
n37fr0g 发表于 2025-2-8 15:22
1.看了一些文章,了解到傲腾持久内存共推出三代,其中Intel Optane Persistent Memory 300 Series为最新一 ...

这个对主板有要求吗 我看有的说只能用超微的
发表于 2025-3-29 11:02 来自手机 | 显示全部楼层
可见还是得用ddr5才是正确答案
发表于 2025-3-29 00:57 | 显示全部楼层
n37fr0g 发表于 2025-2-24 10:34
你这咋感觉没配置好啊,三代的8347可以支持amx了。看图片怎么有一根内存是红色的,健康度不佳?可以上一 ...

三代没有amx,四代以上才有
发表于 2025-3-21 11:55 来自手机 | 显示全部楼层
傲腾内存目前就一个用处最合适,那就是AD模式给primocache当二缓
发表于 2025-3-21 10:45 | 显示全部楼层
strix halo农企只给了128G的内存还有外围带宽有点低,等下一代继续堆。
普通ddr不能只关注频率,实际上也要注意延迟,APU这种用lpddr的用延迟换带宽也许更好点。
老黄也搞了新的内存插槽形态SOCAMM,看新的DGX Station就是可插拔的lpddr这种。
发表于 2025-3-21 10:12 | 显示全部楼层
ljy1414 发表于 2025-2-8 05:10
很难想像到底是用什么样的心态做这机骨头产品

nvdimm和nvram确实不成功,但起码是分层存储结构一次新的尝试,并且一部分成果也在cxl type3中得到保留(cxl spec)。
发表于 2025-2-24 10:52 | 显示全部楼层
deepseek要是能分层offload就好了(各层可以自选合适的硬件),看国外有人搞过pcie ssd raid跑ds的。
发表于 2025-2-24 10:41 来自手机 | 显示全部楼层
T.JOHN 发表于 2025-2-6 16:40
这个以前micro还是intel总监自己说过,论速度赶不上mem,论容量赶不上ssd。两字:没用

...

做分级存储还是有用的
发表于 2025-2-24 10:34 | 显示全部楼层
本帖最后由 n37fr0g 于 2025-2-24 11:04 编辑
矜持之泪 发表于 2025-2-9 18:19
测试了傲腾dcpmm 2代跑的671b,一个问题半小时,看看就好。


你这咋感觉没配置好啊,三代的8347可以支持amx了。看图片怎么有一根内存是红色的,健康度不佳?可以上一个KTransformers试试嘛?
发表于 2025-2-23 07:08 来自手机 | 显示全部楼层
n37fr0g 发表于 2025-2-6 18:28
我觉得如果傲腾二代512G能跑671b的ds,和硬件搭配起来,应该是最便宜的满血方案了吧,1t/s也可以忍一忍。不 ...

看我帖子,8*2666都能跑1.8t/s了,不过也是慢,没啥用
发表于 2025-2-22 22:02 | 显示全部楼层
有实验精神
发表于 2025-2-9 19:01 来自手机 | 显示全部楼层
T.JOHN 发表于 2025-2-6 16:40
这个以前micro还是intel总监自己说过,论速度赶不上mem,论容量赶不上ssd。两字:没用

...

还是太贵了,其实只要能便宜点给到512-1T,哪怕比SSD 贵两三倍,凭借非易失性和体积,抗震等优势在个人领域能打的,速度对于企业有用但是对于个人作用有限,非易失对于企业由于多重备份又没那么有用,个人领域笔记本或者手机什么的来个1000甚至1500一T也是有市场,反正再多容量个人用户也用不上。
发表于 2025-2-9 18:44 | 显示全部楼层
矜持之泪 发表于 2025-2-9 18:19
测试了傲腾dcpmm 2代跑的671b,一个问题半小时,看看就好。

8581C在win11傻瓜式部署123B Mistral 1.35tokens /s
发表于 2025-2-9 18:25 | 显示全部楼层
矜持之泪 发表于 2025-2-9 18:19
测试了傲腾dcpmm 2代跑的671b,一个问题半小时,看看就好。

0.66Token/s , 还不如买一代了,起码足够便宜啊,哈哈哈哈
发表于 2025-2-9 18:19 | 显示全部楼层
测试了傲腾dcpmm 2代跑的671b,一个问题半小时,看看就好。

微信图片_20250209181727.jpg

微信图片_20250209181742.jpg

微信图片_20250209181735.jpg

发表于 2025-2-9 16:01 | 显示全部楼层
T.JOHN 发表于 2025-2-6 03:40
这个以前micro还是intel总监自己说过,论速度赶不上mem,论容量赶不上ssd。两字:没用

...

用当然还是有用的要不然现在也不会想搞CXL扩容,就是太贵了,第二代傲腾内存比同容量的内存甚至还贵那就是纯废物了
发表于 2025-2-9 15:50 来自手机 | 显示全部楼层
文字生成部分瓶颈在带宽,300G的模型就要300G x k token/s 的带宽。要k=10就要3TB带宽。所以光堆容量也没有用,还要靠压缩。

大容量对训练部分有帮助,生成暴慢但训练很快,是不是很奇怪。
发表于 2025-2-9 15:42 | 显示全部楼层
如果不把模型载入内存/显存,而就存在嗷疼上,或许会好点?
发表于 2025-2-9 10:46 来自手机 | 显示全部楼层
darkness66201 发表于 2025-2-8 23:34
8800那个是镁光和intel合作的MRDIMM ,专门给xeon用的,如果不能12通道全开就没意义了吧...cpu推理其实对 ...

搜了下mrdimm,恩,目前是个天价。
闲鱼有一家在卖,单条64g mrdimm卖4000……
发表于 2025-2-9 09:03 | 显示全部楼层
感谢分享这个有趣的尝试!
发表于 2025-2-8 23:52 | 显示全部楼层
darkness66201 发表于 2025-2-8 23:34
8800那个是镁光和intel合作的MRDIMM ,专门给xeon用的,如果不能12通道全开就没意义了吧...cpu推理其实对 ...

只追求横竖跑起来几个tps那就cpu吧反正是玩票,而且货先出来再说吧,cpu除了总线还要考虑拓扑结构。halo那种挂核显的意义也不大,m4 ultra或者nv的digits是个人最好的选择。
发表于 2025-2-8 23:34 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-8 23:06
双路还要看if总线的速度是多少。

插满12根都能跑8800,只能说太厉害了。 ...

8800那个是镁光和intel合作的MRDIMM ,专门给xeon用的,如果不能12通道全开就没意义了吧...cpu推理其实对于个人跑大模型来说比gpu更优,至少内存容量没限制横竖能跑起来,速度也还行,比起几十万一张的计算卡靠谱,游戏卡显存不够价格也不便宜,不过像Halo那种可能是个人用户最优解了,工作站用户就上服务器u
发表于 2025-2-8 23:10 | 显示全部楼层
KimmyGLM 发表于 2025-2-8 22:53
W790和trx50的八通道 hedt平台,也许会重出江湖了……


cpu推理终究不是最佳的方式,一般人手上那点钱买到的设备多少都很难满足。折腾到最后也就满足一个人的需求,不如去买api。
发表于 2025-2-8 23:06 | 显示全部楼层
darkness66201 发表于 2025-2-8 23:02
EPYC 可以到6400,带宽还能再拉一截,双路再乘2,xeon有AMX和12通道DDR5 8800,还能再强一点,我看评测好 ...

双路还要看if总线的速度是多少。

插满12根都能跑8800,只能说太厉害了。
发表于 2025-2-8 23:02 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-8 22:02
deepseek的MoE架构因为只需要激活少量专家模型,当显存不足的时候可以在内存和显存之间交换专家模型,当然 ...

EPYC 可以到6400,带宽还能再拉一截,双路再乘2,xeon有AMX和12通道DDR5 8800,还能再强一点,我看评测好像双路能跑到H100的的一半的水平,没记错的话
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-28 09:34 , Processed in 0.112557 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表