找回密码
 加入我们
搜索
      
查看: 17012|回复: 63

[CPU] 内存焦虑党的福音来了:AMD的Strix Halo可配备最高128GB内存

[复制链接]
发表于 2024-6-24 22:38 | 显示全部楼层
本帖最后由 3s7s2v 于 2024-6-24 22:41 编辑

不知道硬件上最多能分多少内存给核显当显存用

目前Windows平台暂时还不支持类似M芯片Mac那种统一内存模式,内存和显存仍然泾渭分明

之前5700G/8700G这种APU,当内存≥32G时可以在主板BIOS里面硬件划分出最多16GB给核显做显存,带宽瓶颈暂且不论,这样相当于有了一种低成本大显存跑神经网络的方案,例如SD直出高分辨率图片,显存不够是不能跑的,再比如现在火热的自然语言大模型,显存不够也是跑不了的

之前Mac Studio莫名其妙火了一阵,就是因为统一内存在理论上可以把192G全当做显存来用,这就相当于有了一个超低成本的大显存计算平台,M芯片的GPU/NPU的算力强弱姑且不论,192G显存在NV那边可是只有多卡A100/H100比较容易做到(RTX8000/RTX6000Ada这种48G的卡都要来4张,此外还要额外考虑nvlink以及切换TCC模式),巨大的成本消耗在消费电子品领域是难以想象的(况且消费者基本没有购买渠道),而顶配Mac Studio似乎不到10万?说它跑起来快不快慢不慢尚有回旋余地,毕竟已经解决了0→1的问题,显存不够可是连跑都跑不了

LPDDR5X应该有单颗粒24G的,手机厂已经用了快一年了,虽然还不主流,但也是成熟技术,如此说来,STX Halo可能有192G内存的选择?
发表于 2024-6-26 21:17 | 显示全部楼层
本帖最后由 3s7s2v 于 2024-6-26 21:24 编辑
liyichao97 发表于 2024-6-26 00:25
sd我几乎没用过,不过llm本地推理(一般batchsize=1的)速度几乎只和dram带宽有关系,甚至可以直接根据带 ...


非常感谢,又学到了新的知识

最近几个月一直在跑SDXL,套用这方面的一些经验结果得到了错误的认知。在此之前一直不太了解大语言LLM吃内存带宽这件事,想当然以为仅仅是容量不够就跑不起来,十分感谢您的指点和纠正

我目前是149K插满4槽内存192G,刚刚测了一下这个内存带宽非常不理想,只有75G/s左右的样子,离主流x86 MSDT DDR5的100G/s还有一段距离,主要原因还是4槽内存频率起不来,先前也是调试了很久才稳在了5400。如果想要高频,x86 MSDT这边其实最高只能2槽96G,假设颗粒状况较为理想,拉到8200来算大概是112G/s左右,离M2Max的400G/s还是很遥远就是了,M2Ultra的800G/s就更遥远了,难怪那么多人拿Mac Studio跑大模型还说很有性价比,RTX6000Ada是单卡48G内存,虽然内存带宽高达960G/s,但是容量完全放不下70b模型,况且这一块儿卡就比满配192G内存M2Ultra的Studio要贵了,H100更是有价无市
发表于 2024-6-27 12:40 | 显示全部楼层
liyichao97 发表于 2024-6-27 09:42
确实就是这个道理,x86 msdt装得下跑不动,消费级显卡跑得动装不下,专业卡和x86服务器cpu都是好东西但是 ...

只能说Strix Halo这个256-bit内存控制器理想真的很美好,我内心也是迫切地希望他真的能成为民间LLM爱好者的低成本平台神器,但是这就又回到开始的那个问题了,从前几代APU来看没有统一内存模式,显存和内存是在BIOS里面硬划分出来的,如果仍然采用这种模式,那恐怕希望就落空了
发表于 2024-6-27 13:01 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 09:52
这里有几个问题
mac studio跑出"勉强能用的速度", 是指70b q4或者接近的量化模型, 48g显存也是能跑的, 远 ...

只跑推理的话确实有很多便宜大碗方案,如果想自己训练模型或者微调模型压力就很大了,192G也就勉强能以float训练13B模型,这会儿再看这些24G、32G乃至48G内存的显卡,就觉得这点内存真是捉襟见肘
发表于 2024-6-27 13:04 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 12:44
"从前几代APU来看没有统一内存模式"

有的, llama.cpp社区早就把rocblas的680m/780m build + uma跑llm全 ...

那真是太好了,我简直是孤陋寡闻,我现在已经等不及Strix Halo发售了,这绝对是神器
发表于 2024-6-27 16:10 | 显示全部楼层
zhuifeng88 发表于 2024-6-27 14:02
48g或者双卡24g全参数bf16微调13b模型可以用galore/adalomo/badam这些优化器, 以牺牲一点速度和稍微复杂 ...

原来如此,涨知识了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-25 14:07 , Processed in 0.008842 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表