内存焦虑党的福音来了：AMD的Strix Halo可配备最高128GB内存

3s7s2v · 发表于 2024-6-24 22:38

本帖最后由 3s7s2v 于 2024-6-24 22:41 编辑

不知道硬件上最多能分多少内存给核显当显存用

目前Windows平台暂时还不支持类似M芯片Mac那种统一内存模式，内存和显存仍然泾渭分明

之前5700G/8700G这种APU，当内存≥32G时可以在主板BIOS里面硬件划分出最多16GB给核显做显存，带宽瓶颈暂且不论，这样相当于有了一种低成本大显存跑神经网络的方案，例如SD直出高分辨率图片，显存不够是不能跑的，再比如现在火热的自然语言大模型，显存不够也是跑不了的

之前Mac Studio莫名其妙火了一阵，就是因为统一内存在理论上可以把192G全当做显存来用，这就相当于有了一个超低成本的大显存计算平台，M芯片的GPU/NPU的算力强弱姑且不论，192G显存在NV那边可是只有多卡A100/H100比较容易做到（RTX8000/RTX6000Ada这种48G的卡都要来4张，此外还要额外考虑nvlink以及切换TCC模式），巨大的成本消耗在消费电子品领域是难以想象的（况且消费者基本没有购买渠道），而顶配Mac Studio似乎不到10万？说它跑起来快不快慢不慢尚有回旋余地，毕竟已经解决了0→1的问题，显存不够可是连跑都跑不了

LPDDR5X应该有单颗粒24G的，手机厂已经用了快一年了，虽然还不主流，但也是成熟技术，如此说来，STX Halo可能有192G内存的选择？

3s7s2v · 发表于 2024-6-26 21:17

本帖最后由 3s7s2v 于 2024-6-26 21:24 编辑

liyichao97 发表于 2024-6-26 00:25
sd我几乎没用过，不过llm本地推理（一般batchsize=1的）速度几乎只和dram带宽有关系，甚至可以直接根据带 ...

非常感谢，又学到了新的知识

最近几个月一直在跑SDXL，套用这方面的一些经验结果得到了错误的认知。在此之前一直不太了解大语言LLM吃内存带宽这件事，想当然以为仅仅是容量不够就跑不起来，十分感谢您的指点和纠正

我目前是149K插满4槽内存192G，刚刚测了一下这个内存带宽非常不理想，只有75G/s左右的样子，离主流x86 MSDT DDR5的100G/s还有一段距离，主要原因还是4槽内存频率起不来，先前也是调试了很久才稳在了5400。如果想要高频，x86 MSDT这边其实最高只能2槽96G，假设颗粒状况较为理想，拉到8200来算大概是112G/s左右，离M2Max的400G/s还是很遥远就是了，M2Ultra的800G/s就更遥远了，难怪那么多人拿Mac Studio跑大模型还说很有性价比，RTX6000Ada是单卡48G内存，虽然内存带宽高达960G/s，但是容量完全放不下70b模型，况且这一块儿卡就比满配192G内存M2Ultra的Studio要贵了，H100更是有价无市

3s7s2v · 发表于 2024-6-27 12:40

liyichao97 发表于 2024-6-27 09:42
确实就是这个道理，x86 msdt装得下跑不动，消费级显卡跑得动装不下，专业卡和x86服务器cpu都是好东西但是 ...

只能说Strix Halo这个256-bit内存控制器理想真的很美好，我内心也是迫切地希望他真的能成为民间LLM爱好者的低成本平台神器，但是这就又回到开始的那个问题了，从前几代APU来看没有统一内存模式，显存和内存是在BIOS里面硬划分出来的，如果仍然采用这种模式，那恐怕希望就落空了

3s7s2v · 发表于 2024-6-27 13:01

zhuifeng88 发表于 2024-6-27 09:52
这里有几个问题
mac studio跑出"勉强能用的速度", 是指70b q4或者接近的量化模型, 48g显存也是能跑的, 远 ...

只跑推理的话确实有很多便宜大碗方案，如果想自己训练模型或者微调模型压力就很大了，192G也就勉强能以float训练13B模型，这会儿再看这些24G、32G乃至48G内存的显卡，就觉得这点内存真是捉襟见肘

3s7s2v · 发表于 2024-6-27 13:04

zhuifeng88 发表于 2024-6-27 12:44
"从前几代APU来看没有统一内存模式"

有的, llama.cpp社区早就把rocblas的680m/780m build + uma跑llm全 ...

那真是太好了，我简直是孤陋寡闻，我现在已经等不及Strix Halo发售了，这绝对是神器

3s7s2v · 发表于 2024-6-27 16:10

zhuifeng88 发表于 2024-6-27 14:02
48g或者双卡24g全参数bf16微调13b模型可以用galore/adalomo/badam这些优化器, 以牺牲一点速度和稍微复杂 ...

原来如此，涨知识了

账号		自动登录	找回密码
密码			加入我们

[CPU] 内存焦虑党的福音来了：AMD的Strix Halo可配备最高128GB内存

浏览过的版块