黄皮Nvidia Spark五月份出AI迷你“personal AI supercomputer”机

zhuifeng88 · 发表于 2025-1-7 12:48

StevenG 发表于 2025-1-7 12:47
出了搞一台，就为这外形

3000刀起步, 其中一半价格给了400g网卡, 核心性能持平5070, 内存带宽还拉了个大垮

zhuifeng88 · 发表于 2025-1-7 13:59

simplex 发表于 2025-1-7 13:55
就看价格了。内存要大很多，而且可以两台合着用。起码也有256bit吧？

不考虑x64，应该可以杀strix halo ...

目标是干halo那倒是没什么问题...

zhuifeng88 · 发表于 2025-1-9 11:44

本帖最后由 zhuifeng88 于 2025-1-9 12:01 编辑

StevenG 发表于 2025-1-9 10:15
两台就能运行/微调405b规模的大模型，同样配置比两台mbp并联便宜不少，而且并联的网络是双200g，带宽也高 ...

哪怕抛开速度不谈, 微调两台内存大小也远远不够的, 你不算激活参数, compute buffer, 优化器参数的占用的吗, qlora一般说的"差不多等于模型参数量"的显存占用只是极端粗略的估算, 你实际跑个能用的context length哪怕4096的微调看看比那个估算值高多少倍吧...

而且要是可以抛开速度不谈, 那CPU也可以3000刀这么干, 4/5/6代xeon是真的可以微调, 软件框架不如cuda但也差不多是饭喂到嘴上的程度了, 还比这个更快...

这个东西就纯粹的实验平台不指望实际跑任何东西的, 定位更像是上集群跑之前拿这玩意调通代码, 不用占用贵死人的集群 (或者给不差钱的玩玩, 毕竟m4 max都有人买来顶着那几乎没法用的prefill速度跑推理, 这玩意至少prefill没拉垮到果硅那种程度)

zhuifeng88 · 发表于 2025-1-9 14:48

zhengxinhn 发表于 2025-1-7 15:08
是啊，跟M4 max一样8块内存，M4 max就是512bit。128g+4T这个配置如果按苹果的尿性3000刀都算便宜了 ...

但对于nvidia来说控制器和内存更合理的推测是从grace搬的同款
GB200是16片32bit实现的512bit

zhuifeng88 · 发表于 2025-1-9 17:16

chenwen834 发表于 2025-1-9 17:12
各有问题
AMD的毕竟X86，可以作为日常设备使用，但是只能ROCm
老黄这个，ARM，但毕竟能CUDA ...

就是要arm实验环境去推grace社区支持, 现在grace没什么人能用到, 社区软件支持一言难尽的稀烂, 光build过都一大堆问题, 反过来导致潜在用户不上车

你看lambda labs的gh200, 因为没人想用打了个大折, 小时租金比h100都低

账号		自动登录	找回密码
密码			加入我们

[显卡] 黄皮Nvidia Spark五月份出AI迷你“personal AI supercomputer”机

浏览过的版块