|
本帖最后由 zhuifeng88 于 2024-6-27 10:04 编辑
这里有几个问题
mac studio跑出"勉强能用的速度", 是指70b q4或者接近的量化模型, 48g显存也是能跑的, 远比mac studio快
如果考虑便宜的话, 换成两张24g卡也能随便跑远超出mac studio的速度, (这也是为什么P40洋垃圾大幅涨价, 从700涨到近2000了), mac studio谈不上任何性价比
就算不考虑洋垃圾, 全新两张7900xtx也是可以无障碍跑70b q4的(小白都能一键包的那种无障碍)
再然后, ada架构48g显存有L20和L40, 前者2w多, 后者3w多, 也是比m2 ultra便宜
说m2 ultra性价比基本是不了解有些什么部署方式以及各型号显卡情况被忽悠瘸的
====================
另外这种用途完全不需要担心pcie带宽的问题, 多卡pipeline bs1仅推理的情况下, 卡之间每token只需要传一次hidden state, 数据量非常小, m.2转接pcie 3.0x4都是绰绰有余的, tensor parallelism才会对带宽有要求, 但这不是唯一的多卡方式(主要用于训练和大批量推理) |
|