komizi 发表于 2024-12-6 19:07

netlzh 发表于 2024-12-3 19:16
你最好实际用用再发表意见,

我 21 年买的手上 M1pro,到现在公司一群用十三代酷睿和 8845hs 的,都说不 ...

行了吧 我用苹果十多年了 现在手上两台一台m1max一台m3pro

wuxi001 发表于 2024-12-6 21:45

MAC 系统相较于 windows 稳定性高了一个数量级。

komizi 发表于 2024-12-14 15:36

尬吹 苹果自m1系列以来基本原地踏步,符合资本家的尿性,现在m4系列只不过在补以前的课,真有心好好做一下系统,大小核调度优化烂到家,软件一塌糊涂,硬件镶金,又开始走安吉拉的老路线,老乔知道了估计要拍死库克。

geb94012 发表于 2025-1-9 17:40

好专业的描述,学习了。

wispier 发表于 2025-1-9 18:03

看到有传闻说M5的CPU和GPU放弃使用统一内存架构...

jhhuang 发表于 2025-1-9 20:28

zhaofire 发表于 2024-11-10 14:19
我倒非常赞成统一内存。
用GPU跑渲染,所有数据都是从经过PCIE,再经过CPU,再从内存里调用,传输回显存。
...

统一内存,比如我在文本录入,偶尔才玩游戏,显卡都没怎么跑,此时显存浪费了。

penryn 发表于 2025-1-9 20:35

zhuifeng88 发表于 2024-11-9 19:26
哪有什么性价比...皮衣多卡就完事了, 推理拿一排8/12g/16g卡便宜的很, 随便找个x99主板插满就行
总花费1w ...

那要这么说跑推理完全不需要大显存高端gpu啊,这个组合的性价比不是吊打一切专业方案么?

zhuifeng88 发表于 2025-1-9 20:45

penryn 发表于 2025-1-9 20:35
那要这么说跑推理完全不需要大显存高端gpu啊,这个组合的性价比不是吊打一切专业方案么? ...

那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做推理是连正规服务器厂家比如浪潮之类都摆在台面上推荐的

penryn 发表于 2025-1-9 20:49

zhuifeng88 发表于 2025-1-9 20:45
那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做 ...

那nv推出的新盒子也好,nv这么多专业卡也罢,对于庞大的推理需求来说不就是浪费金钱?是不是o3这样的模型也可以这么跑?

penryn 发表于 2025-1-9 20:51

zhuifeng88 发表于 2025-1-9 20:45
那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做 ...

类似地,比如说公司本来买了一堆m4 mini/mbp做一般用途,等它们更新了是不是就能拿旧机子直接跑推理用,多大的模型都不在话下?

zhuifeng88 发表于 2025-1-9 20:59

本帖最后由 zhuifeng88 于 2025-1-9 21:06 编辑

penryn 发表于 2025-1-9 20:49
那nv推出的新盒子也好,nv这么多专业卡也罢,对于庞大的推理需求来说不就是浪费金钱?是不是o3这样的模型 ...

正规推理服务都是集群跑的, 不存在单机跑推理服务的(甚至不说单卡)

这不是显存能不能放下模型参数的问题, 而是推理场景GPU算力需要超高并发才能发挥(发挥不出来就是纯粹的浪费钱), 而超高并发下显存占用的大头压根不是模型参数, 而是kv cache, (常规部署下单个推理实例kv cache大小会在模型参数10倍以上)

先谈专业卡的问题
一个是合规, 不是所有厂都选择省一半价钱弄个表面上比较灵车的东西
一个是类似的场景下专业卡需要的卡数量少, 省下的机房机柜占用成本是很大一笔钱得算算

新盒子的话, 主要定位完全不像是推理服务, 而是给GH/GB200之类的平台开发软件的验证平台, 调试代码不用烧着一小时光算折旧就几十刀的机器 (当然也不拦着不差钱的自己跑模型玩, 性价比低也就低了)

penryn 发表于 2025-1-9 21:06

zhuifeng88 发表于 2025-1-9 20:59
正规推理服务都是集群跑的, 不存在单机跑推理服务的(甚至不说单卡)

这不是显存能不能放下模型参数的问题 ...

所以专业卡大显存的意义主要是节约物理空间占用?那如果物理空间成本比较低的话,是不是就不需要买显存那么大的专业卡,买很多小显存的可以大大降低成本?

zhuifeng88 发表于 2025-1-9 21:08

本帖最后由 zhuifeng88 于 2025-1-9 21:11 编辑

penryn 发表于 2025-1-9 21:06
所以专业卡大显存的意义主要是节约物理空间占用?那如果物理空间成本比较低的话,是不是就不需要买显存那 ...

是啊, 不然正规服务器厂怎么会把4090D(甚至不是4090, 而且都不改被动散热了, 直接出新机架方案支持3风扇卡)都拿到台面上给企业推荐(特别是国内合规压力更低的情况下)

penryn 发表于 2025-1-9 21:10

zhuifeng88 发表于 2025-1-9 21:08
是啊, 不然正规服务器厂怎么会把4090D都拿到台面上给企业推荐(特别是国内合规压力更低的情况下) ...

那对于个人和小企业用户来说,比如说苹果用户,想获得同样的推理性能是不是两台64g的mac mini要比单台128g的mbp省钱很多?也就是说并不需要专门为了大内存而追求高规格的机器,不如买几台小内存的低规格机器?

zhuifeng88 发表于 2025-1-9 21:14

本帖最后由 zhuifeng88 于 2025-1-9 21:17 编辑

penryn 发表于 2025-1-9 21:10
那对于个人和小企业用户来说,比如说苹果用户,想获得同样的推理性能是不是两台64g的mac mini要比单台128 ...

是的

虽然mac的情况比较特殊, 本身算力太低, 不高并发就会撞上算力瓶颈, 这种情况下多机互联开销影响会比高并发场景大得多

但仍然不足以改变结论(而且有人展示过4台mac mini 雷电5全连接互联(4台全连接刚好用完3个口)推理)

penryn 发表于 2025-1-9 21:31

zhuifeng88 发表于 2025-1-9 21:14
是的

虽然mac的情况比较特殊, 本身算力太低, 不高并发就会撞上算力瓶颈, 这种情况下多机互联开销影响会 ...

明白了谢谢。那除了占用空间大一些以外,这种分布式方案相比大内存方案来说还有其他tradeoff吗?比如说到了某个规模的模型就跑不动了,或者节点数量增加到一定程度就没法再提速了什么的?对比8x64g的专业卡和2x256g的专业卡,有没有后者有性能方面明显优势的场景呢?

zhuifeng88 发表于 2025-1-9 21:47

本帖最后由 zhuifeng88 于 2025-1-9 21:49 编辑

penryn 发表于 2025-1-9 21:31
明白了谢谢。那除了占用空间大一些以外,这种分布式方案相比大内存方案来说还有其他tradeoff吗?比如说到 ...

假设
1. 不考虑机柜占用成本
2. 讨论4090,L40S和H100 (其他情况没太多贴合实际推理服务场景的案例只能非常粗略的估计)
decode节点永远不会到达性价比交叉点(4090单位吞吐量价格永远更低)
prefill节点会和H100交叉(比如405B的dense模型, 十几台8卡H100的规模下会交叉, 往后H100性价比更高), 永远不会和L40S交叉

penryn 发表于 2025-1-9 21:51

zhuifeng88 发表于 2025-1-9 21:47
假设
1. 不考虑机柜占用成本
2. 讨论4090,L40S和H100 (其他情况没太多贴合实际推理服务场景的案例只能非 ...

明白了谢谢,对将来的设备选择是非常有用的参考

General51 发表于 2025-1-9 23:22

我倒是认为IA两家应该让四通道内存下放到主流平台,以及带四个内存槽位的笔记本也能四通道。但目前看来似乎水果给的压力还不够大,如今CPU核心多了,内存却仍然只是按部就班的双通道,插四根容量是大了但还会进一步降低频率。

littlelincoln 发表于 2025-3-24 23:01

zhuifeng88 发表于 2024-11-9 19:26
哪有什么性价比...皮衣多卡就完事了, 推理拿一排8/12g/16g卡便宜的很, 随便找个x99主板插满就行
总花费1w ...

x99、2080ti、22G,debuff叠满
页: 1 2 3 [4]
查看完整版本: 苹果的 M1 - M4 规格和性能进步简表