komizi
发表于 2024-12-6 19:07
netlzh 发表于 2024-12-3 19:16
你最好实际用用再发表意见,
我 21 年买的手上 M1pro,到现在公司一群用十三代酷睿和 8845hs 的,都说不 ...
行了吧 我用苹果十多年了 现在手上两台一台m1max一台m3pro
wuxi001
发表于 2024-12-6 21:45
MAC 系统相较于 windows 稳定性高了一个数量级。
komizi
发表于 2024-12-14 15:36
尬吹 苹果自m1系列以来基本原地踏步,符合资本家的尿性,现在m4系列只不过在补以前的课,真有心好好做一下系统,大小核调度优化烂到家,软件一塌糊涂,硬件镶金,又开始走安吉拉的老路线,老乔知道了估计要拍死库克。
geb94012
发表于 2025-1-9 17:40
好专业的描述,学习了。
wispier
发表于 2025-1-9 18:03
看到有传闻说M5的CPU和GPU放弃使用统一内存架构...
jhhuang
发表于 2025-1-9 20:28
zhaofire 发表于 2024-11-10 14:19
我倒非常赞成统一内存。
用GPU跑渲染,所有数据都是从经过PCIE,再经过CPU,再从内存里调用,传输回显存。
...
统一内存,比如我在文本录入,偶尔才玩游戏,显卡都没怎么跑,此时显存浪费了。
penryn
发表于 2025-1-9 20:35
zhuifeng88 发表于 2024-11-9 19:26
哪有什么性价比...皮衣多卡就完事了, 推理拿一排8/12g/16g卡便宜的很, 随便找个x99主板插满就行
总花费1w ...
那要这么说跑推理完全不需要大显存高端gpu啊,这个组合的性价比不是吊打一切专业方案么?
zhuifeng88
发表于 2025-1-9 20:45
penryn 发表于 2025-1-9 20:35
那要这么说跑推理完全不需要大显存高端gpu啊,这个组合的性价比不是吊打一切专业方案么? ...
那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做推理是连正规服务器厂家比如浪潮之类都摆在台面上推荐的
penryn
发表于 2025-1-9 20:49
zhuifeng88 发表于 2025-1-9 20:45
那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做 ...
那nv推出的新盒子也好,nv这么多专业卡也罢,对于庞大的推理需求来说不就是浪费金钱?是不是o3这样的模型也可以这么跑?
penryn
发表于 2025-1-9 20:51
zhuifeng88 发表于 2025-1-9 20:45
那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做 ...
类似地,比如说公司本来买了一堆m4 mini/mbp做一般用途,等它们更新了是不是就能拿旧机子直接跑推理用,多大的模型都不在话下?
zhuifeng88
发表于 2025-1-9 20:59
本帖最后由 zhuifeng88 于 2025-1-9 21:06 编辑
penryn 发表于 2025-1-9 20:49
那nv推出的新盒子也好,nv这么多专业卡也罢,对于庞大的推理需求来说不就是浪费金钱?是不是o3这样的模型 ...
正规推理服务都是集群跑的, 不存在单机跑推理服务的(甚至不说单卡)
这不是显存能不能放下模型参数的问题, 而是推理场景GPU算力需要超高并发才能发挥(发挥不出来就是纯粹的浪费钱), 而超高并发下显存占用的大头压根不是模型参数, 而是kv cache, (常规部署下单个推理实例kv cache大小会在模型参数10倍以上)
先谈专业卡的问题
一个是合规, 不是所有厂都选择省一半价钱弄个表面上比较灵车的东西
一个是类似的场景下专业卡需要的卡数量少, 省下的机房机柜占用成本是很大一笔钱得算算
新盒子的话, 主要定位完全不像是推理服务, 而是给GH/GB200之类的平台开发软件的验证平台, 调试代码不用烧着一小时光算折旧就几十刀的机器 (当然也不拦着不差钱的自己跑模型玩, 性价比低也就低了)
penryn
发表于 2025-1-9 21:06
zhuifeng88 发表于 2025-1-9 20:59
正规推理服务都是集群跑的, 不存在单机跑推理服务的(甚至不说单卡)
这不是显存能不能放下模型参数的问题 ...
所以专业卡大显存的意义主要是节约物理空间占用?那如果物理空间成本比较低的话,是不是就不需要买显存那么大的专业卡,买很多小显存的可以大大降低成本?
zhuifeng88
发表于 2025-1-9 21:08
本帖最后由 zhuifeng88 于 2025-1-9 21:11 编辑
penryn 发表于 2025-1-9 21:06
所以专业卡大显存的意义主要是节约物理空间占用?那如果物理空间成本比较低的话,是不是就不需要买显存那 ...
是啊, 不然正规服务器厂怎么会把4090D(甚至不是4090, 而且都不改被动散热了, 直接出新机架方案支持3风扇卡)都拿到台面上给企业推荐(特别是国内合规压力更低的情况下)
penryn
发表于 2025-1-9 21:10
zhuifeng88 发表于 2025-1-9 21:08
是啊, 不然正规服务器厂怎么会把4090D都拿到台面上给企业推荐(特别是国内合规压力更低的情况下) ...
那对于个人和小企业用户来说,比如说苹果用户,想获得同样的推理性能是不是两台64g的mac mini要比单台128g的mbp省钱很多?也就是说并不需要专门为了大内存而追求高规格的机器,不如买几台小内存的低规格机器?
zhuifeng88
发表于 2025-1-9 21:14
本帖最后由 zhuifeng88 于 2025-1-9 21:17 编辑
penryn 发表于 2025-1-9 21:10
那对于个人和小企业用户来说,比如说苹果用户,想获得同样的推理性能是不是两台64g的mac mini要比单台128 ...
是的
虽然mac的情况比较特殊, 本身算力太低, 不高并发就会撞上算力瓶颈, 这种情况下多机互联开销影响会比高并发场景大得多
但仍然不足以改变结论(而且有人展示过4台mac mini 雷电5全连接互联(4台全连接刚好用完3个口)推理)
penryn
发表于 2025-1-9 21:31
zhuifeng88 发表于 2025-1-9 21:14
是的
虽然mac的情况比较特殊, 本身算力太低, 不高并发就会撞上算力瓶颈, 这种情况下多机互联开销影响会 ...
明白了谢谢。那除了占用空间大一些以外,这种分布式方案相比大内存方案来说还有其他tradeoff吗?比如说到了某个规模的模型就跑不动了,或者节点数量增加到一定程度就没法再提速了什么的?对比8x64g的专业卡和2x256g的专业卡,有没有后者有性能方面明显优势的场景呢?
zhuifeng88
发表于 2025-1-9 21:47
本帖最后由 zhuifeng88 于 2025-1-9 21:49 编辑
penryn 发表于 2025-1-9 21:31
明白了谢谢。那除了占用空间大一些以外,这种分布式方案相比大内存方案来说还有其他tradeoff吗?比如说到 ...
假设
1. 不考虑机柜占用成本
2. 讨论4090,L40S和H100 (其他情况没太多贴合实际推理服务场景的案例只能非常粗略的估计)
decode节点永远不会到达性价比交叉点(4090单位吞吐量价格永远更低)
prefill节点会和H100交叉(比如405B的dense模型, 十几台8卡H100的规模下会交叉, 往后H100性价比更高), 永远不会和L40S交叉
penryn
发表于 2025-1-9 21:51
zhuifeng88 发表于 2025-1-9 21:47
假设
1. 不考虑机柜占用成本
2. 讨论4090,L40S和H100 (其他情况没太多贴合实际推理服务场景的案例只能非 ...
明白了谢谢,对将来的设备选择是非常有用的参考
General51
发表于 2025-1-9 23:22
我倒是认为IA两家应该让四通道内存下放到主流平台,以及带四个内存槽位的笔记本也能四通道。但目前看来似乎水果给的压力还不够大,如今CPU核心多了,内存却仍然只是按部就班的双通道,插四根容量是大了但还会进一步降低频率。
littlelincoln
发表于 2025-3-24 23:01
zhuifeng88 发表于 2024-11-9 19:26
哪有什么性价比...皮衣多卡就完事了, 推理拿一排8/12g/16g卡便宜的很, 随便找个x99主板插满就行
总花费1w ...
x99、2080ti、22G,debuff叠满