找回密码
 加入我们
搜索
      
楼主: 滚滚

[显卡] 为什么有人装4张5090显卡

[复制链接]
发表于 2025-3-16 10:48 | 显示全部楼层
本帖最后由 古明地觉 于 2025-3-16 10:50 编辑

除非训练,要不一般推理的话对卡间通讯速度要求没那么高,尤其50系也支持pcie5.0了,就算是硬要训练瓶颈也不像原来那么严重了。
顺便也可能就单纯是想提高硬件密度,毕竟能省下仨机箱的位置呢
发表于 2025-3-16 19:43 | 显示全部楼层
mangomango 发表于 2025-3-16 00:53
influence还是inference?

哈哈 不是你提醒我还以为又出了啥新技术自己out了
发表于 2025-3-16 19:52 | 显示全部楼层
5090D好像留了一个后门就是支持8卡,但是5090不能
发表于 2025-3-16 19:54 | 显示全部楼层
StevenG 发表于 2025-3-14 10:41
老黄的护城河是CUDA,真要说互联技术,也不是柜内的nvlink,而是柜间的IB高速无损网络,当年收购迈络思真是 ...

当时中国就应该把他否了
发表于 2025-9-17 09:27 | 显示全部楼层
因为人多卡少,一张卡装一台太麻烦了,不如一台直接装个4张,8张,方便共享使用
发表于 2025-9-17 09:47 | 显示全部楼层
大规模训练中,HB域内流量很大的情况下,NVlink才有用
发表于 2025-9-17 09:52 来自手机 | 显示全部楼层
推理有两个阶段的需求,一是prefill阶段的浮点算力需求,二是decode阶段的kv读取的带宽需求,所以,大家可以自行判断是否需要上4张卡咯
发表于 2025-9-17 10:06 来自手机 | 显示全部楼层
3d渲染完全不需要多卡同步……每个卡渲染一张图的不同区域的像素就行了,就能达到渲染速度翻倍的目的
发表于 2025-9-17 10:09 | 显示全部楼层
c2h6o 发表于 2025-3-14 18:00
装了8个4090的机器大把。

確實,而且8張甚至12張 5090方案在Computex早就展出過了
发表于 2025-9-17 10:44 | 显示全部楼层
说的nvlink强不是消费级显卡的那个,是指NVlink接口、还有NVSwitch等生态的一整套NVLink技术。

传输带宽比PCIE高,NVLink 5.0 是1.8TB/s,4.0也有900G/s,延迟更低,统一内存。
发表于 2025-9-17 10:55 | 显示全部楼层
跑模型推理好像只要所有显卡显存够用就行了
发表于 2025-9-17 11:07 | 显示全部楼层
现在炼丹不需要nvlink
发表于 2025-9-17 11:13 | 显示全部楼层
使用 NCCL 走 PCIE 即可,虽然慢点但多卡是能用的。

微信图片_20250916115455_118_13.png
发表于 2025-9-17 11:49 | 显示全部楼层
arbicool 发表于 2025-9-17 10:09
確實,而且8張甚至12張 5090方案在Computex早就展出過了

最多有16张卡的方案了。
发表于 2025-9-17 14:26 | 显示全部楼层
c2h6o 发表于 2025-9-17 11:49
最多有16张卡的方案了。

都過去四個月了,當時就火力展示而已

這麼多張5090基本上就可以彈性部屬地端AI,甚至入門經濟型Server

不是人人都想去搞H系列B系列的完整方案;再來一架12張 5090的Server可以很快部屬成三台5090四張的機台;甚至沒有需要時再把卡拿去賣給普通玩家都是賺的!
发表于 2025-9-17 15:07 | 显示全部楼层
yipsilon 发表于 2025-9-17 11:13
使用 NCCL 走 PCIE 即可,虽然慢点但多卡是能用的。

你这个是走p2p还是走内存啊,rx tx数据看看?你打了p2p的补丁了?
发表于 2025-9-17 18:07 | 显示全部楼层
nvlink在训练领域没什么用?能用不等于好用吧
发表于 2025-9-17 18:40 来自手机 | 显示全部楼层
滚滚 发表于 2025-3-14 01:47
AI也不需要,渲染也不需要,那nvlink用来做什么?nvlink和超高速不是nvidia的护城河之一吗? ...

训练和tuili是两回事
发表于 2025-9-17 18:45 | 显示全部楼层
除了玩游戏不能并行外,其它的运算都可以并行处理
发表于 2025-9-17 18:49 | 显示全部楼层
q3again0605 发表于 2025-9-17 15:07
你这个是走p2p还是走内存啊,rx tx数据看看?你打了p2p的补丁了?

4090没NVLINK,肯定走不了P2P呀,只能通过PCIE走内存。
发表于 2025-9-17 21:37 | 显示全部楼层
显卡之间的通信要走CPU中继,速度损失很大,以前的nvlink就是多卡交火的时候把算好的帧快速输出,你显示器只能插其中一张卡,现在的nvlink主要用途是卡间显存共享,两张48G卡就能得到96G大显存,没有link就只能把模型在每张卡上都存一份,保证每张卡的计算速度。
发表于 2025-9-18 14:21 | 显示全部楼层
fcs15963 发表于 2025-9-17 21:37
显卡之间的通信要走CPU中继,速度损失很大,以前的nvlink就是多卡交火的时候把算好的帧快速输出,你显示器 ...

老哥,您说这个能不能在两张2080ti 22G上实现44G可用显存的感觉?或者对于rtx titan能不能两张24G变成48G?我之前对这个感兴趣查了一些相关信息,但之前也没弄清楚到底是能还是不能
发表于 2025-9-18 15:35 | 显示全部楼层
盐湖 发表于 2025-9-18 14:21
老哥,您说这个能不能在两张2080ti 22G上实现44G可用显存的感觉?或者对于rtx titan能不能两张24G变成48G ...

可以啊,打游戏不行,干活可以
发表于 2025-9-19 16:03 | 显示全部楼层
4090的价格还是稳如老狗啊,快和5090倒挂了。
发表于 2025-9-20 00:11 | 显示全部楼层
MDC 发表于 2025-9-18 15:35
可以啊,打游戏不行,干活可以

原来如此,主要是一两年前弄不清楚到底是两个22还是能真变成一整个44,不过现在llm都已经随便支持多卡分布了,这个应该也不需要再弄清楚了
发表于 2025-9-20 00:13 | 显示全部楼层
dukeyli 发表于 2025-9-19 16:03
4090的价格还是稳如老狗啊,快和5090倒挂了。

这张只在多卡互联和特殊需求输专业卡的48G卡在未来几年应该都是硬通货,尤其是全球互联网大厂基本上都在把未来押在ai上的情况下,虽然bat都说过自己已经囤了足量算力五年内不会缺卡,但是他们不要总会有小厂要,算力需求应该还远远没饱和。
 楼主| 发表于 2025-9-20 18:29 | 显示全部楼层
盐湖 发表于 2025-9-20 00:13
这张只在多卡互联和特殊需求输专业卡的48G卡在未来几年应该都是硬通货,尤其是全球互联网大厂基本上都在 ...

鱼塘淘几张RTX PRO 6000不结了吗?384GB足够了。如果openAI和立讯精密的消失是真的,是不是要推出小模型的硬件了。不是专门稿这个好像不需要,1年就贬值。
发表于 2025-9-21 14:09 | 显示全部楼层
滚滚 发表于 2025-9-20 18:29
鱼塘淘几张RTX PRO 6000不结了吗?384GB足够了。如果openAI和立讯精密的消失是真的,是不是要推出小模型 ...


淘点B200 NVL72更好。然后4090到手就贬值,我的已经贬到1030的状态了
发表于 2025-9-21 14:22 来自手机 | 显示全部楼层
跑推理对卡间通信带宽需求没那么大
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-22 06:03 , Processed in 0.011260 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表