为什么有人装4张5090显卡

古明地觉 · 发表于 2025-3-16 10:48

本帖最后由古明地觉于 2025-3-16 10:50 编辑

除非训练，要不一般推理的话对卡间通讯速度要求没那么高，尤其50系也支持pcie5.0了，就算是硬要训练瓶颈也不像原来那么严重了。
顺便也可能就单纯是想提高硬件密度，毕竟能省下仨机箱的位置呢

c932 · 发表于 2025-3-16 19:43

mangomango 发表于 2025-3-16 00:53
influence还是inference?

哈哈不是你提醒我还以为又出了啥新技术自己out了

泰戈尔神 · 发表于 2025-3-16 19:52

5090D好像留了一个后门就是支持8卡，但是5090不能

wjm47196 · 发表于 2025-3-16 19:54

StevenG 发表于 2025-3-14 10:41
老黄的护城河是CUDA，真要说互联技术，也不是柜内的nvlink，而是柜间的IB高速无损网络，当年收购迈络思真是 ...

当时中国就应该把他否了

冬天吃雪糕 · 发表于 2025-9-17 09:27

因为人多卡少，一张卡装一台太麻烦了，不如一台直接装个4张，8张，方便共享使用

tasagapro · 发表于 2025-9-17 09:47

大规模训练中，HB域内流量很大的情况下，NVlink才有用

powerduke · 发表于 2025-9-17 09:52

推理有两个阶段的需求，一是prefill阶段的浮点算力需求，二是decode阶段的kv读取的带宽需求，所以，大家可以自行判断是否需要上4张卡咯

tim6252 · 发表于 2025-9-17 10:06

3d渲染完全不需要多卡同步……每个卡渲染一张图的不同区域的像素就行了，就能达到渲染速度翻倍的目的

arbicool · 发表于 2025-9-17 10:09

c2h6o 发表于 2025-3-14 18:00
装了8个4090的机器大把。

確實，而且8張甚至12張 5090方案在Computex早就展出過了

chs · 发表于 2025-9-17 10:44

说的nvlink强不是消费级显卡的那个，是指NVlink接口、还有NVSwitch等生态的一整套NVLink技术。

传输带宽比PCIE高,NVLink 5.0 是1.8TB/s，4.0也有900G/s，延迟更低，统一内存。

testmepro · 发表于 2025-9-17 10:55

跑模型推理好像只要所有显卡显存够用就行了

robles · 发表于 2025-9-17 11:07

现在炼丹不需要nvlink

yipsilon · 发表于 2025-9-17 11:13

使用 NCCL 走 PCIE 即可，虽然慢点但多卡是能用的。

微信图片_20250916115455_118_13.png

c2h6o · 发表于 2025-9-17 11:49

arbicool 发表于 2025-9-17 10:09
確實，而且8張甚至12張 5090方案在Computex早就展出過了

最多有16张卡的方案了。

arbicool · 发表于 2025-9-17 14:26

c2h6o 发表于 2025-9-17 11:49
最多有16张卡的方案了。

都過去四個月了，當時就火力展示而已

這麼多張5090基本上就可以彈性部屬地端AI，甚至入門經濟型Server

不是人人都想去搞H系列B系列的完整方案；再來一架12張 5090的Server可以很快部屬成三台5090四張的機台；甚至沒有需要時再把卡拿去賣給普通玩家都是賺的！

q3again0605 · 发表于 2025-9-17 15:07

yipsilon 发表于 2025-9-17 11:13
使用 NCCL 走 PCIE 即可，虽然慢点但多卡是能用的。

你这个是走p2p还是走内存啊，rx tx数据看看？你打了p2p的补丁了？

MCard · 发表于 2025-9-17 18:07

nvlink在训练领域没什么用？能用不等于好用吧

YsHaNg · 发表于 2025-9-17 18:40

滚滚发表于 2025-3-14 01:47
AI也不需要，渲染也不需要，那nvlink用来做什么？nvlink和超高速不是nvidia的护城河之一吗？ ...

训练和tuili是两回事

yakeyyy · 发表于 2025-9-17 18:45

除了玩游戏不能并行外，其它的运算都可以并行处理

yipsilon · 发表于 2025-9-17 18:49

q3again0605 发表于 2025-9-17 15:07
你这个是走p2p还是走内存啊，rx tx数据看看？你打了p2p的补丁了？

4090没NVLINK，肯定走不了P2P呀，只能通过PCIE走内存。

fcs15963 · 发表于 2025-9-17 21:37

显卡之间的通信要走CPU中继，速度损失很大，以前的nvlink就是多卡交火的时候把算好的帧快速输出，你显示器只能插其中一张卡，现在的nvlink主要用途是卡间显存共享，两张48G卡就能得到96G大显存，没有link就只能把模型在每张卡上都存一份，保证每张卡的计算速度。

盐湖 · 发表于 2025-9-18 14:21

fcs15963 发表于 2025-9-17 21:37
显卡之间的通信要走CPU中继，速度损失很大，以前的nvlink就是多卡交火的时候把算好的帧快速输出，你显示器 ...

老哥，您说这个能不能在两张2080ti 22G上实现44G可用显存的感觉？或者对于rtx titan能不能两张24G变成48G？我之前对这个感兴趣查了一些相关信息，但之前也没弄清楚到底是能还是不能

MDC · 发表于 2025-9-18 15:35

盐湖发表于 2025-9-18 14:21
老哥，您说这个能不能在两张2080ti 22G上实现44G可用显存的感觉？或者对于rtx titan能不能两张24G变成48G ...

可以啊，打游戏不行，干活可以

dukeyli · 发表于 2025-9-19 16:03

4090的价格还是稳如老狗啊，快和5090倒挂了。

盐湖 · 发表于 2025-9-20 00:11

MDC 发表于 2025-9-18 15:35
可以啊，打游戏不行，干活可以

原来如此，主要是一两年前弄不清楚到底是两个22还是能真变成一整个44，不过现在llm都已经随便支持多卡分布了，这个应该也不需要再弄清楚了

盐湖 · 发表于 2025-9-20 00:13

dukeyli 发表于 2025-9-19 16:03
4090的价格还是稳如老狗啊，快和5090倒挂了。

这张只在多卡互联和特殊需求输专业卡的48G卡在未来几年应该都是硬通货，尤其是全球互联网大厂基本上都在把未来押在ai上的情况下，虽然bat都说过自己已经囤了足量算力五年内不会缺卡，但是他们不要总会有小厂要，算力需求应该还远远没饱和。

滚滚 · 发表于 2025-9-20 18:29

盐湖发表于 2025-9-20 00:13
这张只在多卡互联和特殊需求输专业卡的48G卡在未来几年应该都是硬通货，尤其是全球互联网大厂基本上都在 ...

鱼塘淘几张RTX PRO 6000不结了吗？384GB足够了。如果openAI和立讯精密的消失是真的，是不是要推出小模型的硬件了。不是专门稿这个好像不需要，1年就贬值。

盐湖 · 发表于 2025-9-21 14:09

滚滚发表于 2025-9-20 18:29
鱼塘淘几张RTX PRO 6000不结了吗？384GB足够了。如果openAI和立讯精密的消失是真的，是不是要推出小模型 ...

淘点B200 NVL72更好。然后4090到手就贬值，我的已经贬到1030的状态了

港城钢铁侠 · 发表于 2025-9-21 14:22

跑推理对卡间通信带宽需求没那么大

账号		自动登录	找回密码
密码			加入我们

[显卡] 为什么有人装4张5090显卡