认清现实吧，GPU 单纯堆核心规模已经到头了

privater · 发表于 2025-1-16 08:42

40 系因为从漏电的三星换成 TSMC 5nm 稍稍回光返照了一下，但是已经无法让性能随着 Cuda 核心数线性提升了

30 系基本就是臭打游戏能得到的最后的诚意，只可惜被挖煤给把市场搞坏了

目前 Nv 修正了性能对比图，5080 跑出来的数据甚至比预期还要惨，借用 So_Va_Ro 的图

5090 Cudu 数量的提升幅度与 4090 是看齐的，但是光栅性能提升远不如当初 3090 到 4090 那么夸张了，说明 Cuda 核心数已经堆砌到了边际收益递减。

14980d965ca6727653364efcfbebbdc5afe02fb4d648a8304602a957ad492dec.jpg

14980d965ca6727653364efcfbebbdc5afe02fb4d648a8304602a957ad492dec.jpg

如果你非要用 Cuda 核心数目占旗舰的百分比来说话，如今的 5080 的核心规模差不多就是曾经标准下的 5060 Ti 而已

d6c7b3573a1d6e32ce1e348b885db8b53557d7cd6c2f5946db1da232f7c40883.png

d6c7b3573a1d6e32ce1e348b885db8b53557d7cd6c2f5946db1da232f7c40883.png

所以在制程节点陷入几乎停止的时候，单纯的光栅性能提升越来越小，以后 DLSS 这种花活只会越来越多

nApoleon · 发表于 2025-1-16 08:46

4000系列抛开最早首发的那2个Ti,其它产品以及后续修正后的4070 Ti Super(唯一没修正的就是4060 Ti),其它产品以及产品的切割绝对是史诗级的,AMD和Intel整整看着老黄爽了一年屁都不敢放一个那是相当有道理的...

ryan9247 · 发表于 2025-1-16 08:47

类似就是油车不搞玩电车了，不是曲线超车直接就是换赛道了

那游戏卡以后和AI运算卡是不是分界线会变模糊了？

gladiator · 发表于 2025-1-16 08:49

5这么看0系这能耗比有点难看了啊

不过到也能理解，工艺没啥提升显存换G7

zcjzcj11111 · 发表于 2025-1-16 08:49

4090的效率问题被无视了很久，都怪amd不给力啊，现在navi48恢复正常之后，终于可以对5090的核心效率有理性讨论了

其实4080和5080已经算非常不错的核心规格设计了，感觉超过13000sp都是在浪费晶体管，13000sp+384bit的设计应该是极限了吧

jxljk · 发表于 2025-1-16 08:54

光追dlss 就是新赛道没这个东西早死了其实从挖厂开始就死了不过给续命了一波

ljy1414 · 发表于 2025-1-16 08:59

老黃都有ada泰坦的ES卡，我相信也有满血核心的5090，就看老黄要不要再收割一波

Pickle · 发表于 2025-1-16 09:05

别急，50系堆核心边际递减可能是因为架构只是小幅优化。性能提升不是只有堆核心一种手段，GPU曾经有大小核两种路线，例如费米算是大核心，开普勒是小核心，参考现在CPU的发展趋势，有没有可能未来的GPU也走上大小核并存的架构路线，或者GPU的频率干脆直接靠新的制程工艺直接拉到4G甚至5G。

nekotheo · 发表于 2025-1-16 09:06

ljy1414 发表于 2025-1-16 08:59
老黃都有ada泰坦的ES卡，我相信也有满血核心的5090，就看老黄要不要再收割一波

...

老黄：等一等外甥女的步伐❤

nApoleon · 发表于 2025-1-16 09:10

Pickle 发表于 2025-1-16 09:05
别急，50系堆核心边际递减可能是因为架构只是小幅优化。性能提升不是只有堆核心一种手段，GPU曾经有大小核 ...

你说的算是换架构,换架构这种事情意味着很多事情要从头来过,然后再优化再进步,又是一个新的过程.

牧清云 · 发表于 2025-1-16 09:35

从30系安培Ampere新架构的开始，不是要乘以60%左右来表达等效CUDA数么

例如，RTX3080的CUDA核心数量为8704，乘以0.6后得到的等效CUDA数约为5222个

毕竟，安培Ampere架构，从图灵Tuing架构的INT32改为FP32/INT32

3080 10g有8704个FP32(等效于4352个FP32和4352个INT32)和4352个INT32，而2080ti只有4352个FP32和4352个INT32

(如果有不对的地方，请指正一下)

秦南瓜 · 发表于 2025-1-16 09:37

本帖最后由秦南瓜于 2025-1-16 09:40 编辑

从30系到40系核心设计参考了 amd6000系infinity cache 堆L2出奇迹（3090ti 6M L2， 4090 72M L2）
从X3D CPU堆L3 可以大幅提升部分应用的核心利用率，
从4090 oc显存收益大于oc核心可见，

目前这些“边际效应”的问题，瓶颈还是在核心&显存io。显存、L2、L3都是这块的东西。

所以我还是觉得L2给的太少了导致cuda数量边际效用递减。

21760/16384 cuda数量提升32.8%，真按边际效用递减的说法，性能提升肯得是没有32.8%的。
正是因为显存方面，512bit&GDDR7的加入，缓解了核心&显存io瓶颈，从而将cuda数量的“边际效应”抹平

不计成本的前提下，堆L2面积（容量），应该是可以避免核心利用率的问题的。可惜不存在“不计成本”

tozofly · 发表于 2025-1-16 10:20

硬件堆到极限的话那么就DLSS必须独占否则无卖点

jiajia · 发表于 2025-1-16 10:25

而且发现堆显存带宽的收益也是越来越小，看5080和5090的提升情况就知道了

aozorahishi · 发表于 2025-1-16 10:49

牧清云发表于 2025-1-16 09:35
从30系安培Ampere新架构的开始，不是要乘以60%左右来表达等效CUDA数么例如，RTX3080的CUDA核心数量为8704 ...

应该说3080 10G有4352个FP32和4352个FP32/INT32，NV就宣传他是8704CUDA

Montelucast · 发表于 2025-1-16 10:52

显卡和AI计算卡早就硬分叉了，现在这个市场，不会有公司努力做显卡的

archxm · 发表于 2025-1-16 10:53

游戏也就那样了，一堆人为了帧数，搞远景模糊，没人注意吗，远景模糊不就是雾霾天吗？现实里，我非常讨厌雾霾天，这游戏里，还不通透，玩个 p 呀

PolyMorph · 发表于 2025-1-16 10:54

aozorahishi 发表于 2025-1-16 10:49
应该说3080 10G有4352个FP32和4352个FP32/INT32，NV就宣传他是8704CUDA

20系就有独立int32，2080ti 其实是8704，因为int32不是主力就没这么标
现在全部支持int32

账号		自动登录	找回密码
密码			加入我们

[显卡] 认清现实吧，GPU 单纯堆核心规模已经到头了

浏览过的版块