找回密码
 加入我们
搜索
      
查看: 3132|回复: 17

[显卡] 认清现实吧,GPU 单纯堆核心规模已经到头了

[复制链接]
发表于 2025-1-16 08:42 | 显示全部楼层 |阅读模式
40 系因为从漏电的三星换成 TSMC 5nm 稍稍回光返照了一下,但是已经无法让性能随着 Cuda 核心数线性提升了

30 系基本就是臭打游戏能得到的最后的诚意,只可惜被挖煤给把市场搞坏了

目前 Nv 修正了性能对比图,5080 跑出来的数据甚至比预期还要惨,借用 So_Va_Ro 的图


5090 Cudu 数量的提升幅度与 4090 是看齐的,但是光栅性能提升远不如当初 3090 到 4090 那么夸张了,说明 Cuda 核心数已经堆砌到了边际收益递减

14980d965ca6727653364efcfbebbdc5afe02fb4d648a8304602a957ad492dec.jpg

如果你非要用 Cuda 核心数目占旗舰的百分比来说话,如今的 5080 的核心规模差不多就是曾经标准下的 5060 Ti 而已

d6c7b3573a1d6e32ce1e348b885db8b53557d7cd6c2f5946db1da232f7c40883.png

所以在制程节点陷入几乎停止的时候,单纯的光栅性能提升越来越小,以后 DLSS 这种花活只会越来越多

IMG_9652.png

发表于 2025-1-16 08:46 | 显示全部楼层
4000系列抛开最早首发的那2个Ti,其它产品以及后续修正后的4070 Ti Super(唯一没修正的就是4060 Ti),其它产品以及产品的切割绝对是史诗级的,AMD和Intel整整看着老黄爽了一年屁都不敢放一个那是相当有道理的...
发表于 2025-1-16 08:47 | 显示全部楼层
类似就是油车不搞玩电车了,不是曲线超车直接就是换赛道了

那游戏卡以后和AI运算卡是不是分界线会变模糊了?
发表于 2025-1-16 08:49 来自手机 | 显示全部楼层
5这么看0系这能耗比有点难看了啊不过到也能理解,工艺没啥提升显存换G7
发表于 2025-1-16 08:49 | 显示全部楼层
4090的效率问题被无视了很久,都怪amd不给力啊,现在navi48恢复正常之后,终于可以对5090的核心效率有理性讨论了

其实4080和5080已经算非常不错的核心规格设计了,感觉超过13000sp都是在浪费晶体管,13000sp+384bit的设计应该是极限了吧
发表于 2025-1-16 08:54 来自手机 | 显示全部楼层
光追dlss 就是新赛道 没这个东西 早死了 其实从挖厂开始就死了 不过给续命了一波
发表于 2025-1-16 08:59 | 显示全部楼层
老黃都有ada泰坦的ES卡,我相信也有满血核心的5090,就看老黄要不要再收割一波

发表于 2025-1-16 09:05 | 显示全部楼层
别急,50系堆核心边际递减可能是因为架构只是小幅优化。性能提升不是只有堆核心一种手段,GPU曾经有大小核两种路线,例如费米算是大核心,开普勒是小核心,参考现在CPU的发展趋势,有没有可能未来的GPU也走上大小核并存的架构路线,或者GPU的频率干脆直接靠新的制程工艺直接拉到4G甚至5G。
发表于 2025-1-16 09:06 | 显示全部楼层
ljy1414 发表于 2025-1-16 08:59
老黃都有ada泰坦的ES卡,我相信也有满血核心的5090,就看老黄要不要再收割一波

...

老黄:等一等外甥女的步伐❤
发表于 2025-1-16 09:10 | 显示全部楼层
Pickle 发表于 2025-1-16 09:05
别急,50系堆核心边际递减可能是因为架构只是小幅优化。性能提升不是只有堆核心一种手段,GPU曾经有大小核 ...

你说的算是换架构,换架构这种事情意味着很多事情要从头来过,然后再优化再进步,又是一个新的过程.
发表于 2025-1-16 09:35 | 显示全部楼层
从30系安培Ampere新架构的开始,不是要乘以60%左右来表达等效CUDA数么 例如,RTX3080的CUDA核心数量为8704,乘以0.6后得到的等效CUDA数约为5222个

毕竟,安培Ampere架构,从图灵Tuing架构的INT32改为FP32/INT32

3080 10g有8704个FP32(等效于4352个FP32和4352个INT32)和4352个INT32,而2080ti只有4352个FP32和4352个INT32

(如果有不对的地方,请指正一下)
发表于 2025-1-16 09:37 | 显示全部楼层
本帖最后由 秦南瓜 于 2025-1-16 09:40 编辑

从30系到40系核心设计参考了 amd6000系infinity cache 堆L2出奇迹(3090ti 6M L2, 4090 72M L2)
从X3D CPU堆L3 可以大幅提升部分应用的核心利用率,
从4090 oc显存收益大于oc核心可见,

目前这些“边际效应”的问题,瓶颈还是在核心&显存io。显存、L2、L3都是这块的东西。

所以我还是觉得L2给的太少了导致cuda数量边际效用递减。

21760/16384  cuda数量提升32.8%,真按边际效用递减的说法,性能提升肯得是没有32.8%的。
正是因为显存方面,512bit&GDDR7的加入,缓解了核心&显存io瓶颈,从而将cuda数量的“边际效应”抹平

不计成本的前提下,堆L2面积(容量),应该是可以避免核心利用率的问题的。可惜不存在“不计成本”
发表于 2025-1-16 10:20 | 显示全部楼层
硬件堆到极限的话那么就DLSS必须独占否则无卖点
发表于 2025-1-16 10:25 | 显示全部楼层
而且发现堆显存带宽的收益也是越来越小,看5080和5090的提升情况就知道了
发表于 2025-1-16 10:49 | 显示全部楼层
牧清云 发表于 2025-1-16 09:35
从30系安培Ampere新架构的开始,不是要乘以60%左右来表达等效CUDA数么 例如,RTX3080的CUDA核心数量为8704 ...

应该说3080 10G有4352个FP32和4352个FP32/INT32,NV就宣传他是8704CUDA
发表于 2025-1-16 10:52 | 显示全部楼层
显卡和AI计算卡早就硬分叉了,现在这个市场,不会有公司努力做显卡的
发表于 2025-1-16 10:53 来自手机 | 显示全部楼层
游戏也就那样了,一堆人为了帧数,搞远景模糊,没人注意吗,远景模糊不就是雾霾天吗?现实里,我非常讨厌雾霾天,这游戏里,还不通透,玩个 p 呀
发表于 2025-1-16 10:54 | 显示全部楼层
aozorahishi 发表于 2025-1-16 10:49
应该说3080 10G有4352个FP32和4352个FP32/INT32,NV就宣传他是8704CUDA

20系就有独立int32,2080ti 其实是8704,因为int32不是主力就没这么标
现在全部支持int32
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-1 15:02 , Processed in 0.014133 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表