认清现实吧,GPU 单纯堆核心规模已经到头了
40 系因为从漏电的三星换成 TSMC 5nm 稍稍回光返照了一下,但是已经无法让性能随着 Cuda 核心数线性提升了30 系基本就是臭打游戏能得到的最后的诚意,只可惜被挖煤给把市场搞坏了
目前 Nv 修正了性能对比图,5080 跑出来的数据甚至比预期还要惨,借用 So_Va_Ro 的图
5090 Cudu 数量的提升幅度与 4090 是看齐的,但是光栅性能提升远不如当初 3090 到 4090 那么夸张了,说明 Cuda 核心数已经堆砌到了边际收益递减。
如果你非要用 Cuda 核心数目占旗舰的百分比来说话,如今的 5080 的核心规模差不多就是曾经标准下的 5060 Ti 而已
所以在制程节点陷入几乎停止的时候,单纯的光栅性能提升越来越小,以后 DLSS 这种花活只会越来越多
4000系列抛开最早首发的那2个Ti,其它产品以及后续修正后的4070 Ti Super(唯一没修正的就是4060 Ti),其它产品以及产品的切割绝对是史诗级的,AMD和Intel整整看着老黄爽了一年屁都不敢放一个那是相当有道理的... 类似就是油车不搞玩电车了,不是曲线超车直接就是换赛道了
那游戏卡以后和AI运算卡是不是分界线会变模糊了? 5这么看0系这能耗比有点难看了啊[偷笑]不过到也能理解,工艺没啥提升显存换G7 [偷笑]4090的效率问题被无视了很久,都怪amd不给力啊,现在navi48恢复正常之后,终于可以对5090的核心效率有理性讨论了
其实4080和5080已经算非常不错的核心规格设计了,感觉超过13000sp都是在浪费晶体管,13000sp+384bit的设计应该是极限了吧 光追dlss 就是新赛道 没这个东西 早死了 其实从挖厂开始就死了 不过给续命了一波 老黃都有ada泰坦的ES卡,我相信也有满血核心的5090,就看老黄要不要再收割一波
[偷笑]https://cdn.jsdelivr.net/gh/master-of-forums/master-of-forums/public/images/patch.gif 别急,50系堆核心边际递减可能是因为架构只是小幅优化。性能提升不是只有堆核心一种手段,GPU曾经有大小核两种路线,例如费米算是大核心,开普勒是小核心,参考现在CPU的发展趋势,有没有可能未来的GPU也走上大小核并存的架构路线,或者GPU的频率干脆直接靠新的制程工艺直接拉到4G甚至5G。 ljy1414 发表于 2025-1-16 08:59
老黃都有ada泰坦的ES卡,我相信也有满血核心的5090,就看老黄要不要再收割一波
...
老黄:等一等外甥女的步伐❤ Pickle 发表于 2025-1-16 09:05
别急,50系堆核心边际递减可能是因为架构只是小幅优化。性能提升不是只有堆核心一种手段,GPU曾经有大小核 ...
你说的算是换架构,换架构这种事情意味着很多事情要从头来过,然后再优化再进步,又是一个新的过程. 从30系安培Ampere新架构的开始,不是要乘以60%左右来表达等效CUDA数么[困惑] 例如,RTX3080的CUDA核心数量为8704,乘以0.6后得到的等效CUDA数约为5222个
毕竟,安培Ampere架构,从图灵Tuing架构的INT32改为FP32/INT32
3080 10g有8704个FP32(等效于4352个FP32和4352个INT32)和4352个INT32,而2080ti只有4352个FP32和4352个INT32
(如果有不对的地方,请指正一下) 本帖最后由 秦南瓜 于 2025-1-16 09:40 编辑
从30系到40系核心设计参考了 amd6000系infinity cache 堆L2出奇迹(3090ti 6M L2, 4090 72M L2)
从X3D CPU堆L3 可以大幅提升部分应用的核心利用率,
从4090 oc显存收益大于oc核心可见,
目前这些“边际效应”的问题,瓶颈还是在核心&显存io。显存、L2、L3都是这块的东西。
所以我还是觉得L2给的太少了导致cuda数量边际效用递减。
21760/16384cuda数量提升32.8%,真按边际效用递减的说法,性能提升肯得是没有32.8%的。
正是因为显存方面,512bit&GDDR7的加入,缓解了核心&显存io瓶颈,从而将cuda数量的“边际效应”抹平
不计成本的前提下,堆L2面积(容量),应该是可以避免核心利用率的问题的。可惜不存在“不计成本”
硬件堆到极限的话那么就DLSS必须独占否则无卖点 而且发现堆显存带宽的收益也是越来越小,看5080和5090的提升情况就知道了 牧清云 发表于 2025-1-16 09:35
从30系安培Ampere新架构的开始,不是要乘以60%左右来表达等效CUDA数么 例如,RTX3080的CUDA核心数量为8704 ...
应该说3080 10G有4352个FP32和4352个FP32/INT32,NV就宣传他是8704CUDA 显卡和AI计算卡早就硬分叉了,现在这个市场,不会有公司努力做显卡的 游戏也就那样了,一堆人为了帧数,搞远景模糊,没人注意吗,远景模糊不就是雾霾天吗?现实里,我非常讨厌雾霾天,这游戏里,还不通透,玩个 p 呀 aozorahishi 发表于 2025-1-16 10:49
应该说3080 10G有4352个FP32和4352个FP32/INT32,NV就宣传他是8704CUDA
20系就有独立int32,2080ti 其实是8704,因为int32不是主力就没这么标
现在全部支持int32
页:
[1]