找回密码
 加入我们
搜索
      
查看: 11559|回复: 130

[显卡] 我来告诉你们为啥50系毫无提升,本质 Ada Refresh。。。

[复制链接]
发表于 2025-2-1 12:51 | 显示全部楼层 |阅读模式
本帖最后由 chungexcy 于 2025-2-1 15:03 编辑

这里是前几天公布的 Blackwell 的白皮书:
https://images.nvidia.com/aem-dam/Solutions/geforce/blackwell/nvidia-rtx-blackwell-gpu-architecture.pdf


1. ROPS 没有任何变化!

之前的流言说的是50系ROPS翻倍,一直到发布前都是这么传的!现在看果然是谣言!


40 系列里面效率最高的 4060,效率最低的是 4060ti、4070。
原因很简单:4060 是 8 SM/GPC,4060ti以上的是 12 SM/GPC,而光栅单元ROP都是 16 ROPS/GPC。
所以 4060 是 16 ROPS/ 8 SM4060ti以上的是 16 ROPS/ 12 SM

对比 4060(8SM)与 4060ti/4070m/4070(12SM),其 50% 的规模只能带来 20-25% 的性能提升。
这个性能提升幅度也符合 30 系列,3070 ti 和 3080 10GB/12GB 的性能差距也是 20-25%。

对于 30、40、50 系,16 ROPS/ 12 SM 是不够的。
4080(76SM)和 5080(84SM)的 ROPs 都是 112
4090(128SM)和 5090(170SM)的 ROPs 都是 176。
5090 这个问题更加恶劣了,进一步降低到了 16 ROPS/ 16 SM。也就是说,4060 单位 SM 的光栅单元是 5090 的两倍!


2. 5070 能提升20%,5070ti、5080 只能提升 10-15% 的原因

上面已经说了,5070ti、5080 相对于4070 ti super 和 4080s,大家都是 16 ROPS/ 12 SM。5-10%的sm+更高一点的频率+gddr7的提升带来了这10-15%。

而 5070 的规模改回了 5GPC *10SM,SM 的光栅规模 16 ROPS/ 10 SM,每光栅单元的压力降低了。性能相对 4070(4GPC *12SM)提升 20%,几乎追上了 4070s/4070ti(5GPC * 12SM)

5070 能提升20%,正好应证了 Blackwell 本质 Ada Refresh。
5070(48SM)是 GB205-300, GB205-400 应该才是完整的 50SM。


3. 我觉得 50 系里面除了原价的 5090 以外,最值得买的是 5070(划掉) 4070s

因为对于玩家而言,Blackwell = Ada Refresh。而 5GPC 的效率是最好的,6GPC 能提升15%,7GPC 能再提升10%。

当然擦亮眼睛后,去买更便宜的 4070s 更好。。。


总结:
练习时长两年半,搞出一个 Ada Refresh。。。



评分

参与人数 1邪恶指数 +10 收起 理由
kang12 + 10 支持一下

查看全部评分

发表于 2025-2-1 12:52 来自手机 | 显示全部楼层
5080真实没自宫的400wBIOS其实是有20%的性能提升的…
 楼主| 发表于 2025-2-1 12:53 | 显示全部楼层
nApoleon 发表于 2025-2-1 12:52
5080真实没自宫的400wBIOS其实是有20%的性能提升的…

那是超频,IPC没有本质提升
发表于 2025-2-1 12:54 来自手机 | 显示全部楼层
chungexcy 发表于 2025-2-1 12:53
那是超频,IPC没有本质提升

你没理解…那就是最初5080的水平,是一月份突然上市前自宫了…
 楼主| 发表于 2025-2-1 12:55 | 显示全部楼层
nApoleon 发表于 2025-2-1 12:54
你没理解…那就是最初5080的水平,是一月份突然上市前自宫了…

我只看现在的芯片规模和设计。你400w也是超频堆功耗,除非不是GB203-400。
发表于 2025-2-1 12:58 来自手机 | 显示全部楼层
看评测和规格表时候就想到了,不过没法像你这么专业的表述出来
发表于 2025-2-1 13:00 来自手机 | 显示全部楼层
chungexcy 发表于 2025-2-1 12:55
我只看现在的芯片规模和设计。你400w也是超频堆功耗,除非不是GB203-400。

不用拉高功耗墙,我说的就是基于360w…
 楼主| 发表于 2025-2-1 13:03 | 显示全部楼层
本帖最后由 chungexcy 于 2025-2-1 13:04 编辑
nApoleon 发表于 2025-2-1 13:00
不用拉高功耗墙,我说的就是基于360w…


你说的毫无意义,当下版本的GB202-300、GB203-400、GB203-300就这表现。
发表于 2025-2-1 13:05 | 显示全部楼层
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。
 楼主| 发表于 2025-2-1 13:06 | 显示全部楼层
enjoywoo 发表于 2025-2-1 12:58
看评测和规格表时候就想到了,不过没法像你这么专业的表述出来


之前刚发布的时候,wiki上写的ROP是有提升的,5090翻倍,5080以下的是1.5倍。
然后我就被骗了,怎么想都想不通为啥实测性能没有提升
 楼主| 发表于 2025-2-1 13:08 | 显示全部楼层
我輩樹である 发表于 2025-2-1 13:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。

是的,FP加改INT32毫无诚意,对游戏提升为0,还浪费晶体管。
发表于 2025-2-1 13:09 | 显示全部楼层
差不多,很拉胯的一代!
 楼主| 发表于 2025-2-1 13:14 | 显示全部楼层
我輩樹である 发表于 2025-2-1 13:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。

其实我觉得Ada也没咋改,cuda版本更新估计为了所谓更大的L2
发表于 2025-2-1 13:14 | 显示全部楼层
跟intel一样,SNB之后SKL然后SKL++,能两年换一次接口躺着赚钱干嘛要干活?最后也亡于此
发表于 2025-2-1 13:19 | 显示全部楼层
chungexcy 发表于 2025-2-1 13:14
其实我觉得Ada也没咋改,cuda版本更新估计为了所谓更大的L2

硬件上集成了新的调度器。
发表于 2025-2-1 13:25 | 显示全部楼层
虽然说直接对比单元数量不科学- - 但如果ROP本身的效率没有做提升,那这个后端规模确实不够大
发表于 2025-2-1 13:26 | 显示全部楼层
宣传上50系新加入的RTX Mega Geometry巨型几何引擎架构实测在40系上同样能获得13%以上收益,你都很难说50系的架构更新了啥....
QQ图片20250106215007.png
发表于 2025-2-1 13:27 | 显示全部楼层
性能提升主要靠工艺制程,制程红利快到头了,性能提升就纯堆规模和提频率了,功耗的提升等于性能的提升。
发表于 2025-2-1 13:29 来自手机 | 显示全部楼层
坐等全规格GB205+3GD7颗粒显存的sku了,不过估计大概率不会有
 楼主| 发表于 2025-2-1 13:29 | 显示全部楼层
inSeek 发表于 2025-2-1 13:25
虽然说直接对比单元数量不科学- - 但如果ROP本身的效率没有做提升,那这个后端规模确实不够大 ...

你要有兴趣,可以自己让DeepSeek读一下这个白皮书。我的感觉就是传统游戏性能上的改进几乎为零。
不但如此,光栅就算了,光追性能提升也完全不及预期。。。
发表于 2025-2-1 13:34 | 显示全部楼层
本帖最后由 inSeek 于 2025-2-1 13:35 编辑
chungexcy 发表于 2025-2-1 13:29
你要有兴趣,可以自己让DeepSeek读一下这个白皮书。我的感觉就是传统游戏性能上的改进几乎为零。
不但如 ...


相关的就是TMU的数量和效率提升了吧
前端和重排也改进了下,剩下似乎就没有什么特别相关的东西了

我就好奇,ROP单元的效率也没有改进,直接CV的Ada的么...
 楼主| 发表于 2025-2-1 13:36 | 显示全部楼层
CptQ 发表于 2025-2-1 13:27
性能提升主要靠工艺制程,制程红利快到头了,性能提升就纯堆规模和提频率了,功耗的提升等于性能的提升。 ...

问题是堆规模也没按照最优的模式堆。。。

最优的模式Hopper的FP+FP+INT,然后每12SM配12ROPs或者直接翻倍到16ROPs,然后GPC像Hopper一样别超过8GPC
 楼主| 发表于 2025-2-1 13:41 | 显示全部楼层
本帖最后由 chungexcy 于 2025-2-1 13:45 编辑
inSeek 发表于 2025-2-1 13:34
相关的就是TMU的数量和效率提升了吧
前端和重排也改进了下,剩下似乎就没有什么特别相关的东西了


你仔细看 Texture Units,TMU数量也没有提升,跟着SM数量走的。。。4070 是 184 个,5070 是 192 个。

The number of texture units has increased from 512 in GeForce 4090 to 680 in GeForce 5090


效率白皮书里面没提的样子,只拿多出33%规模的5090对比了4090。
发表于 2025-2-1 13:44 来自手机 | 显示全部楼层
大概率是小幅改进,着重改进内部设计以提升频率
结果最后跟RDNA3一样在3G翻车了
5080要是同功耗下能跑3.5G,揍4090真不难
问题在于,5080相对于4080的提升好象都是N4P制程带来的10%频率上升副产物
发表于 2025-2-1 13:48 | 显示全部楼层
白皮书出来看到rops没变确实有点绷不住,5080没变就算了,毕竟规模确实也没什么变化,但5090每gpc都扩大到16sm了,rops居然还是那样,活该效率低下
发表于 2025-2-1 13:49 | 显示全部楼层
5070按照老黄的ppt,提升不是和5070ti一样么,只有5080是最少的,你这数据是如何得出的?
发表于 2025-2-1 13:51 | 显示全部楼层
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?
 楼主| 发表于 2025-2-1 13:52 | 显示全部楼层
BFG9K 发表于 2025-2-1 13:29
坐等全规格GB205+3GD7颗粒显存的sku了,不过估计大概率不会有

除非降价,263 mm2 卖现在这个价格意义不大
发表于 2025-2-1 13:55 | 显示全部楼层
赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?

靠FP4呗
这种刷分办法早晚原生支持1.58bit格式……
 楼主| 发表于 2025-2-1 13:56 | 显示全部楼层
赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?

硅工艺的成本效益已经到达极限了,架构还没变化,你说呢?

不过5090绝对性能还是有的,只不过ada的计算卡也卖的挺好为啥要去提升呢。。。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-25 23:01 , Processed in 0.014604 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表