找回密码
 加入我们
搜索
      
楼主: chungexcy

[显卡] 我来告诉你们为啥50系毫无提升,本质 Ada Refresh。。。

[复制链接]
发表于 2025-2-1 16:34 | 显示全部楼层
突然想起来50系还换了GD7
现在越看越像这GD7对比GD6X只是徒增功耗发热,更高带宽完全没有换到提升的样子
发表于 2025-2-1 16:35 | 显示全部楼层
PPXG 发表于 2025-2-1 14:43
ada refresh不至于,单纯refresh就不需要搞这么多为了AI服务的硬件变动了,以及和微软联合搞的神经网络渲染 ...

但是这些改进不一定是硬件层面的,40系只是没吃到红利……
发表于 2025-2-1 16:38 | 显示全部楼层
zhoubi 发表于 2025-2-1 14:21
blackwell拉稀有点像rdna3,都是来自架构的改进取得的收益太低。这次84sm的5080只比80sm的4080强10%多,计 ...

RDNA3的FP32是dual issues带来的,仅仅只是理论FP32翻倍,FP16压根没有变化
安培的FP32应该是真塞了一倍的FP32单元进去的,所以才有了提升。但这个代价就是晶体管也暴涨,AMD小家子气显然不愿意干这种买卖(多了一倍的FP32晶体管,性能才多30%,如果等比例扩大其他单元的话肯定不止30%)
发表于 2025-2-1 16:40 来自手机 | 显示全部楼层
50系的4N工艺相对5N工艺密度提升太小,可以说基本没啥变化!因此在增加的晶体管有限的条件下,是选择AI计算性能还是光栅图形渲染性能,老黄选择了AI计算性能!因为增加的SM晶体管数量和AI性能是线性的,估计下一代60系到了3N/2N工艺,密度增加了,就能空出来增加光栅性能的空间了。
发表于 2025-2-1 16:50 来自手机 | 显示全部楼层
af_x_if 发表于 2025-2-1 13:55
靠FP4呗
这种刷分办法早晚原生支持1.58bit格式……

1.58bit量化的deepseek已经出来了😛
发表于 2025-2-1 17:03 | 显示全部楼层
TSMC 越来越贵,AI芯片又供不应求,哪有空专研显卡。
发表于 2025-2-1 17:03 | 显示全部楼层
chungexcy 发表于 2025-2-1 13:03
你说的毫无意义,当下版本的GB202-300、GB203-400、GB203-300就这表现。

你和他说这么多没意义,他肯定白皮书都没打开过。
发表于 2025-2-1 17:08 | 显示全部楼层
chungexcy 发表于 2025-2-1 16:29
同频确实打不过,显存都差一节。但tpu里面的2080ti其实也和3070差不多,那会儿也还没有新游戏。

主要还 ...

所以2080ti是980ti后最能超的n卡,250w确实喂不饱68sm的规模

当年老黄还是太保守了,780ti到2080ti一直都是250w
发表于 2025-2-1 17:42 来自手机 | 显示全部楼层
赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?

Blackwell的计算卡确实翻车更大
发表于 2025-2-1 17:53 来自手机 | 显示全部楼层
ghgfhghj 发表于 2025-2-1 16:05
3070理论性能根本打不过2080ti,只是老黄不给20系rebar导致2080ti新游戏不行

虚幻4老游戏3070基本打平2080Ti
发表于 2025-2-1 17:55 来自手机 | 显示全部楼层
ghgfhghj 发表于 2025-2-1 17:08
所以2080ti是980ti后最能超的n卡,250w确实喂不饱68sm的规模

当年老黄还是太保守了,780ti到2080ti一直 ...


20系花屏门,历历在目
1080Ti 超3%就极限了
发表于 2025-2-1 18:31 | 显示全部楼层
本帖最后由 tengyun 于 2025-2-1 18:35 编辑

B站有篇讲解BLACKWELL的架构 PPT的https://www.bilibili.com/video/B ... arch-card.all.click[/url]

50系其实 CUDA改动相比40以前改动很大。(其实就恢复到10系的配置)
打通tensor CORE和CUDA的渲染配置。 以后是要让tensor core 辅助参与渲染(这个就很战未来,当然也可能只是画大饼)
光追+了几个新的算法。

总结:就是这些改动 跑当下的游戏和以前的游戏,就只是吃规格膨胀的红利。  架构调整是有往战未来的改动。
发表于 2025-2-1 18:42 | 显示全部楼层
tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili [url]https:/ ...

其实不是简单的恢复,每个sm的in32和fp32数量是翻倍了的
发表于 2025-2-1 20:10 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-31 21:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。

CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12

楼主嘲讽性能提升低,没毛病,但结构变化这么大,压根就不是refresh。
发表于 2025-2-1 20:26 来自手机 | 显示全部楼层
4080和5080对比,核心提升不是非常大“提高了良品能力” 其次g6x和g7显存颗粒的提升,dlss算是美容升级吧
发表于 2025-2-1 20:31 | 显示全部楼层
一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12

楼主嘲讽性能提升低,没毛病 ...

compute capalibity主要是图像方面的更新,白皮书里面更新的都是跟图形相关的部分,可以看5个主要更新4个都是服务图形,还有1个不知道计算能不能用。

cuda里面主要的更新是新的vector api服务neural shading,这样都没升版本号,计算形态还没发生变化,或者目前neural shading还用不了,要等13。
发表于 2025-2-1 20:35 | 显示全部楼层
pdvc 发表于 2025-2-1 16:50
1.58bit量化的deepseek已经出来了😛

2.51bit的效果最好,越来越期待m4 ultra,单机可跑。1.58bit dynamic的效果也一般,但媲美q4,有原始版本80%的实力。
发表于 2025-2-1 20:40 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-1 04:31
compute capalibity主要是图像方面的更新,白皮书里面更新的都是跟图形相关的部分,可以看5个主要更新4个 ...

Compute capability 主要是计算方面的更新
发表于 2025-2-1 20:42 | 显示全部楼层
一日 发表于 2025-2-1 20:40
Compute capability 主要是计算方面的更新

你可以说下有哪些更新。他是硬件更新就会加这个版本号,不限定于用途。
发表于 2025-2-1 21:06 | 显示全部楼层
这帖子值得看
发表于 2025-2-1 21:22 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-1 20:35
2.51bit的效果最好,越来越期待m4 ultra,单机可跑。1.58bit dynamic的效果也一般,但媲美q4,有原始版本 ...

4090加128/192内存就能跑起来,爽歪歪😋
发表于 2025-2-1 22:45 | 显示全部楼层
我感觉以前的真refresh:gtx480→580,gtx680→780的提升都比4080到5080大
发表于 2025-2-1 22:49 | 显示全部楼层
写的好专业,总结一句话就是50系拉了一坨?
 楼主| 发表于 2025-2-2 00:09 来自手机 | 显示全部楼层
一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12

楼主嘲讽性能提升低,没毛病 ...

tenser core确实不是refresh,但tenser core以外的不是refresh是什么
 楼主| 发表于 2025-2-2 00:26 来自手机 | 显示全部楼层
tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili [url]https:/ ...

那个视频我后面看了,表示持保留态度。up主主要还是分析未来可能的神经网络渲染,至于是不是未来,得看游戏引擎和游戏开发者怎么选。

再说CUDA,它确实有改,但fp加到int/fp就是对游戏提升为0。老虎在20系发布加独立int单元的时候说,游戏里fp:int一般不会超过1:0.4,所以30/40系的2:1的fp:int完全不是瓶颈。

那位up提到了32个发射,但背后是32个fp+32个int。就算你说的是对的,那你为啥不设计成hopper的48发射?这才是真正能提升游戏对硬件使用率的,配合30/40的32fp+16int,来满足1:0.4的需求。

其次,ad103的晶体管和gb203是差不多的。明明就是改回10系那种CUDA,up主说加了单元我持怀疑态度。。。

PS,我想不出2025年了,谁还需要纯int32性能。。。提升一个几乎没用的东西。。。ai跑int也是用tenser。。。
 楼主| 发表于 2025-2-2 00:35 来自手机 | 显示全部楼层
ghgfhghj 发表于 2025-2-1 18:42
其实不是简单的恢复,每个sm的in32和fp32数量是翻倍了的

对比ad103和gb203,tenser core加了一堆功能,但总的晶体管数量没变。你看die shot,每个sm也差不多大。

我甚至认为假如Ada真的是32fp+16int独立单元,gb都应该改回来,至少改回30系的那种,太浪费晶体管了根本用不上。。。

所以我认为就是恢复10系的CUDA。至少官方可没这么说过有什么额外单元翻倍。
发表于 2025-2-2 00:39 | 显示全部楼层
我輩樹である 发表于 2025-2-1 04:42
你可以说下有哪些更新。他是硬件更新就会加这个版本号,不限定于用途。 ...

我不知道还没看,但如果从以前经验来讲,architectural change很小的话,就会出现ampere (3090 not A100) 8.6, Ada (4090) 8.9这样的现象。这次连int32/fp32都改了,不算小变化。只能说反映在市面上游戏上面的提升很小。
 楼主| 发表于 2025-2-2 00:40 来自手机 | 显示全部楼层
一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12

楼主嘲讽性能提升低,没毛病 ...

版本号不代表啥,开发进度而已。现在572.16的CUDA已经是12.8了,上一个版本是12.7,又不是新的12。
发表于 2025-2-2 00:42 | 显示全部楼层
chungexcy 发表于 2025-2-1 08:09
tenser core确实不是refresh,但tenser core以外的不是refresh是什么

我们定义不一样。你的refresh指的游戏提升。我说的不是refresh指的他构架的改变。
发表于 2025-2-2 00:46 | 显示全部楼层
chungexcy 发表于 2025-2-1 08:40
版本号不代表啥,开发进度而已。现在572.16的CUDA已经是12.8了,上一个版本是12.7,又不是新的12。 ...

这里说的不是cuda 的版本,是compute capability的版本。就是你编译cuda程序的时候需要指定的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 04:17 , Processed in 0.013129 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表