我来告诉你们为啥50系毫无提升，本质 Ada Refresh。。。

fdhfdhd · 发表于 2025-2-1 16:34

提示: 作者被禁止或删除内容自动屏蔽

守护灬纯洁之心 · 发表于 2025-2-1 16:35

PPXG 发表于 2025-2-1 14:43
ada refresh不至于，单纯refresh就不需要搞这么多为了AI服务的硬件变动了，以及和微软联合搞的神经网络渲染 ...

但是这些改进不一定是硬件层面的，40系只是没吃到红利……

守护灬纯洁之心 · 发表于 2025-2-1 16:38

zhoubi 发表于 2025-2-1 14:21
blackwell拉稀有点像rdna3，都是来自架构的改进取得的收益太低。这次84sm的5080只比80sm的4080强10%多，计 ...

RDNA3的FP32是dual issues带来的，仅仅只是理论FP32翻倍，FP16压根没有变化
安培的FP32应该是真塞了一倍的FP32单元进去的，所以才有了提升。但这个代价就是晶体管也暴涨，AMD小家子气显然不愿意干这种买卖（多了一倍的FP32晶体管，性能才多30%，如果等比例扩大其他单元的话肯定不止30%）

yy323818 · 发表于 2025-2-1 16:40

50系的4N工艺相对5N工艺密度提升太小，可以说基本没啥变化！因此在增加的晶体管有限的条件下，是选择AI计算性能还是光栅图形渲染性能，老黄选择了AI计算性能！因为增加的SM晶体管数量和AI性能是线性的，估计下一代60系到了3N/2N工艺，密度增加了，就能空出来增加光栅性能的空间了。

pdvc · 发表于 2025-2-1 16:50

af_x_if 发表于 2025-2-1 13:55
靠FP4呗
这种刷分办法早晚原生支持1.58bit格式……

1.58bit量化的deepseek已经出来了😛

wuxi001 · 发表于 2025-2-1 17:03

TSMC 越来越贵，AI芯片又供不应求，哪有空专研显卡。

yylwld · 发表于 2025-2-1 17:03

chungexcy 发表于 2025-2-1 13:03
你说的毫无意义，当下版本的GB202-300、GB203-400、GB203-300就这表现。

你和他说这么多没意义，他肯定白皮书都没打开过。

ghgfhghj · 发表于 2025-2-1 17:08

chungexcy 发表于 2025-2-1 16:29
同频确实打不过，显存都差一节。但tpu里面的2080ti其实也和3070差不多，那会儿也还没有新游戏。

主要还 ...

所以2080ti是980ti后最能超的n卡，250w确实喂不饱68sm的规模

当年老黄还是太保守了，780ti到2080ti一直都是250w

8xwob3ko · 发表于 2025-2-1 17:42

赫敏发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡，计算卡岂不是翻车更狠？

Blackwell的计算卡确实翻车更大

lgblee · 发表于 2025-2-1 17:53

ghgfhghj 发表于 2025-2-1 16:05
3070理论性能根本打不过2080ti，只是老黄不给20系rebar导致2080ti新游戏不行

虚幻4老游戏3070基本打平2080Ti

lgblee · 发表于 2025-2-1 17:55

ghgfhghj 发表于 2025-2-1 17:08
所以2080ti是980ti后最能超的n卡，250w确实喂不饱68sm的规模

当年老黄还是太保守了，780ti到2080ti一直 ...

20系花屏门，历历在目
1080Ti 超3%就极限了

tengyun · 发表于 2025-2-1 18:31

本帖最后由 tengyun 于 2025-2-1 18:35 编辑

B站有篇讲解BLACKWELL的架构 PPT的https://www.bilibili.com/video/B ... arch-card.all.click[/url]

50系其实 CUDA改动相比40以前改动很大。（其实就恢复到10系的配置）
打通tensor CORE和CUDA的渲染配置。以后是要让tensor core 辅助参与渲染（这个就很战未来，当然也可能只是画大饼）
光追+了几个新的算法。

总结：就是这些改动跑当下的游戏和以前的游戏，就只是吃规格膨胀的红利。架构调整是有往战未来的改动。

ghgfhghj · 发表于 2025-2-1 18:42

tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili [url]https:/ ...

其实不是简单的恢复，每个sm的in32和fp32数量是翻倍了的

一日 · 发表于 2025-2-1 20:10

我輩樹である发表于 2025-1-31 21:05
cuda大版本也没升，pascal是8，turing是10，ampere是11，ada是12，blackwell还是12。

CUDA和这个没关系。Compute Capability，3090是8.6，4090是8.9，5090是12

楼主嘲讽性能提升低，没毛病，但结构变化这么大，压根就不是refresh。

13655640213 · 发表于 2025-2-1 20:26

4080和5080对比，核心提升不是非常大“提高了良品能力” 其次g6x和g7显存颗粒的提升，dlss算是美容升级吧

我輩樹である · 发表于 2025-2-1 20:31

一日发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability，3090是8.6，4090是8.9，5090是12

楼主嘲讽性能提升低，没毛病 ...

compute capalibity主要是图像方面的更新，白皮书里面更新的都是跟图形相关的部分，可以看5个主要更新4个都是服务图形，还有1个不知道计算能不能用。

cuda里面主要的更新是新的vector api服务neural shading，这样都没升版本号，计算形态还没发生变化，或者目前neural shading还用不了，要等13。

我輩樹である · 发表于 2025-2-1 20:35

pdvc 发表于 2025-2-1 16:50
1.58bit量化的deepseek已经出来了😛

2.51bit的效果最好，越来越期待m4 ultra，单机可跑。1.58bit dynamic的效果也一般，但媲美q4，有原始版本80%的实力。

一日 · 发表于 2025-2-1 20:40

我輩樹である发表于 2025-2-1 04:31
compute capalibity主要是图像方面的更新，白皮书里面更新的都是跟图形相关的部分，可以看5个主要更新4个 ...

Compute capability 主要是计算方面的更新

我輩樹である · 发表于 2025-2-1 20:42

一日发表于 2025-2-1 20:40
Compute capability 主要是计算方面的更新

你可以说下有哪些更新。他是硬件更新就会加这个版本号，不限定于用途。

ssyypdc · 发表于 2025-2-1 21:06

这帖子值得看

pdvc · 发表于 2025-2-1 21:22

我輩樹である发表于 2025-2-1 20:35
2.51bit的效果最好，越来越期待m4 ultra，单机可跑。1.58bit dynamic的效果也一般，但媲美q4，有原始版本 ...

4090加128/192内存就能跑起来，爽歪歪😋

nunnally · 发表于 2025-2-1 22:45

我感觉以前的真refresh：gtx480→580，gtx680→780的提升都比4080到5080大

Oxyer · 发表于 2025-2-1 22:49

写的好专业，总结一句话就是50系拉了一坨？

chungexcy · 发表于 2025-2-2 00:09

一日发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability，3090是8.6，4090是8.9，5090是12

楼主嘲讽性能提升低，没毛病 ...

tenser core确实不是refresh，但tenser core以外的不是refresh是什么

chungexcy · 发表于 2025-2-2 00:26

tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili [url]https:/ ...

那个视频我后面看了，表示持保留态度。up主主要还是分析未来可能的神经网络渲染，至于是不是未来，得看游戏引擎和游戏开发者怎么选。

再说CUDA，它确实有改，但fp加到int/fp就是对游戏提升为0。老虎在20系发布加独立int单元的时候说，游戏里fp：int一般不会超过1：0.4，所以30/40系的2：1的fp：int完全不是瓶颈。

那位up提到了32个发射，但背后是32个fp+32个int。就算你说的是对的，那你为啥不设计成hopper的48发射？这才是真正能提升游戏对硬件使用率的，配合30/40的32fp+16int，来满足1：0.4的需求。

其次，ad103的晶体管和gb203是差不多的。明明就是改回10系那种CUDA，up主说加了单元我持怀疑态度。。。

PS，我想不出2025年了，谁还需要纯int32性能。。。提升一个几乎没用的东西。。。ai跑int也是用tenser。。。

chungexcy · 发表于 2025-2-2 00:35

ghgfhghj 发表于 2025-2-1 18:42
其实不是简单的恢复，每个sm的in32和fp32数量是翻倍了的

对比ad103和gb203，tenser core加了一堆功能，但总的晶体管数量没变。你看die shot，每个sm也差不多大。

我甚至认为假如Ada真的是32fp+16int独立单元，gb都应该改回来，至少改回30系的那种，太浪费晶体管了根本用不上。。。

所以我认为就是恢复10系的CUDA。至少官方可没这么说过有什么额外单元翻倍。

一日 · 发表于 2025-2-2 00:39

我輩樹である发表于 2025-2-1 04:42
你可以说下有哪些更新。他是硬件更新就会加这个版本号，不限定于用途。 ...

我不知道还没看，但如果从以前经验来讲，architectural change很小的话，就会出现ampere (3090 not A100) 8.6, Ada (4090) 8.9这样的现象。这次连int32/fp32都改了，不算小变化。只能说反映在市面上游戏上面的提升很小。

chungexcy · 发表于 2025-2-2 00:40

一日发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability，3090是8.6，4090是8.9，5090是12

楼主嘲讽性能提升低，没毛病 ...

版本号不代表啥，开发进度而已。现在572.16的CUDA已经是12.8了，上一个版本是12.7，又不是新的12。

一日 · 发表于 2025-2-2 00:42

chungexcy 发表于 2025-2-1 08:09
tenser core确实不是refresh，但tenser core以外的不是refresh是什么

我们定义不一样。你的refresh指的游戏提升。我说的不是refresh指的他构架的改变。

一日 · 发表于 2025-2-2 00:46

chungexcy 发表于 2025-2-1 08:40
版本号不代表啥，开发进度而已。现在572.16的CUDA已经是12.8了，上一个版本是12.7，又不是新的12。 ...

这里说的不是cuda 的版本，是compute capability的版本。就是你编译cuda程序的时候需要指定的

账号		自动登录	找回密码
密码			加入我们

fdhfdhd fdhfdhd 当前离线积分 2796	发表于 2025-2-1 16:34 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
fdhfdhd fdhfdhd 当前离线积分 2796
	回复举报

[显卡] 我来告诉你们为啥50系毫无提升，本质 Ada Refresh。。。

浏览过的版块