找回密码
 加入我们
搜索
      
查看: 14430|回复: 130

[显卡] 我来告诉你们为啥50系毫无提升,本质 Ada Refresh。。。

[复制链接]
发表于 2025-2-1 16:05 | 显示全部楼层
chungexcy 发表于 2025-2-1 14:34
4080 是 76 sm。

rdna4估计是做到了30系的真双倍FP。就像3070的46sm能打2080ti的68sm一样。

3070理论性能根本打不过2080ti,只是老黄不给20系rebar导致2080ti新游戏不行
发表于 2025-2-1 16:11 | 显示全部楼层
zhoubi 发表于 2025-2-1 14:21
blackwell拉稀有点像rdna3,都是来自架构的改进取得的收益太低。这次84sm的5080只比80sm的4080强10%多,计 ...

没有30%,3070和2080一样的46sm,一样的显存带宽,多了50%的rops也就强了26%(tpu数据),纯架构改进估计20%
发表于 2025-2-1 17:08 | 显示全部楼层
chungexcy 发表于 2025-2-1 16:29
同频确实打不过,显存都差一节。但tpu里面的2080ti其实也和3070差不多,那会儿也还没有新游戏。

主要还 ...

所以2080ti是980ti后最能超的n卡,250w确实喂不饱68sm的规模

当年老黄还是太保守了,780ti到2080ti一直都是250w
发表于 2025-2-1 18:42 | 显示全部楼层
tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili [url]https:/ ...

其实不是简单的恢复,每个sm的in32和fp32数量是翻倍了的
发表于 2025-2-2 00:53 | 显示全部楼层
chungexcy 发表于 2025-2-2 00:35
对比ad103和gb203,tenser core加了一堆功能,但总的晶体管数量没变。你看die shot,每个sm也差不多大。
...


我是指和10系比翻倍。。。和ada比就是没啥提升啊,打游戏需要那么多整数单元干嘛。。。
发表于 2025-2-22 16:54 | 显示全部楼层
本帖最后由 ghgfhghj 于 2025-2-22 17:09 编辑
平安是福 发表于 2025-2-22 14:15
rdna3的浮点单元其实没翻倍,做的其实是类似n卡20系的,一个simd32可以跑int32也可以跑fp32,但是总量没 ...


你一句话都没说对

20系是唯一一代int32和fp32全部分离的

30和40系是其中一半单元可以可以跑fp32或者int32,另一半只跑int32

除此以外的n卡全部都是所有单元既可以跑fp32或者int32,也就是说50系又改回了10系那样

而rdna3和安培是一样的,没能发挥出理论性能是其他原因


实际情况是20系才是特殊的,他的规模比要纸面看上去高,所以才造成30系看上去规模巨大

3060和1080ti核心一样的28sm 3584cuda,性能性能别说双倍了,一倍都难
发表于 2025-2-22 17:14 | 显示全部楼层
本帖最后由 ghgfhghj 于 2025-2-22 17:17 编辑
平安是福 发表于 2025-2-22 17:13
大哥你才没搞懂吧?你看看这张图先


这张图是在告诉你这个游戏fp32和int32的占比,和我说的毫无关系,而且图里的三张卡本来核心规模就差别巨大能比出什么?

从3060对比1080ti就可以知道30系没有所谓的fp32翻倍,更何况50系又改回去了

你还是根本没搞明白,除了图灵外,所有的n卡都是全部单元都可以跑fp32的
发表于 2025-2-22 17:20 | 显示全部楼层
本帖最后由 ghgfhghj 于 2025-2-22 17:25 编辑
平安是福 发表于 2025-2-22 17:18
英伟达官方的示例。100个指令里有38条整数,62条浮点,大概浮点指令和整数指令的比例是1比0.4,所以就算 ...


无论你怎么算除了20系都是一样的,因为他们都没有专门的整数单元,都需要从fp32里面减去对应数量,所以说20系才是特殊的

实际上30系的提升刚好是lz这个帖子要说的rops数量和gpc的关系,因为30系的rops不再绑定缓存和显存控制器,而是绑定gpc

3070是和2080ti一样的6gpc,但因为不绑定显存控制器了,所以rops反而比2080ti还要多8个
发表于 2025-2-22 17:30 | 显示全部楼层
平安是福 发表于 2025-2-22 17:28
20系开始整数和浮点是可以并行的。一组30系的cuda里有一组浮点,还有一组整数浮点的双功能单元,确实有2 ...


你是真能胡说,n卡对cuda数量的定义就是fp32单元的数量,一个cuda有2组fp32都说得出来
发表于 2025-2-22 17:36 | 显示全部楼层
平安是福 发表于 2025-2-22 17:35
那按你的定义是必须要一组int32+fp32才算一整个cuda咯,不算fp32是吗

最多能有多少fp32就是有多少cuda

1080ti和3060的cuda数量和fp32性能基本是一样的

说了一万次只有20系是特殊的,只有他单独做了int32单元
发表于 2025-2-22 17:38 | 显示全部楼层
平安是福 发表于 2025-2-22 17:37
那照你的定义解释解释为什么3070能超2080至少20%以上呢?

6gpc vs 4gpc 64rops vs 96rops 完全符合楼主的帖子的说法
发表于 2025-2-22 17:47 | 显示全部楼层
平安是福 发表于 2025-2-22 17:41
你先把我发的那图看懂吧。100条指令,1060跑了100个周期,1660ti跑了62个周期,3060ti花了不到62个周期 ...

3060ti规模本来就远远大于1060和1660ti
发表于 2025-2-22 17:48 | 显示全部楼层
本帖最后由 ghgfhghj 于 2025-2-22 17:49 编辑
平安是福 发表于 2025-2-22 17:40
照你的说法那3060ti性能应该和1070ti接近是不


3060ti是5gpc 1070ti是4gpc 加上gddr5 vs gddr6 差55%不是很合理吗,显存带宽都快翻倍了

2.jpg
发表于 2025-2-22 17:54 | 显示全部楼层
平安是福 发表于 2025-2-22 17:51
你不必这样耍赖的,你应该懂我指的是每个单元每周期能干的事。10系浮点和整数根本就是无法并行,各自只能 ...

你别脑补了,10系和50系就是一样的
发表于 2025-2-22 17:54 | 显示全部楼层
本帖最后由 ghgfhghj 于 2025-2-22 17:57 编辑
平安是福 发表于 2025-2-22 17:53
5gpc和4gpc的差距能到55% 是吧?你说显存,那5080显存带宽几乎比4080翻倍,性能怎么没看到涨呢 ...


那你告诉我3060为什么打不过1080ti,另外5080只比4080显存带宽高34%,远远没有翻倍,不要再脑补东西了
发表于 2025-2-23 17:26 | 显示全部楼层
chungexcy 发表于 2025-2-23 03:34
10系和50系可不是一样的,之前30/40单算fp32的单元只加了int32,没加fp16

fp16的性能就不一样。 ...

你说的对,但相比之下10系的fp16性能本来就是残疾的
发表于 2025-2-23 17:34 | 显示全部楼层
本帖最后由 ghgfhghj 于 2025-2-23 17:58 编辑
chungexcy 发表于 2025-2-23 03:43
1:0.6只是那一个游戏,更多的游戏这个比例在1:0.4以内。20系相对10系平均提升也就在20%多。
虽然浮点性能 ...


除了5090就没8tpc/gpc的显卡。。。我猜你想说的是8sm/gpc吧,20系开始一个tpc有两组sm

所以我说只有20系是特殊的,其他几代直接看浮点/cuda/sm数基本对应的起来

20系只看sm数量你会觉得他非常低能,但看cuda数量他又很高能
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-20 04:57 , Processed in 0.011568 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表