panzerlied
发表于 2022-9-20 11:20
l9uvdwc 发表于 2022-9-20 09:24
为啥?因为又创新高吗?PS5这最多算RDNA2初期方案吧
这是CHH天空兽/水母头的一个梗
Flanker
发表于 2022-9-20 11:31
本帖最后由 Flanker 于 2022-9-20 11:36 编辑
liyichao97 发表于 2022-9-20 10:50
哦!所以变回了固定比例,但是现在是2:1,并且cuda总数还是注水了但fp32现在没注水
不太熟悉gpu架构,之 ...
turing之前每个cuda core兼顾fp32和int32,fp32运算和int32运算不能同时执行
volta/turing分离成1:1的fp32core和int32 core,实现同时执行fp32+int32
ampere将前代的fp32 core不动,int32 core改回兼顾fp32和int32的设计,能同时执行fp32+int32或者fp32*2
新的adl根据hooper架构看,应该是2:1的fp32core和int32 core(int32 core又只负责int32了),能同时执行fp32*2+int32
你看int32 core好像改了又改回去,但整个架构的执行效率是一直上升的
liyichao97
发表于 2022-9-20 11:39
Flanker 发表于 2022-9-20 11:31
turing之前每个cuda core兼顾fp32和int32,fp32运算和int32运算不能同时执行
volta/turing分离成1:1的fp3 ...
感谢科普
所以是用了类似turing而非ampere的结构,但是设置了一个更合适的fp和int的比例
LambdaDelta
发表于 2022-9-20 11:41
zhoubi 发表于 2022-9-20 10:36
是老黄的安培
记混了,快把那个图发来笑笑
路西法大大
发表于 2022-9-20 11:53
本帖最后由 路西法大大 于 2022-9-20 11:55 编辑
gihu 发表于 2022-9-20 11:13
6900xt 浮点23T,和3080Ti 浮点34T的光栅性能比还略有优势。
7900xt按这个流处理器规模增长幅度和频率增 ...
RDNA3跟RDNA2不一样,3跟安培一样翻倍了FP32单元算是注水了。这种相当于一步从帕斯卡升级到安培的架构升级大约能保持每个标称流处理器的75%左右的效能所以其实1W2的RDNA3流处理器就相当9K多的RDNA2流处理器实际也是差不多是上代NAVI21的1.8倍!从这个规模增大的比例来说并不下于满血版的AD102,AMD抄的这个作业真的很合适既没有大幅增加晶体管又把光追效率提升到至少相当于安培的程度。
gihu
发表于 2022-9-20 12:20
路西法大大 发表于 2022-9-20 11:53
RDNA3跟RDNA2不一样,3跟安培一样翻倍了FP32单元算是注水了。这种相当于一步从帕斯卡升级到安培的架构升 ...
这个我还真不知道,RDNA3也玩安培架构的把戏?
af_x_if
发表于 2022-9-20 12:24
gihu 发表于 2022-9-20 12:20
这个我还真不知道,RDNA3也玩安培架构的把戏?
从“In fact, at the same node, an RDNA 3 WGP is slightly smaller in area than an RDNA 2 WGP, despite packing double the ALUs.”来看,很可能更过分。
起码安培的2倍FP没使得面积更省呀
l9uvdwc
发表于 2022-9-20 12:33
panzerlied 发表于 2022-9-20 11:20
这是CHH天空兽/水母头的一个梗
不介意的话 解释一下这个梗?[可爱]
a6057c
发表于 2022-9-20 12:35
路西法大大 发表于 2022-9-20 11:53
RDNA3跟RDNA2不一样,3跟安培一样翻倍了FP32单元算是注水了。这种相当于一步从帕斯卡升级到安培的架构升 ...
[偷笑] 跟注水还是有区别的。RDNA2向量单元并不能同时执行int+fp,RDNA3的fp+fp或者fp+int双发射执行相对于RDNA2是纯粹新增的算力,跟安培相对于图灵的fp32利用率下降不可直接类比。
henry46277
发表于 2022-9-20 12:36
zoo 发表于 2022-9-20 08:20
拿走它请带上一大把盐
意思是4Ghz 不是默认的?[吃惊]
或许3.5Ghz 比较实际[无奈]
zcjzcj11111
发表于 2022-9-20 12:39
路西法大大 发表于 2022-9-20 11:53
RDNA3跟RDNA2不一样,3跟安培一样翻倍了FP32单元算是注水了。这种相当于一步从帕斯卡升级到安培的架构升 ...
1.8乘以1.4等于2.5了吧,这次RDNA3是真的可以啊[震惊]
1.4是算频率的倍数的,假设ipc不变,虽然高频下ipc是退步的
henry46277
发表于 2022-9-20 12:59
zcjzcj11111 发表于 2022-9-20 12:39
1.8乘以1.4等于2.5了吧,这次RDNA3是真的可以啊
为什么是1.4?
zcjzcj11111
发表于 2022-9-20 13:03
henry46277 发表于 2022-9-20 12:59
为什么是1.4?
我是拿6900xt的2.4-2.5G,然后7900xt预测默认3.5G的频率,默认1.4倍而已
af_x_if
发表于 2022-9-20 13:18
RDNA3里应该是Navi32频率最高。
每代架构里最大规模的从来不是频率最高的,而Navi33是6nm,所以频率最高的自然是Navi32了,也就是7800?
fluttershy
发表于 2022-9-20 13:38
按老王的套路 开始不会灰烬那么多 后期50后戳可能
路西法大大
发表于 2022-9-20 14:36
Flanker 发表于 2022-9-20 11:31
turing之前每个cuda core兼顾fp32和int32,fp32运算和int32运算不能同时执行
volta/turing分离成1:1的fp3 ...
这叫渐进式挤牙膏大法,下一代int32就会又变回能执行fp32或者int32计算的通用计算单元了。
LambdaDelta
发表于 2022-9-20 15:35
a6057c 发表于 2022-9-20 12:35
跟注水还是有区别的。RDNA2向量单元并不能同时执行int+fp,RDNA3的fp+fp或者fp+int双发射执行相对 ...
wave32的双发射还是有很多限制的,真正高效的地方应该还是实现单周期wave64。
ilivy
发表于 2022-9-20 15:54
艹,大把cpu不如这个
ZYlove
发表于 2022-9-20 16:59
看了大伙的讨论皮衣把4090的缓存阉了肯定是用来打打N32了
完整版已经一败涂地了。
psps3
发表于 2022-9-20 17:44
ZYlove 发表于 2022-9-20 16:59
看了大伙的讨论皮衣把4090的缓存阉了肯定是用来打打N32了
完整版已经一败涂地了。 ...
谁一败涂地?
取个名字真是难
发表于 2022-9-20 18:06
风向怎么又变了[偷笑]
ZYlove
发表于 2022-9-20 18:13
psps3 发表于 2022-9-20 17:44
谁一败涂地?
大家公认英伟达FP32注水AMD基本不注水,现在两家FP32差不多,那显然AMD完胜,英伟达一败涂地呀
Wurenji
发表于 2022-9-20 18:34
本帖最后由 Wurenji 于 2022-9-20 18:37 编辑
henry46277 发表于 2022-9-20 12:36
意思是4Ghz 不是默认的?
或许3.5Ghz 比较实际
感觉应该是3662MHz,6144*4*3662刚好能在VLIW2状态下凑出90TFLOPS[偷笑]
然后4090就是8192*4*3015=98.8TFLOPS[偷笑]
henry46277
发表于 2022-9-20 20:17
Wurenji 发表于 2022-9-20 18:34
感觉应该是3662MHz,6144*4*3662刚好能在VLIW2状态下凑出90TFLOPS
然后4090就是8192*4*3015=98.8 ...
挺合理的 整数强迫症福音[偷笑]
henry46277
发表于 2022-9-20 20:21
zcjzcj11111 发表于 2022-9-20 13:03
我是拿6900xt的2.4-2.5G,然后7900xt预测默认3.5G的频率,默认1.4倍而已
了解但感觉还不够打4090ti 阿 希望50后餟能扳回一城
henry46277
发表于 2022-9-20 20:24
LambdaDelta 发表于 2022-9-20 15:35
wave32的双发射还是有很多限制的,真正高效的地方应该还是实现单周期wave64。 ...
但具体什么情况能用上wave64[困惑]
zoo
发表于 2022-9-20 20:41
henry46277 发表于 2022-9-20 20:24
但具体什么情况能用上wave64
navi本身wave32和64就可以切换,在早一点vega都是wave64,执行粒度的粗细而已,没什么好坏之分
Wurenji
发表于 2022-9-20 20:46
henry46277 发表于 2022-9-20 20:21
了解但感觉还不够打4090ti 阿 希望50后餟能扳回一城
Greymon说Navi31 TSE 1.9w,然后4090 2w
但我觉得Navi31要跑1.9w也应该是灰烬[困惑]反倒AD102还有上升的空间[恶魔]
chp1979
发表于 2022-9-20 20:49
Wurenji 发表于 2022-9-20 20:46
Greymon说Navi31 TSE 1.9w,然后4090 2w
但我觉得Navi31要跑1.9w也应该是灰烬反倒AD102还有上升的 ...
效率那么高,1.9w怎么会是灰烬呢
henry46277
发表于 2022-9-20 21:01
zoo 发表于 2022-9-20 20:41
navi本身wave32和64就可以切换,在早一点vega都是wave64,执行粒度的粗细而已,没什么好坏之分 ...
原来可以切换阿[吃惊]
所以是靠驱动来切换的?