玩游戏时的tensor core使用

dange66 · 发表于 2023-12-1 00:03

本帖最后由 dange66 于 2023-12-1 00:03 编辑

最近看到说老黄为了绕过封锁可以阉割占据大部分算力的tensor core而且不影响游戏玩家的体验, 贴吧的柯基和ati群的求秒帝都
说过玩游戏时的DLSS不会使用太多tensor core算力, 好奇之心就下了Nvidia官方工具nsight测了下4070ti几个游戏的表现,目前看下来
平均只有1%不到的使用(但瞬间最大会有40-70%不等的peak utilization,这一点跟国外论坛的数据好像不一样).

图中指数含义:
SM Issue: SM instructions issue rate. Each SM can issue 4 instructions per cycle(1instruction/SMSP/cycle).
Tensor Active: Cycles the tensor pipe is active.

仙剑7: 4k, DLSS质量,光追中,雪山入口处

巫师3: 4k, DLSS质量,画面全高, 光追全开,帧生成开启, 百果园野外.

inSeek · 发表于 2023-12-1 00:16

阉割TC问题不大，主要是价格能不能明显降下来。如果还是和原版4090一样，那就.........

equaliser · 发表于 2023-12-1 00:19

inSeek 发表于 2023-12-1 00:16
阉割TC问题不大，主要是价格能不能明显降下来。如果还是和原版4090一样，那就......... ...

问题是4090D怕不是CUDA都要被砍一刀
英伟达对目前国内的4090心理定价应该是16999左右
以这个为锚点为4090D定价才是真的

dange66 · 发表于 2023-12-1 00:24

inSeek 发表于 2023-12-1 00:16
阉割TC问题不大，主要是价格能不能明显降下来。如果还是和原版4090一样，那就......... ...

应该没法物理阉割吧,那样成本感觉会绷不住. 软件屏蔽回头就被绕过的话皮衣又没法向gov交代.

Flanker · 发表于 2023-12-1 00:35

dange66 发表于 2023-12-1 00:24
应该没法物理阉割吧,那样成本感觉会绷不住. 软件屏蔽回头就被绕过的话皮衣又没法向gov交代.

既然h20能做到fp32性能几乎不变而fp64和tc性能大降，那4090也是可以一样的

让我静一会 · 发表于 2023-12-1 00:46

dange66 发表于 2023-12-1 00:24
应该没法物理阉割吧,那样成本感觉会绷不住. 软件屏蔽回头就被绕过的话皮衣又没法向gov交代.

皮衣刀客：别小看的刀法

碌木 · 发表于 2023-12-1 00:50

专门为这种销量不多的高端卡物理阉割出一个新核心怕是回不了本（台积电开模流片的流程都要跑一遍，价格不低）吧？

YoshinoSakura · 发表于 2023-12-1 03:21

皮衣刀客：我直接vbios给你安排了

Epilogue · 发表于 2023-12-1 03:28

你测的这两个游戏感觉不具有代表先，建议测下赛博朋克2077

邪恶的光B · 发表于 2023-12-1 06:11

之前老黄家的财报不是一直都有人贴过来么。一个生命周期走了一半的型号，而且带来的利润又没多少，为了这个再改硬件设计估计可能性不大，学intel那种屏蔽掉给你就是了。特供版不然没那么快出来。

05q4 · 发表于 2023-12-1 08:37

都说特供版，有没有可能这就是4080ti，本来就在规划之中，不然80-90这么大的性能差距怎么补
不过原本估计只是设计出来看amd动作，本来拉胯没必要放的弄个80super糊弄下玩家就算，现在禁令刚好顺水推舟弄出来

lalabangbang · 发表于 2023-12-1 08:47

inSeek 发表于 2023-12-1 00:16
阉割TC问题不大，主要是价格能不能明显降下来。如果还是和原版4090一样，那就......... ...

一针见血，关键是价格，我觉得如果比原来4090正常价低一些，9500-11000的话，还是可以的

惊天大萝卜 · 发表于 2023-12-1 08:51

你的意思是，占用核心面积这么多的Tensor Core在玩游戏的时候绝大多数时间都在摸鱼？

jiangjiejjjjjj · 发表于 2023-12-1 09:44

当年的电热丝，现在的ai加速器

不愧是老黄

林间有新绿 · 发表于 2023-12-1 10:00

其实4090 D不D无所谓就算亏钱对nv来说也没啥影响 5090-D可以直接生产的话就很好了，首发必冲

garfield0018 · 发表于 2023-12-1 21:21

用2077加上dlss光重建会占用到多少

ZBKX · 发表于 2023-12-1 21:25

请问一下楼主用的是什么版本的DLSS？

dange66 · 发表于 2023-12-1 21:32

ZBKX 发表于 2023-12-1 21:25
请问一下楼主用的是什么版本的DLSS？

nvngx_dlss.dll版本是3.1.1,dlssg版本3.1.13

dange66 · 发表于 2023-12-1 21:33

garfield0018 发表于 2023-12-1 21:21
用2077加上dlss光重建会占用到多少

没有2077, 不太好这类游戏

我輩樹である · 发表于 2023-12-1 22:48

本帖最后由我輩樹である于 2023-12-2 00:02 编辑

2077的我帮楼主测了。
4090FE，4K，画面选项除了动态模糊和垂直同步全部拉满，包括路径追踪。
第一张没开帧生成，第二张开了，居然比没开对tensor的占用还低。
我看不懂这个tensor active。仅供参考。

场景就是自带benchmark。

作为对比，跑了一个相对density的AI程序。

勉强达到50%，我觉得已经很高了，因为还要等数据sync。
占用是一条直线是因为采样的原因，并不是占用是平稳的。

下面是把采样率提高到200K。
profiling捕捉到了更多细节，所以对误差棒做了修正。
第二张图是对图表放大后的结果。可以看到tensor core空闲的时候都是在做pcie和dram的交换。

g7muik · 发表于 2023-12-1 23:08

看来 5090D 有戏了，就这路子还是能买到的，哎

dange66 · 发表于 2023-12-1 23:29

我輩樹である发表于 2023-12-1 22:48
2077的我帮楼主测了。
4090FE，4K，画面选项除了动态模糊和垂直同步全部拉满，包括路径追踪。
第一张没开帧 ...

我也不是专业的图形学编程工作者,按nvidia开发者论坛官方人员的说法是这样的:

Cycles Active
Pipeline utilization based on the number of cycles the pipeline was active. This takes the rates of different instructions executing on the pipeline into account. For an instruction requiring 4 cycles to complete execution, the counter is increased by 1 for 4 cycles.

Inst Executed
Pipeline utilization based on the number of executed instructions. This does not account for any variation in instruction latencies for this pipeline. For an instruction requiring 4 cycles to complete execution, the counter is increased by 1 only.

As you can maybe see from the descriptions, inst_executed only looks at how many instructions are issued, but not at their latencies. If the instruction has non-negligible latency, the metric will never reach 100%. Cycles active on the other hand takes this into account. Seeing both side-by-side is ideal, as it indicates not only how much the pipeline is utilized, but also if it’s utilized by many short and few long instructions.

我猜大概流程可能是这样: 游戏引擎渲染管线加入DLSS post-processing, DLSS实现逻辑在nvngx_dlss.dll下, 真正游戏运行时执行到后处理时dll中的代码经CPU发送到GPU前端解码后指令发送到后端SM scheduler(nv的架构有warp schedule但我不太懂), 这里的tensor active为4%应该意思就是只有4%的时钟周期里tensor core流水线是活跃的,其余都在空转, 至少这个值应该是跟tensor core利用率极度正相关.

nv官方链接: https://forums.developer.nvidia. ... tilization/214795/3

我輩樹である · 发表于 2023-12-1 23:52

本帖最后由我輩樹である于 2023-12-2 00:04 编辑

dange66 发表于 2023-12-1 23:29
我也不是专业的图形学编程工作者,按nvidia开发者论坛官方人员的说法是这样的:

想了想，其实这些测试结果很难说明阉割tensor core是否会对游戏造成影响。

抛开帧生成的部分，升采样的部分本来就只在后处理里调用tensor core。所以它表现出来的占用肯定是很少的。

问题是，当需要调用你的时候，你的tensor core不够的话，就会导致后处理时间变长（或者效果变差）。

dange66 · 发表于 2023-12-2 00:11

我輩樹である发表于 2023-12-1 23:52
想了想，其实这些测试结果很难说明阉割tensor core是否会对游戏造成影响。

抛开帧生成的部分，升采样的 ...

正解，尤其是在指令burst的时候，像图里maxmium达到了70%的那个时间点。但这其实也要看容忍度，如果tensor core处理能力不够导致耗时从20μs增加到40μs，对于120fps/9.6ms帧生成时间的影响有多大不太好说。

inSeek · 发表于 2023-12-2 00:11

equaliser 发表于 2023-12-1 00:19
问题是4090D怕不是CUDA都要被砍一刀
英伟达对目前国内的4090心理定价应该是16999左右
以这个为锚点为4090 ...

但用户也不笨，知道这个东西是减量不减价。
除非饥渴难耐，不然谁去当这个大蠢驴- -

tim6252 · 发表于 2023-12-2 00:58

inSeek 发表于 2023-12-2 00:11
但用户也不笨，知道这个东西是减量不减价。
除非饥渴难耐，不然谁去当这个大蠢驴- - ...

不好说哦来这里关注这个问题的不好糊弄但是那些平时上班回来就看个自媒体的很容易被带着任务的UP给忽悠了

小心夹脚 · 发表于 2023-12-2 01:10

提示: 作者被禁止或删除内容自动屏蔽

中里毅 · 发表于 2023-12-2 06:56

如果DLSS大量使用Tensor Core，那么阉割Tensor会导致DLSS性能受限，会出现“4090D”（此处指代CN特供旗舰卡）在特定情况下开DLSS之后不如4080，这对于一张“旗舰卡”来说是不可接受的。

如果DLSS几乎不使用Tensor Core，那么阉割Tensor确实不会影响DLSS性能。但这会导致NV从20系开始针对游戏卡必须带Tensor Core去跑DLSS的宣传话术变为强买强卖。

所以，性能倒车或者强买强卖，NV必须选一个。

kmdkai · 发表于 2023-12-2 10:12

问题是除了要阉割tensor core，还要阉割FP32。因为4090被禁令主要原因是FP32算力太高了。
所以肯定不会从4090核心直接屏蔽。至于怎么做只能出来后看核心架构图才知道，大概率是4080或4080S的核心屏蔽和阉割而来。

LambdaDelta · 发表于 2023-12-2 10:58

我輩樹である发表于 2023-12-1 23:52
想了想，其实这些测试结果很难说明阉割tensor core是否会对游戏造成影响。

抛开帧生成的部分，升采样的 ...

随便哪种视角都没意义，因为整体占比确实太低。
当然如果你一个几千帧的游戏要开DLSS，那当我没说。

账号		自动登录	找回密码
密码			加入我们

小心夹脚小心夹脚当前离线积分 1395	发表于 2023-12-2 01:10 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
小心夹脚小心夹脚当前离线积分 1395
	回复举报

[显卡] 玩游戏时的tensor core使用

浏览过的版块