新显卡，GPU利用率高，功耗低，实际算力远小于标注的算力

fordatou 发表于 2023-12-11 20:31

本帖最后由 fordatou 于 2023-12-11 20:35 编辑

买的是RTX6000ada，根据测评，吞吐量应该和4090接近，然而我跟云服务器4090对比，速度却基本是4090的一半...

这是什么原因呢？

YoshinoSakura 发表于 2023-12-11 20:52

我看你这CUDA占用，一上一下这个样子
你是dtype没写对吗，还是说数据没对好
在Windows跑4090不会有这个现象吗

fordatou 发表于 2023-12-11 21:23

YoshinoSakura 发表于 2023-12-11 20:52
我看你这CUDA占用，一上一下这个样子
你是dtype没写对吗，还是说数据没对好
在Windows跑4090不会有这个现象 ...

在云平台的4090运行GPU利用率也是这样，不过速度还是挺快的啊....

碌木发表于 2023-12-11 21:52

楼主的ada多少钱

YoshinoSakura 发表于 2023-12-11 22:42

fordatou 发表于 2023-12-11 21:23
在云平台的4090运行GPU利用率也是这样，不过速度还是挺快的啊....

云平台确定是Windows是吧
我上面问的时候特意问
在Windows跑4090会不会有这个现象
不该啊，为啥呢

fordatou 发表于 2023-12-11 23:01

云平台是Ubuntu，我拿Ubuntu和WIN10都测试了，然而都这样

fordatou 发表于 2023-12-11 23:02

碌木发表于 2023-12-11 21:52
楼主的ada多少钱

不到6W，同学帮忙带的

我輩樹である 发表于 2023-12-12 13:24

你把代码发上来看看。

我輩樹である 发表于 2023-12-12 13:37

本帖最后由我輩樹である于 2023-12-12 13:39 编辑

要计算GPU的性能，需要排除掉pcie switch和host device sync的过程，最佳的方式是直接在显存内生成矩阵，然后算矩阵乘法。
chat给的代码。

import torch
import time

# 确保 CUDA 可用
if not torch.cuda.is_available():
raise SystemError("CUDA is not available. Tensor Cores require a CUDA-enabled GPU.")

# 选择 CUDA 设备
device = torch.device("cuda")

# 显存中创建大型随机矩阵
size = 4096# 你可以调整这个大小
# cuda core
# a = torch.randn(size, size, device=device)
# b = torch.randn(size, size, device=device)

# tensor core
a = torch.randn(size, size, device=device).half()
b = torch.randn(size, size, device=device).half()

# 热身 GPU
for _ in range(10):
c = torch.matmul(a, b)

# 开始计时
start = time.time()

for _ in range(5000):
# 执行矩阵乘法
c = torch.matmul(a, b)

# 结束计时
elapsed_time = time.time() - start

print(f"Time taken for matrix multiplication: {elapsed_time} seconds")

fordatou 发表于 2023-12-12 15:36

我輩樹である发表于 2023-12-12 13:37
要计算GPU的性能，需要排除掉pcie switch和host device sync的过程，最佳的方式是直接在显存内生成矩阵，然 ...

thanks，我试试

fordatou 发表于 2023-12-12 15:41

我輩樹である发表于 2023-12-12 13:37
要计算GPU的性能，需要排除掉pcie switch和host device sync的过程，最佳的方式是直接在显存内生成矩阵，然 ...

我测试了，依旧差了很多

zhuifeng88 发表于 2023-12-12 15:46

fordatou 发表于 2023-12-12 15:41
我测试了，依旧差了很多

写个简短的测试发出来看看?

我輩樹である 发表于 2023-12-12 15:50

本帖最后由我輩樹である于 2023-12-12 15:54 编辑

rtx6000ada跑的时候只有不到100w，我给的那段代码是可以跑满显卡功耗的。显卡屁股上的那个eps8pin接的是cpu的供电还是转接的？

开一下持久模式试试：
sudo nvidia-smi -pm 1

Illidan2004 发表于 2023-12-12 15:53

我感觉像是功耗限制问题？

可以跑CUDA自带的测试

页: [1]

Chiphell - 分享与交流用户体验's Archiver

新显卡，GPU利用率高，功耗低，实际算力远小于标注的算力