fordatou 发表于 2023-12-11 20:31

新显卡,GPU利用率高,功耗低,实际算力远小于标注的算力

本帖最后由 fordatou 于 2023-12-11 20:35 编辑

买的是RTX6000ada,根据测评,吞吐量应该和4090接近,然而我跟云服务器4090对比,速度却基本是4090的一半...

这是什么原因呢?

YoshinoSakura 发表于 2023-12-11 20:52

我看你这CUDA占用,一上一下这个样子
你是dtype没写对吗,还是说数据没对好
在Windows跑4090不会有这个现象吗

fordatou 发表于 2023-12-11 21:23

YoshinoSakura 发表于 2023-12-11 20:52
我看你这CUDA占用,一上一下这个样子
你是dtype没写对吗,还是说数据没对好
在Windows跑4090不会有这个现象 ...

在云平台的4090运行GPU利用率也是这样,不过速度还是挺快的啊....

碌木 发表于 2023-12-11 21:52

楼主的ada多少钱

YoshinoSakura 发表于 2023-12-11 22:42

fordatou 发表于 2023-12-11 21:23
在云平台的4090运行GPU利用率也是这样,不过速度还是挺快的啊....

云平台确定是Windows是吧
我上面问的时候特意问
在Windows跑4090会不会有这个现象
不该啊,为啥呢

fordatou 发表于 2023-12-11 23:01

云平台是Ubuntu,我拿Ubuntu和WIN10都测试了,然而都这样

fordatou 发表于 2023-12-11 23:02

碌木 发表于 2023-12-11 21:52
楼主的ada多少钱

不到6W,同学帮忙带的

我輩樹である 发表于 2023-12-12 13:24

你把代码发上来看看。

我輩樹である 发表于 2023-12-12 13:37

本帖最后由 我輩樹である 于 2023-12-12 13:39 编辑

要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然后算矩阵乘法。
chat给的代码。

import torch
import time

# 确保 CUDA 可用
if not torch.cuda.is_available():
    raise SystemError("CUDA is not available. Tensor Cores require a CUDA-enabled GPU.")

# 选择 CUDA 设备
device = torch.device("cuda")

# 显存中创建大型随机矩阵
size = 4096# 你可以调整这个大小
# cuda core
# a = torch.randn(size, size, device=device)
# b = torch.randn(size, size, device=device)

# tensor core
a = torch.randn(size, size, device=device).half()
b = torch.randn(size, size, device=device).half()

# 热身 GPU
for _ in range(10):
    c = torch.matmul(a, b)

# 开始计时
start = time.time()

for _ in range(5000):
    # 执行矩阵乘法
    c = torch.matmul(a, b)

# 结束计时
elapsed_time = time.time() - start

print(f"Time taken for matrix multiplication: {elapsed_time} seconds")

fordatou 发表于 2023-12-12 15:36

我輩樹である 发表于 2023-12-12 13:37
要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然 ...

thanks,我试试

fordatou 发表于 2023-12-12 15:41

我輩樹である 发表于 2023-12-12 13:37
要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然 ...

我测试了,依旧差了很多

zhuifeng88 发表于 2023-12-12 15:46

fordatou 发表于 2023-12-12 15:41
我测试了,依旧差了很多

写个简短的测试发出来看看?

我輩樹である 发表于 2023-12-12 15:50

本帖最后由 我輩樹である 于 2023-12-12 15:54 编辑

rtx6000ada跑的时候只有不到100w,我给的那段代码是可以跑满显卡功耗的。显卡屁股上的那个eps8pin接的是cpu的供电还是转接的?

开一下持久模式试试:
sudo nvidia-smi -pm 1

Illidan2004 发表于 2023-12-12 15:53

我感觉像是功耗限制问题?

可以跑CUDA自带的测试
页: [1]
查看完整版本: 新显卡,GPU利用率高,功耗低,实际算力远小于标注的算力