新显卡,GPU利用率高,功耗低,实际算力远小于标注的算力
本帖最后由 fordatou 于 2023-12-11 20:35 编辑买的是RTX6000ada,根据测评,吞吐量应该和4090接近,然而我跟云服务器4090对比,速度却基本是4090的一半...
这是什么原因呢?
我看你这CUDA占用,一上一下这个样子
你是dtype没写对吗,还是说数据没对好
在Windows跑4090不会有这个现象吗 YoshinoSakura 发表于 2023-12-11 20:52
我看你这CUDA占用,一上一下这个样子
你是dtype没写对吗,还是说数据没对好
在Windows跑4090不会有这个现象 ...
在云平台的4090运行GPU利用率也是这样,不过速度还是挺快的啊.... 楼主的ada多少钱 fordatou 发表于 2023-12-11 21:23
在云平台的4090运行GPU利用率也是这样,不过速度还是挺快的啊....
云平台确定是Windows是吧
我上面问的时候特意问
在Windows跑4090会不会有这个现象
不该啊,为啥呢 云平台是Ubuntu,我拿Ubuntu和WIN10都测试了,然而都这样 碌木 发表于 2023-12-11 21:52
楼主的ada多少钱
不到6W,同学帮忙带的 你把代码发上来看看。 本帖最后由 我輩樹である 于 2023-12-12 13:39 编辑
要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然后算矩阵乘法。
chat给的代码。
import torch
import time
# 确保 CUDA 可用
if not torch.cuda.is_available():
raise SystemError("CUDA is not available. Tensor Cores require a CUDA-enabled GPU.")
# 选择 CUDA 设备
device = torch.device("cuda")
# 显存中创建大型随机矩阵
size = 4096# 你可以调整这个大小
# cuda core
# a = torch.randn(size, size, device=device)
# b = torch.randn(size, size, device=device)
# tensor core
a = torch.randn(size, size, device=device).half()
b = torch.randn(size, size, device=device).half()
# 热身 GPU
for _ in range(10):
c = torch.matmul(a, b)
# 开始计时
start = time.time()
for _ in range(5000):
# 执行矩阵乘法
c = torch.matmul(a, b)
# 结束计时
elapsed_time = time.time() - start
print(f"Time taken for matrix multiplication: {elapsed_time} seconds") 我輩樹である 发表于 2023-12-12 13:37
要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然 ...
thanks,我试试 我輩樹である 发表于 2023-12-12 13:37
要计算GPU的性能,需要排除掉pcie switch和host device sync的过程,最佳的方式是直接在显存内生成矩阵,然 ...
我测试了,依旧差了很多 fordatou 发表于 2023-12-12 15:41
我测试了,依旧差了很多
写个简短的测试发出来看看? 本帖最后由 我輩樹である 于 2023-12-12 15:54 编辑
rtx6000ada跑的时候只有不到100w,我给的那段代码是可以跑满显卡功耗的。显卡屁股上的那个eps8pin接的是cpu的供电还是转接的?
开一下持久模式试试:
sudo nvidia-smi -pm 1 我感觉像是功耗限制问题?
可以跑CUDA自带的测试
页:
[1]