找回密码
 加入我们
搜索
      
查看: 11559|回复: 45

[显卡] B站UP关于5090和5090D的AI性能基准测试

[复制链接]
发表于 2025-1-24 23:04 | 显示全部楼层
本帖最后由 cloud 于 2025-1-24 23:07 编辑
lh4357 发表于 2025-1-24 22:48
其实这玩意你得考虑个事。

再把4090和4090D加进去,和5090/D对比,会不会也一样。 ...


66c30022-6298-4874-8f43-9c890a6cc2e2.png cfd52305-f649-45ce-a8cd-79055c0b7c67.png

我测了相同项目 可以参考下

目前ai开源的基本都跑不了 基本只能跑nv给的

173ce46f-9aca-4570-8d88-38096abe9f28.png

我自己把mlperf自己改跑了半个小时 性能和5090一样
发表于 2025-1-24 23:17 | 显示全部楼层
hsy-x 发表于 2025-1-24 23:13
是不是可以这么认为 跑推理基本没影响...限制的是学习算力

我尝试跑之前我跑色图的SD1.5 lora训练 跑不了 只能以后再说了
发表于 2025-1-24 23:18 | 显示全部楼层
neavo 发表于 2025-1-24 23:09
llama.cpp vllm 啥的能跑了吗,我看前几天就有支持 blackwell 的 PR 了


pr明显是nv安排的 我觉得和真实环境还是有差别

llama我昨天晚上下了  但没时间折腾了
发表于 2025-1-24 23:25 | 显示全部楼层
welsmann 发表于 2025-1-24 23:19
那么也就是说nv提供的测试benchmark。并不代表全场景下的所有的性能都是5090比4090快那么一大截。是否存 ...

comfy+flux fp8+nf4我自己配置的 40的对比数据我都提前跑了 但50根本跑不了

https://zhuanlan.zhihu.com/p/17058910503
发表于 2025-1-25 08:20 | 显示全部楼层
neavo 发表于 2025-1-24 23:51
你需要的话我可以帮你做个 llama.cpp 的 bench 的一键包,只要双击就可以运行出结果

说实话图上这些ai测 ...

好 方便的话 你做了我试试
发表于 2025-1-25 13:13 | 显示全部楼层
neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包

链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...

好 收到 我没会员 明年应该下的完
发表于 2025-2-3 10:45 | 显示全部楼层
neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包

链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...

5080今天跑了下 跑完发现窗口关了 没看见结果

我在bat后面加了个pause
发表于 2025-2-4 09:07 | 显示全部楼层
neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包

链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...

main: n_kv_max = 65536, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14

|    PP |     TG |    B |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |      T s |    S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
|   500 |   1500 |    1 |   2000 |   10.114 |    49.43 |   20.584 |    72.87 |   30.698 |    65.15 |
|   500 |   1500 |    2 |   4000 |    0.275 |  3632.59 |   23.171 |   129.47 |   23.447 |   170.60 |
|   500 |   1500 |    4 |   8000 |    0.565 |  3537.18 |   26.563 |   225.88 |   27.128 |   294.90 |
|   500 |   1500 |    8 |  16000 |    1.150 |  3478.43 |   32.223 |   372.40 |   33.373 |   479.43 |
|   500 |   1500 |   16 |  32000 |    2.397 |  3337.18 |   53.382 |   449.59 |   55.779 |   573.69 |
|   500 |   1500 |   32 |  64000 |    5.422 |  2950.76 |   73.411 |   653.85 |   78.834 |   811.84 |

llama_perf_context_print:        load time =   38099.04 ms
llama_perf_context_print: prompt eval time =  263440.83 ms / 124516 tokens (    2.12 ms per token,   472.65 tokens per second)
llama_perf_context_print:        eval time =   20580.05 ms /  1500 runs   (   13.72 ms per token,    72.89 tokens per second)
llama_perf_context_print:       total time =  287359.37 ms / 126016 tokens

main: n_kv_max = 98304, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14

|    PP |     TG |    B |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |      T s |    S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
|   500 |   2500 |    1 |   3000 |    0.170 |  2932.69 |   24.793 |   100.84 |   24.963 |   120.18 |
|   500 |   2500 |    2 |   6000 |    0.286 |  3494.29 |   38.868 |   128.64 |   39.154 |   153.24 |
|   500 |   2500 |    4 |  12000 |    0.567 |  3525.79 |   46.865 |   213.38 |   47.432 |   252.99 |
|   500 |   2500 |    8 |  24000 |    1.139 |  3510.81 |   58.651 |   341.00 |   59.791 |   401.40 |
|   500 |   2500 |   16 |  48000 |    2.415 |  3312.20 |   77.793 |   514.19 |   80.208 |   598.44 |
|   500 |   2500 |   32 |  96000 |    5.410 |  2957.52 |  145.522 |   549.74 |  150.932 |   636.05 |

llama_perf_context_print:        load time =    2742.79 ms
llama_perf_context_print: prompt eval time =  377652.87 ms / 186516 tokens (    2.02 ms per token,   493.88 tokens per second)
llama_perf_context_print:        eval time =   24784.80 ms /  2500 runs   (    9.91 ms per token,   100.87 tokens per second)
llama_perf_context_print:       total time =  405224.93 ms / 189016 tokens
发表于 2025-2-4 12:05 | 显示全部楼层
T.JOHN 发表于 2025-2-4 10:30
地雷云,你要是不部署TRT,9090都测不出性能阉割。

参考:这是我两年前写的如何跑katago,其实TRT其实不 ...

sd时代我跑过trt

之前50媒体沟通会演示机 comfy是配置好的trt 其实应该拷出来
发表于 2025-2-6 11:32 | 显示全部楼层
ypsdz 发表于 2025-2-6 11:28
兄弟那推理绘图能用吗?

最近更新comfyui+flux可以用 但nf4还不行
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-19 03:46 , Processed in 0.011469 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表