万能的CHH大佬，有空测试一下5090的算力

kkrace 发表于 2025-8-6 14:26

首先，先感谢一下，愿意跑一下测试的大佬。

都说5090D阉割了FP4 的算力，然以前模型没有针对FP4的量化，训练也用不上FP4，感觉可能没啥影响，但最近** 开源了他们** OSS 模型， MXFP4 量化。所以就想请有5090 没弟的大佬实际跑一下模型看看速度咱样, 有没有传说中的1.7倍。

具体操作也非常简单
1. 下载最新 Ollama
2. 命令行执行 ollama run **-oss:20b --verbose
3. 随便问个问题，就能看到模型推理的速度XXX tokens/seconds

同是可以设置400W， 575w， 600W 不同的功耗强下的性能表现。

非人寄 发表于 2025-8-6 14:31

没有5090，但是看到个图https://files.catbox.moe/2gsjkh.png

秦南瓜 发表于 2025-8-6 14:32

正好手里90和90d都有。明天可以测一下。

awpak78 发表于 2025-8-6 14:56

ollama搞出来的都是走FP16的GGUF量化，有啥好测的

KimmyGLM 发表于 2025-8-6 15:08

awpak78 发表于 2025-8-6 14:56
ollama搞出来的都是走FP16的GGUF量化，有啥好测的

现在流行的格式不就是gguf么？AWQ 的都没它多

mfkaibj 发表于 2025-8-6 15:19

PolyMorph 发表于 2025-8-6 15:30

6090d只有6090 50%多算力

awpak78 发表于 2025-8-6 15:55

KimmyGLM 发表于 2025-8-6 15:08
现在流行的格式不就是gguf么？AWQ 的都没它多

流行≠好

这玩意流行单纯因为llama.cpp套皮的各种一键AI在什么硬件平台上都能强行跑
量化质量和运行速度都算垃圾的

karaki 发表于 2025-8-6 16:05

问题：蒙提霍尔问题（三门问题）：
一个电视节目中有三扇门，其中一扇后面有一辆汽车，另外两扇后面是山羊。参赛者首先选择一扇门，然后主持人会打开另一扇有山羊的门，并询问参赛者是否要改变最初的选择。
结果：

硬件：9950x3d+5090

KimmyGLM 发表于 2025-8-6 16:05

awpak78 发表于 2025-8-6 15:55
流行≠好

这玩意流行单纯因为llama.cpp套皮的各种一键AI在什么硬件平台上都能强行跑

你推荐个既有量化速度，又能兼顾质量的格式？

lh4357 发表于 2025-8-6 16:12

karaki 发表于 2025-8-6 16:05
问题：蒙提霍尔问题（三门问题）：
一个电视节目中有三扇门，其中一扇后面有一辆汽车，另外两扇后面是山羊 ...

5090D，同样的问题。

total duration:    11.2288232s
load duration:    35.024ms
prompt eval count: 133 token(s)
prompt eval duration: 412.6709ms
prompt eval rate: 322.29 tokens/s
eval count:       1557 token(s)
eval duration:    10.7801275s
eval rate:          144.43 tokens/s

神性发表于 2025-8-6 16:25

KimmyGLM 发表于 2025-8-6 15:08
现在流行的格式不就是gguf么？AWQ 的都没它多

那是为了方便老显卡，还有就是量化到极小给显存非常低用的。真要说效果，狗看了都摇头。

猪圈发表于 2025-8-6 16:29

到底弱多少呢？我也有哥5090D

awpak78 发表于 2025-8-6 16:30

KimmyGLM 发表于 2025-8-6 16:05
你推荐个既有量化速度，又能兼顾质量的格式？

只支持FP16的用AWQ，40系用FP8或者AWQ，50系直接FP4

猪圈发表于 2025-8-6 16:33

5090d/5090/4090d/4090这几个相差到底有多少呢

kkrace 发表于 2025-8-6 16:37

awpak78 发表于 2025-8-6 14:56
ollama搞出来的都是走FP16的GGUF量化，有啥好测的

然而并不是。新版的OLLAMA 为了支持**的这个开源模型。支持了MXFP4，所以想看看。弟和不弟。。在这方面有没有阉割。

kkrace 发表于 2025-8-6 16:42

karaki 发表于 2025-8-6 16:05
问题：蒙提霍尔问题（三门问题）：
一个电视节目中有三扇门，其中一扇后面有一辆汽车，另外两扇后面是山羊 ...

同样的问题，在我这跑的结果，看着貌似速度上没差别

kkrace 发表于 2025-8-6 16:53

mfkaibj 发表于 2025-8-6 15:19

为什么你的这个速度比较慢

YsHaNg 发表于 2025-8-6 17:08

awpak78 发表于 2025-8-6 06:56
ollama搞出来的都是走FP16的GGUF量化，有啥好测的

ollama 0.11 release

神性发表于 2025-8-6 17:20

猪圈发表于 2025-8-6 16:33
5090d/5090/4090d/4090这几个相差到底有多少呢

单卡常用环境，5090/d比4090d快28%左右，如果是支持fp4的模型，就翻倍还多。

zhuifeng88 发表于 2025-8-6 17:27

本帖最后由 zhuifeng88 于 2025-8-6 17:43 编辑

kkrace 发表于 2025-8-6 16:37
然而并不是。新版的OLLAMA 为了支持**的这个开源模型。支持了MXFP4，所以想看看。弟和不弟。。在这方面 ...

只是支持mxfp4格式的权重而已, 又不代表用mxfp4 kernel计算, 你都不看一看实现的吗 (就算不看实现也能想到llama.cpp整套架构都是a16的, mxfp4计算要w4a4才行)

ollama/llama.cpp对mxfp4权重实现的是int8+fp16混合的计算

https://github.com/ggml-org/llama.cpp/pull/15091/files#diff-f591a6af9587b282030c7387e32a880973e68370ee6ee3918bd5cd008d1fb89d

=========================================
(另外就算哪天实装了w4a4, 你写的测试方式也是测不出来哪怕一丁点区别的, compute bound在ollama/llama.cpp下要长上下文纯prefill才能达到)

kkrace 发表于 2025-8-6 19:07

zhuifeng88 发表于 2025-8-6 17:27
只是支持mxfp4格式的权重而已, 又不代表用mxfp4 kernel计算, 你都不看一看实现的吗 (就算不看实现也能想 ...

高人赞

猪圈发表于 2025-8-7 11:41

神性发表于 2025-8-6 17:20
单卡常用环境，5090/d比4090d快28%左右，如果是支持fp4的模型，就翻倍还多。

多卡呢～哥

神性发表于 2025-8-7 12:18

猪圈发表于 2025-8-7 11:41
多卡呢～哥

没试过，不过好像听说有区别，不好判断真假。

猪圈发表于 2025-8-7 12:20

神性发表于 2025-8-7 12:18
没试过，不过好像听说有区别，不好判断真假。

好的，谢谢大佬

页: [1]

Chiphell - 分享与交流用户体验's Archiver

万能的CHH大佬，有空测试一下5090的算力