kkrace 发表于 2025-8-6 14:26

万能的CHH大佬,有空测试一下5090的算力

首先,先感谢一下,愿意跑一下测试的大佬。

都说5090D阉割了FP4 的算力,然以前模型没有针对FP4的量化,训练也用不上FP4,感觉可能没啥影响, 但最近** 开源了他们** OSS 模型, MXFP4 量化。所以就想请有5090 没弟的大佬实际跑一下模型看看速度咱样, 有没有传说中的1.7倍。

具体操作也非常简单
1. 下载最新 Ollama
2. 命令行执行 ollama run **-oss:20b --verbose
3. 随便问个问题,就能看到模型推理的速度XXX tokens/seconds

同是可以设置400W, 575w, 600W 不同的功耗强下的性能表现。

非人寄 发表于 2025-8-6 14:31

没有5090,但是看到个图https://files.catbox.moe/2gsjkh.png

秦南瓜 发表于 2025-8-6 14:32

正好手里90和90d都有。明天可以测一下。

awpak78 发表于 2025-8-6 14:56

ollama搞出来的都是走FP16的GGUF量化,有啥好测的

KimmyGLM 发表于 2025-8-6 15:08

awpak78 发表于 2025-8-6 14:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的

现在流行的格式不就是gguf么?AWQ 的都没它多

mfkaibj 发表于 2025-8-6 15:19

PolyMorph 发表于 2025-8-6 15:30

6090d只有6090 50%多算力

awpak78 发表于 2025-8-6 15:55

KimmyGLM 发表于 2025-8-6 15:08
现在流行的格式不就是gguf么?AWQ 的都没它多

流行≠好

这玩意流行单纯因为llama.cpp套皮的各种一键AI在什么硬件平台上都能强行跑
量化质量和运行速度都算垃圾的

karaki 发表于 2025-8-6 16:05

问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊。参赛者首先选择一扇门,然后主持人会打开另一扇有山羊的门,并询问参赛者是否要改变最初的选择。
结果:

硬件:9950x3d+5090

KimmyGLM 发表于 2025-8-6 16:05

awpak78 发表于 2025-8-6 15:55
流行≠好

这玩意流行单纯因为llama.cpp套皮的各种一键AI在什么硬件平台上都能强行跑


你推荐个既有量化速度,又能兼顾质量的格式?

lh4357 发表于 2025-8-6 16:12

karaki 发表于 2025-8-6 16:05
问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊 ...

5090D,同样的问题。

total duration:       11.2288232s
load duration:      35.024ms
prompt eval count:    133 token(s)
prompt eval duration: 412.6709ms
prompt eval rate:   322.29 tokens/s
eval count:         1557 token(s)
eval duration:      10.7801275s
eval rate:            144.43 tokens/s

神性 发表于 2025-8-6 16:25

KimmyGLM 发表于 2025-8-6 15:08
现在流行的格式不就是gguf么?AWQ 的都没它多

那是为了方便老显卡,还有就是量化到极小给显存非常低用的。真要说效果,狗看了都摇头。

猪圈 发表于 2025-8-6 16:29

到底弱多少呢?我也有哥5090D

awpak78 发表于 2025-8-6 16:30

KimmyGLM 发表于 2025-8-6 16:05
你推荐个既有量化速度,又能兼顾质量的格式?

只支持FP16的用AWQ,40系用FP8或者AWQ,50系直接FP4

猪圈 发表于 2025-8-6 16:33

5090d/5090/4090d/4090这几个相差到底有多少呢

kkrace 发表于 2025-8-6 16:37

awpak78 发表于 2025-8-6 14:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的

然而并不是。新版的OLLAMA 为了支持**的这个开源模型。支持了MXFP4, 所以想看看。弟和不弟。。在这方面有没有阉割。

kkrace 发表于 2025-8-6 16:42

karaki 发表于 2025-8-6 16:05
问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊 ...

同样的问题,在我这跑的结果, 看着貌似速度上没差别

kkrace 发表于 2025-8-6 16:53

mfkaibj 发表于 2025-8-6 15:19


为什么你的这个速度比较慢

YsHaNg 发表于 2025-8-6 17:08

awpak78 发表于 2025-8-6 06:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的

ollama 0.11 release

神性 发表于 2025-8-6 17:20

猪圈 发表于 2025-8-6 16:33
5090d/5090/4090d/4090这几个相差到底有多少呢

单卡常用环境,5090/d比4090d快28%左右,如果是支持fp4的模型,就翻倍还多。

zhuifeng88 发表于 2025-8-6 17:27

本帖最后由 zhuifeng88 于 2025-8-6 17:43 编辑

kkrace 发表于 2025-8-6 16:37
然而并不是。新版的OLLAMA 为了支持**的这个开源模型。支持了MXFP4, 所以想看看。弟和不弟。。在这方面 ...

只是支持mxfp4格式的权重而已, 又不代表用mxfp4 kernel计算, 你都不看一看实现的吗 (就算不看实现也能想到llama.cpp整套架构都是a16的, mxfp4计算要w4a4才行)

ollama/llama.cpp对mxfp4权重实现的是int8+fp16混合的计算

https://github.com/ggml-org/llama.cpp/pull/15091/files#diff-f591a6af9587b282030c7387e32a880973e68370ee6ee3918bd5cd008d1fb89d



=========================================
(另外就算哪天实装了w4a4, 你写的测试方式也是测不出来哪怕一丁点区别的, compute bound在ollama/llama.cpp下要长上下文纯prefill才能达到)

kkrace 发表于 2025-8-6 19:07

zhuifeng88 发表于 2025-8-6 17:27
只是支持mxfp4格式的权重而已, 又不代表用mxfp4 kernel计算, 你都不看一看实现的吗 (就算不看实现也能想 ...

高人 赞

猪圈 发表于 2025-8-7 11:41

神性 发表于 2025-8-6 17:20
单卡常用环境,5090/d比4090d快28%左右,如果是支持fp4的模型,就翻倍还多。

多卡呢~哥

神性 发表于 2025-8-7 12:18

猪圈 发表于 2025-8-7 11:41
多卡呢~哥

没试过,不过好像听说有区别,不好判断真假。

猪圈 发表于 2025-8-7 12:20

神性 发表于 2025-8-7 12:18
没试过,不过好像听说有区别,不好判断真假。

好的,谢谢大佬
页: [1]
查看完整版本: 万能的CHH大佬,有空测试一下5090的算力