万能的CHH大佬,有空测试一下5090的算力
首先,先感谢一下,愿意跑一下测试的大佬。都说5090D阉割了FP4 的算力,然以前模型没有针对FP4的量化,训练也用不上FP4,感觉可能没啥影响, 但最近** 开源了他们** OSS 模型, MXFP4 量化。所以就想请有5090 没弟的大佬实际跑一下模型看看速度咱样, 有没有传说中的1.7倍。
具体操作也非常简单
1. 下载最新 Ollama
2. 命令行执行 ollama run **-oss:20b --verbose
3. 随便问个问题,就能看到模型推理的速度XXX tokens/seconds
同是可以设置400W, 575w, 600W 不同的功耗强下的性能表现。 没有5090,但是看到个图https://files.catbox.moe/2gsjkh.png 正好手里90和90d都有。明天可以测一下。 ollama搞出来的都是走FP16的GGUF量化,有啥好测的 awpak78 发表于 2025-8-6 14:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的
现在流行的格式不就是gguf么?AWQ 的都没它多 6090d只有6090 50%多算力 KimmyGLM 发表于 2025-8-6 15:08
现在流行的格式不就是gguf么?AWQ 的都没它多
流行≠好
这玩意流行单纯因为llama.cpp套皮的各种一键AI在什么硬件平台上都能强行跑
量化质量和运行速度都算垃圾的 问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊。参赛者首先选择一扇门,然后主持人会打开另一扇有山羊的门,并询问参赛者是否要改变最初的选择。
结果:
硬件:9950x3d+5090 awpak78 发表于 2025-8-6 15:55
流行≠好
这玩意流行单纯因为llama.cpp套皮的各种一键AI在什么硬件平台上都能强行跑
你推荐个既有量化速度,又能兼顾质量的格式?
karaki 发表于 2025-8-6 16:05
问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊 ...
5090D,同样的问题。
total duration: 11.2288232s
load duration: 35.024ms
prompt eval count: 133 token(s)
prompt eval duration: 412.6709ms
prompt eval rate: 322.29 tokens/s
eval count: 1557 token(s)
eval duration: 10.7801275s
eval rate: 144.43 tokens/s KimmyGLM 发表于 2025-8-6 15:08
现在流行的格式不就是gguf么?AWQ 的都没它多
那是为了方便老显卡,还有就是量化到极小给显存非常低用的。真要说效果,狗看了都摇头。 到底弱多少呢?我也有哥5090D KimmyGLM 发表于 2025-8-6 16:05
你推荐个既有量化速度,又能兼顾质量的格式?
只支持FP16的用AWQ,40系用FP8或者AWQ,50系直接FP4 5090d/5090/4090d/4090这几个相差到底有多少呢
awpak78 发表于 2025-8-6 14:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的
然而并不是。新版的OLLAMA 为了支持**的这个开源模型。支持了MXFP4, 所以想看看。弟和不弟。。在这方面有没有阉割。 karaki 发表于 2025-8-6 16:05
问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊 ...
同样的问题,在我这跑的结果, 看着貌似速度上没差别 mfkaibj 发表于 2025-8-6 15:19
为什么你的这个速度比较慢 awpak78 发表于 2025-8-6 06:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的
ollama 0.11 release 猪圈 发表于 2025-8-6 16:33
5090d/5090/4090d/4090这几个相差到底有多少呢
单卡常用环境,5090/d比4090d快28%左右,如果是支持fp4的模型,就翻倍还多。 本帖最后由 zhuifeng88 于 2025-8-6 17:43 编辑
kkrace 发表于 2025-8-6 16:37
然而并不是。新版的OLLAMA 为了支持**的这个开源模型。支持了MXFP4, 所以想看看。弟和不弟。。在这方面 ...
只是支持mxfp4格式的权重而已, 又不代表用mxfp4 kernel计算, 你都不看一看实现的吗 (就算不看实现也能想到llama.cpp整套架构都是a16的, mxfp4计算要w4a4才行)
ollama/llama.cpp对mxfp4权重实现的是int8+fp16混合的计算
https://github.com/ggml-org/llama.cpp/pull/15091/files#diff-f591a6af9587b282030c7387e32a880973e68370ee6ee3918bd5cd008d1fb89d
=========================================
(另外就算哪天实装了w4a4, 你写的测试方式也是测不出来哪怕一丁点区别的, compute bound在ollama/llama.cpp下要长上下文纯prefill才能达到) zhuifeng88 发表于 2025-8-6 17:27
只是支持mxfp4格式的权重而已, 又不代表用mxfp4 kernel计算, 你都不看一看实现的吗 (就算不看实现也能想 ...
高人 赞 神性 发表于 2025-8-6 17:20
单卡常用环境,5090/d比4090d快28%左右,如果是支持fp4的模型,就翻倍还多。
多卡呢~哥 猪圈 发表于 2025-8-7 11:41
多卡呢~哥
没试过,不过好像听说有区别,不好判断真假。 神性 发表于 2025-8-7 12:18
没试过,不过好像听说有区别,不好判断真假。
好的,谢谢大佬
页:
[1]