找回密码
 加入我们
搜索
      
查看: 1375|回复: 21

[显卡] 万能的CHH大佬,有空测试一下5090的算力

[复制链接]
发表于 2025-8-6 14:26 | 显示全部楼层 |阅读模式
首先,先感谢一下,愿意跑一下测试的大佬。

都说5090D阉割了FP4 的算力,然以前模型没有针对FP4的量化,训练也用不上FP4,感觉可能没啥影响, 但最近** 开源了他们** OSS 模型, MXFP4 量化。所以就想请有5090 没弟的大佬实际跑一下模型看看速度咱样, 有没有传说中的1.7倍。

具体操作也非常简单
1. 下载最新 Ollama
2. 命令行执行 ollama run **-oss:20b --verbose
3. 随便问个问题,就能看到模型推理的速度  XXX tokens/seconds

同是可以设置400W, 575w, 600W 不同的功耗强下的性能表现。
发表于 2025-8-6 14:31 | 显示全部楼层
没有5090,但是看到个图
发表于 2025-8-6 14:32 来自手机 | 显示全部楼层
正好手里90和90d都有。明天可以测一下。
发表于 2025-8-6 14:56 | 显示全部楼层
ollama搞出来的都是走FP16的GGUF量化,有啥好测的
发表于 2025-8-6 15:08 | 显示全部楼层
awpak78 发表于 2025-8-6 14:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的

现在流行的格式不就是gguf么?AWQ 的都没它多
发表于 2025-8-6 15:19 | 显示全部楼层
1754464728062.png
发表于 2025-8-6 15:30 | 显示全部楼层
6090d只有6090 50%多算力
发表于 2025-8-6 15:55 | 显示全部楼层
KimmyGLM 发表于 2025-8-6 15:08
现在流行的格式不就是gguf么?AWQ 的都没它多

流行≠好

这玩意流行单纯因为llama.cpp套皮的各种一键AI在什么硬件平台上都能强行跑
量化质量和运行速度都算垃圾的
发表于 2025-8-6 16:05 | 显示全部楼层
问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊。参赛者首先选择一扇门,然后主持人会打开另一扇有山羊的门,并询问参赛者是否要改变最初的选择。
结果:

硬件:9950x3d+5090
123.png
发表于 2025-8-6 16:05 | 显示全部楼层
awpak78 发表于 2025-8-6 15:55
流行≠好

这玩意流行单纯因为llama.cpp套皮的各种一键AI在什么硬件平台上都能强行跑

你推荐个既有量化速度,又能兼顾质量的格式?
发表于 2025-8-6 16:12 | 显示全部楼层
karaki 发表于 2025-8-6 16:05
问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊 ...

5090D,同样的问题。

total duration:       11.2288232s
load duration:        35.024ms
prompt eval count:    133 token(s)
prompt eval duration: 412.6709ms
prompt eval rate:     322.29 tokens/s
eval count:           1557 token(s)
eval duration:        10.7801275s
eval rate:            144.43 tokens/s
发表于 2025-8-6 16:25 | 显示全部楼层
KimmyGLM 发表于 2025-8-6 15:08
现在流行的格式不就是gguf么?AWQ 的都没它多

那是为了方便老显卡,还有就是量化到极小给显存非常低用的。真要说效果,狗看了都摇头。
发表于 2025-8-6 16:29 | 显示全部楼层
到底弱多少呢?我也有哥5090D
发表于 2025-8-6 16:30 | 显示全部楼层
KimmyGLM 发表于 2025-8-6 16:05
你推荐个既有量化速度,又能兼顾质量的格式?

只支持FP16的用AWQ,40系用FP8或者AWQ,50系直接FP4
发表于 2025-8-6 16:33 | 显示全部楼层
5090d/5090/4090d/4090这几个相差到底有多少呢
 楼主| 发表于 2025-8-6 16:37 | 显示全部楼层
awpak78 发表于 2025-8-6 14:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的


然而并不是。新版的OLLAMA 为了支持**的这个开源模型。支持了MXFP4, 所以想看看。弟和不弟。。在这方面有没有阉割。
 楼主| 发表于 2025-8-6 16:42 | 显示全部楼层
karaki 发表于 2025-8-6 16:05
问题:蒙提霍尔问题(三门问题):
一个电视节目中有三扇门,其中一扇后面有一辆汽车,另外两扇后面是山羊 ...

同样的问题,在我这跑的结果, 看着貌似速度上没差别
屏幕截图 2025-08-06 164007.png
 楼主| 发表于 2025-8-6 16:53 | 显示全部楼层

为什么你的这个速度比较慢
发表于 2025-8-6 17:08 | 显示全部楼层
awpak78 发表于 2025-8-6 06:56
ollama搞出来的都是走FP16的GGUF量化,有啥好测的

ollama 0.11 release
发表于 2025-8-6 17:20 | 显示全部楼层
猪圈 发表于 2025-8-6 16:33
5090d/5090/4090d/4090这几个相差到底有多少呢

单卡常用环境,5090/d比4090d快28%左右,如果是支持fp4的模型,就翻倍还多。
发表于 2025-8-6 17:27 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-8-6 17:43 编辑
kkrace 发表于 2025-8-6 16:37
然而并不是。新版的OLLAMA 为了支持**的这个开源模型。支持了MXFP4, 所以想看看。弟和不弟。。在这方面 ...


只是支持mxfp4格式的权重而已, 又不代表用mxfp4 kernel计算, 你都不看一看实现的吗 (就算不看实现也能想到llama.cpp整套架构都是a16的, mxfp4计算要w4a4才行)

ollama/llama.cpp对mxfp4权重实现的是int8+fp16混合的计算

https://github.com/ggml-org/llam ... 3918bd5cd008d1fb89d
PowerToys_Paste_20250806172740.png


=========================================
(另外就算哪天实装了w4a4, 你写的测试方式也是测不出来哪怕一丁点区别的, compute bound在ollama/llama.cpp下要长上下文纯prefill才能达到)
 楼主| 发表于 2025-8-6 19:07 | 显示全部楼层
zhuifeng88 发表于 2025-8-6 17:27
只是支持mxfp4格式的权重而已, 又不代表用mxfp4 kernel计算, 你都不看一看实现的吗 (就算不看实现也能想 ...

高人 赞
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-8-7 10:10 , Processed in 0.010736 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表