感觉低成本架设私人AI服务器的时机快成熟了，AMD MI50/MI100大船

zhuifeng88 · 发表于 2025-4-16 10:08

boyinfly 发表于 2025-4-16 10:03
MI50算力和V100是一个级别的

哪门子的一个级别...v100的tensorcore虽然烂但又不是用不上
还有这张图把v100的tensorcore fp16算力标到tf32那栏里了

zhuifeng88 · 发表于 2025-4-16 10:25

KimmyGLM 发表于 2025-4-16 10:24
闲鱼卖家都帮你测好了，不过既然吹的性能这么强，你猜为啥没有涨很多。

...

这并发性能属于是烂完了...毕竟算力那么低

zhuifeng88 · 发表于 2025-4-16 10:29

boyinfly 发表于 2025-4-16 09:55
18年的卡，这性能可以了。

别只看decode速度勉强能用啊, 没独立wmma算力太低, prefill性能就烂完了, 输入带个哪怕只有4k token的参考资料都要等2分钟才能出第一个字到时候就绷不住了

zhuifeng88 · 发表于 2025-4-16 10:40

StevenG 发表于 2025-4-16 10:35
为什么我看，感觉还可以啊。。传说中的性价比王者， 2080ti 22g，现在也得2500上下 ...

这32b q4并发性能换2080ti 22来能高接近一个数量级...

zhuifeng88 · 发表于 2025-4-16 10:42

StevenG 发表于 2025-4-16 10:38
纯讨论哈，prefill慢的问题用大嘤的amx能解嘛？清华那个ktransformers不是开始支持rocm了嘛，这玩意用的* ...

amx可以, 但那就不是这个价位的事情了, 1w以上的洋垃圾平台再考虑这个吧 (而且还插着mi50干什么呢, 负责减速吗)

zhuifeng88 · 发表于 2025-4-16 11:34

awpak78 发表于 2025-4-16 11:23
张口闭口就是70B_Q4，32B_Q4这种GGUF特色格式；配llama.cpp典中典之一张卡跑70B Q4，模型都分层1/4到CPU ...

* q4倒也谈不上gguf特色吧, 反正一般讨论也没必要区分, 至少我是所有4bit量化统称q4的, 除非是有必要特别区分的上下文

账号		自动登录	找回密码
密码			加入我们

[显卡] 感觉低成本架设私人AI服务器的时机快成熟了，AMD MI50/MI100大船