Chiphell - 分享与交流用户体验

标题: 感觉低成本架设私人AI服务器的时机快成熟了,AMD MI50/MI100大船 [打印本页]

作者: boyinfly    时间: 2025-4-16 09:32
标题: 感觉低成本架设私人AI服务器的时机快成熟了,AMD MI50/MI100大船
本帖最后由 boyinfly 于 2025-4-16 10:06 编辑

看到陆续有大船靠岸,大批AMD的计算卡进入国内,主要以MI50 16G和MI100 32G为主。
这卡黄鱼上MI50 16G目前600左右,MI100 32G900左右,无风扇,非常适合服务器插个4卡8卡跑AI。
这卡应该是第一批7nm的产品,对应民用版就是Radeon VII,功耗不算高。而且这卡还带一个mini-DP,刷个Radeon VII的bios就可以当显卡用,不刷bios也能用核显串流显示,类似于P106。二三十块钱DIY个涡轮扇挂屁股后面普通电脑或者外置显卡坞也能用,主要显存都是HBM的,非常适合跑AI玩。我都想弄两块跑个私人deepseek玩了。


查了一下,这卡当初3万多,现在50分之1的价格
我不卖卡,我也是网上看到的消息,别找我买卡,买卡直接去小黄鱼!!!



AMD RADEON INSTINCT MI50 16GB PCIe.
PN -102D 1631 412 702883.
R-R-ATI-102-16302.

QTY :  41,200 units  ( tested working pulled )

(, 下载次数: 46)
作者: klxq15    时间: 2025-4-16 09:34
MI100?是MI50 32G吧。。
作者: popgame    时间: 2025-4-16 09:36
这个性能4张32G能跑多大的模型
作者: boyinfly    时间: 2025-4-16 09:37
klxq15 发表于 2025-4-16 09:34
MI100?是MI50 32G吧。。

MI50 16G/32G
MI100 32G

作者: klxq15    时间: 2025-4-16 09:38
boyinfly 发表于 2025-4-16 09:37
MI50 16G/32G
MI100 32G

MI100 32G卖多少钱。。为啥华强北还没出MI系列的显卡桥
作者: StevenG    时间: 2025-4-16 09:39
boyinfly 发表于 2025-4-16 09:37
MI50 16G/32G
MI100 32G

黄鱼上没看到mi100 32g呀。。都是mi50 32g 950上下
作者: boyinfly    时间: 2025-4-16 09:39
本帖最后由 boyinfly 于 2025-4-16 09:57 编辑
popgame 发表于 2025-4-16 09:36
这个性能4张32G能跑多大的模型


1张,跑70b q4,大概7-8tok/s


这是单卡性能,4卡linux下性能X4,22左右
作者: boyinfly    时间: 2025-4-16 09:42
klxq15 发表于 2025-4-16 09:38
MI100 32G卖多少钱。。为啥华强北还没出MI系列的显卡桥

MI100估计船快到了吧,MI100已经是7nm的CDNA核心了
现在主要是MI50 16G/32G vega20核心


https://www.amd.com/zh-cn/produc ... s/accelerators.html


(, 下载次数: 49)
作者: gartour    时间: 2025-4-16 09:48
boyinfly 发表于 2025-4-16 09:39
4张,跑70b q4,大概7-8tok/s

这速度也就玩个三分钟热情了。开个深度思考还得跌到 1以下
作者: StevenG    时间: 2025-4-16 09:49
boyinfly 发表于 2025-4-16 09:42
MI100估计船快到了吧,MI100已经是7nm的CDNA核心了
现在主要是MI50 16G/32G vega20核心


那100还有折腾的价值,vega估计下个版本的rocm就彻底不支持了吧
作者: boyinfly    时间: 2025-4-16 09:50
popgame 发表于 2025-4-16 09:36
这个性能4张32G能跑多大的模型

模型版本        参数量(B)        显存需求(GB)
DeepSeek 1.5B        15亿        60
DeepSeek 7B        70亿        240(FP16),120(AMP)
DeepSeek 32B        320亿        512(FP16),256(AMP)
DeepSeek 70B        700亿        1200(FP16),600(AMP)
DeepSeek 671B        6710亿        10736(FP16),5368(AMP)
作者: mkkkno1    时间: 2025-4-16 09:53
性能太低了,不然也不会成垃圾
作者: boyinfly    时间: 2025-4-16 09:53
gartour 发表于 2025-4-16 09:48
这速度也就玩个三分钟热情了。开个深度思考还得跌到 1以下

主要是这卡便宜啊,低成本搭建私人ai服务器成为可能
作者: boyinfly    时间: 2025-4-16 09:55
StevenG 发表于 2025-4-16 09:49
那100还有折腾的价值,vega估计下个版本的rocm就彻底不支持了吧

至少目前linux下这卡效能还是可以的,毕竟也是7nm的
600/900块就能买16G/32 HBM显存的卡,还不便宜?
刷个bios还能当游戏卡用一下,性能差不多3060水平了
作者: boyinfly    时间: 2025-4-16 09:55
mkkkno1 发表于 2025-4-16 09:53
性能太低了,不然也不会成垃圾

18年的卡,这性能可以了。

作者: boyinfly    时间: 2025-4-16 09:58
mkkkno1 发表于 2025-4-16 09:53
性能太低了,不然也不会成垃圾

1张,跑70b q4,大概7-8tok/s


这是单卡性能,4卡linux下性能X4,22左右
作者: KimmyGLM    时间: 2025-4-16 09:59
性能太差,只能拿来跑跑LLM;
还不如买V100 16G 组组多卡
作者: archxm    时间: 2025-4-16 09:59
显卡是用来打游戏的
作者: boyinfly    时间: 2025-4-16 10:03
KimmyGLM 发表于 2025-4-16 09:59
性能太差,只能拿来跑跑LLM;
还不如买V100 16G 组组多卡

MI50算力和V100是一个级别的

(, 下载次数: 33)
作者: 用户    时间: 2025-4-16 10:04
这玩意不是镭七吗
作者: boyinfly    时间: 2025-4-16 10:05
archxm 发表于 2025-4-16 09:59
显卡是用来打游戏的

这卡不太适合打游戏,要弄个涡轮扇,长度太长了,差不多36cm了,很多机箱放不下,涡轮扇噪音也是一个问题
作者: boyinfly    时间: 2025-4-16 10:05
用户 发表于 2025-4-16 10:04
这玩意不是镭七吗

对,换皮的计算卡

作者: awpak78    时间: 2025-4-16 10:08
boyinfly 发表于 2025-4-16 09:39
1张,跑70b q4,大概7-8tok/s

ollama只支持PP,别™做梦性能x4了,多少张卡都是一样的速度

AMD浪费沙子拿着7nm的工艺干出来16nm Tesla P100相当的性能,还5年就完全停止软件支持,别吹电子垃圾了。

【半块RTX4090 玩转70B大语言模型】 https://www.bilibili.com/video/BV1DH4y1c7gK/
👆
P100多卡再垃圾起码还有CUDA更新,跑得起来卡间通信
作者: zhuifeng88    时间: 2025-4-16 10:08
boyinfly 发表于 2025-4-16 10:03
MI50算力和V100是一个级别的


哪门子的一个级别...v100的tensorcore虽然烂但又不是用不上
    还有这张图把v100的tensorcore fp16算力标到tf32那栏里了
作者: boyinfly    时间: 2025-4-16 10:14
awpak78 发表于 2025-4-16 10:08
ollama只支持PP,别™做梦性能x4了,多少张卡都是一样的速度

AMD浪费沙子拿着7nm的工艺干出来16nm Tesla ...

我有必要吹这电子垃圾么,我又不是卖卡的,你要只会用ollama这卡不适合你
作者: boyinfly    时间: 2025-4-16 10:15
zhuifeng88 发表于 2025-4-16 10:08
哪门子的一个级别...v100的tensorcore虽然烂但又不是用不上
    还有这张图把v100的tensorcore fp16算力 ...

v100家用普通电脑不如这卡容易玩,好歹这卡还能当个游戏卡用
作者: KimmyGLM    时间: 2025-4-16 10:17
boyinfly 发表于 2025-4-16 10:15
v100家用普通电脑不如这卡容易玩,好歹这卡还能当个游戏卡用

V100 可以当游戏卡用啊,TCC改成WDDM 模式就行。
作者: Miner    时间: 2025-4-16 10:18
boyinfly 发表于 2025-4-16 09:39
1张,跑70b q4,大概7-8tok/s

1张,跑70b q4,大概7-8tok/s

爆显存了吧,有没 33b q4 的测试数据呀?
作者: boyinfly    时间: 2025-4-16 10:21
Miner 发表于 2025-4-16 10:18
1张,跑70b q4,大概7-8tok/s

爆显存了吧,有没 33b q4 的测试数据呀?

网上搜一下吧,我还没买这卡,正考虑是否买两片玩玩,看情况这卡价格可能还要跌,感觉四五百块钱是正常大船价格
作者: deepfishing    时间: 2025-4-16 10:23
我玩过9070xt跑推理,只能讲不要对农企有任何期待,这远古vega还是啥架构插服务器上都是浪费服务器槽位。
9070xt特性全开,软件适配全开,然后单颗核心显存容量翻倍然后俩个做互联怼起来,才能有看头
作者: KimmyGLM    时间: 2025-4-16 10:24
Miner 发表于 2025-4-16 10:18
1张,跑70b q4,大概7-8tok/s

爆显存了吧,有没 33b q4 的测试数据呀?

闲鱼卖家都帮你测好了,不过既然吹的性能这么强,你猜为啥没有涨很多。


作者: zhuifeng88    时间: 2025-4-16 10:25
KimmyGLM 发表于 2025-4-16 10:24
闲鱼卖家都帮你测好了,不过既然吹的性能这么强,你猜为啥没有涨很多。

...

这并发性能属于是烂完了...毕竟算力那么低
作者: boyinfly    时间: 2025-4-16 10:25
KimmyGLM 发表于 2025-4-16 10:17
V100 可以当游戏卡用啊,TCC改成WDDM 模式就行。

便宜的是sxm2的,家用要上pcie转接卡,加上散热成本远比mi50高,还没显示输出接口,确实不如600多块的mi50刷个镭7的bios方便
作者: zhuifeng88    时间: 2025-4-16 10:29
boyinfly 发表于 2025-4-16 09:55
18年的卡,这性能可以了。

别只看decode速度勉强能用啊, 没独立wmma算力太低, prefill性能就烂完了, 输入带个哪怕只有4k token的参考资料都要等2分钟才能出第一个字到时候就绷不住了
作者: boyinfly    时间: 2025-4-16 10:29
deepfishing 发表于 2025-4-16 10:23
我玩过9070xt跑推理,只能讲不要对农企有任何期待,这远古vega还是啥架构插服务器上都是浪费服务器槽位。
9 ...

这卡当游戏卡用还是可以的,自带dp接口,毕竟便宜,现在二手3060游戏卡还1000多块了
作者: boyinfly    时间: 2025-4-16 10:31
zhuifeng88 发表于 2025-4-16 10:29
别只看decode速度勉强能用啊, 没独立wmma算力太低, prefill性能就烂完了, 输入带个哪怕只有4k token的参 ...

你就当它是个游戏卡也值了,600来块钱,自带dp接口,刷个bios玩游戏也行,3060二手都还1000多了
作者: xjr12000    时间: 2025-4-16 10:34
boyinfly 发表于 2025-4-16 09:50
模型版本        参数量(B)        显存需求(GB)
DeepSeek 1.5B        15亿        60
DeepSeek 7B        70亿        240(FP16),120(AMP) ...

你这个单位是G?
1.5B都要60G显存?
数据错误
作者: StevenG    时间: 2025-4-16 10:35
zhuifeng88 发表于 2025-4-16 10:25
这并发性能属于是烂完了...毕竟算力那么低

为什么我看,感觉还可以啊。。传说中的性价比王者, 2080ti 22g,现在也得2500上下
作者: lh0ngfu    时间: 2025-4-16 10:38
几百块 32G 感觉可以,但是好像我的鱼搜不到哈哈哈哈哈哈哈
作者: boyinfly    时间: 2025-4-16 10:38
xjr12000 发表于 2025-4-16 10:34
你这个单位是G?
1.5B都要60G显存?
数据错误

网上搜的,卡我还没买,具体性能只能搜一下网上的。
作者: StevenG    时间: 2025-4-16 10:38
zhuifeng88 发表于 2025-4-16 10:29
别只看decode速度勉强能用啊, 没独立wmma算力太低, prefill性能就烂完了, 输入带个哪怕只有4k token的参 ...

纯讨论哈,prefill慢的问题用大嘤的amx能解嘛?清华那个ktransformers不是开始支持rocm了嘛,这玩意用的**显存,显存带宽应该没瓶颈,当然性能拉胯是一定的。。。
作者: zhuifeng88    时间: 2025-4-16 10:40
StevenG 发表于 2025-4-16 10:35
为什么我看,感觉还可以啊。。传说中的性价比王者, 2080ti 22g,现在也得2500上下 ...

这32b q4并发性能换2080ti 22来能高接近一个数量级...
作者: zhuifeng88    时间: 2025-4-16 10:42
StevenG 发表于 2025-4-16 10:38
纯讨论哈,prefill慢的问题用大嘤的amx能解嘛?清华那个ktransformers不是开始支持rocm了嘛,这玩意用的* ...


amx可以, 但那就不是这个价位的事情了, 1w以上的洋垃圾平台再考虑这个吧 (而且还插着mi50干什么呢, 负责减速吗)
作者: klxq15    时间: 2025-4-16 10:42
boyinfly 发表于 2025-4-16 10:03
MI50算力和V100是一个级别的

v100有tensorcore,mi50没有
作者: boyinfly    时间: 2025-4-16 10:44
klxq15 发表于 2025-4-16 10:42
v100有tensorcore,mi50没有

mi50刷个bios可以直接自带dp输出画面当游戏卡用,v100不行
作者: StevenG    时间: 2025-4-16 10:46
zhuifeng88 发表于 2025-4-16 10:42
amx可以, 但那就不是这个价位的事情了, 1w以上的洋垃圾平台再考虑这个吧 (而且还插着mi50干什么呢, 负责 ...

确实,一条ddr5 32g 5600都比这玩意贵。。。
作者: oldnetdog    时间: 2025-4-16 10:47
中间过渡产品,软件都抛弃支持了。
作者: zjmttt    时间: 2025-4-16 10:47
私人就算了,那个电费。。。。如果有钱不心疼电费的话,我想那也不会去买大船了。。。。。
作者: Miner    时间: 2025-4-16 11:11
zhuifeng88 发表于 2025-4-16 10:40
这32b q4并发性能换2080ti 22来能高接近一个数量级...

那么,自己玩一下这种小模型,是两张2080ti 22,还是两张a770?前者可以32b q8,后者 q8  要炸显存,勉强可以 q6,不过后者有新卡,保 3 年,价格也实惠点~
作者: Juzi丶    时间: 2025-4-16 11:13
什么年代还吹gcn奠子辣鸡
作者: seunji    时间: 2025-4-16 11:20
我觉得嗨挺有兴趣折腾的,这个价格还要什么自行车
作者: sunnymen    时间: 2025-4-16 11:22
boyinfly 发表于 2025-4-16 09:58
1张,跑70b q4,大概7-8tok/s

昨天看那个斯伯土的视频。3ka只能9tok
作者: awpak78    时间: 2025-4-16 11:23
boyinfly 发表于 2025-4-16 10:14
我有必要吹这电子垃圾么,我又不是卖卡的,你要只会用ollama这卡不适合你 ...

张口闭口就是70B_Q4,32B_Q4这种GGUF特色格式;配llama.cpp典中典之一张卡跑70B Q4,模型都分层1/4到CPU去了还测锤子显卡性能。
还嘴硬不是ollama/llama.cpp草履虫?

MI50的ROCm只支持到5.7.1,高性能推理框架都起手要求ROCm 6.x。拿什么来多卡加速?

我捡P100的时候就评估过MI50**了,ROCm放弃支持等于卡间高速通信报废,等于多卡无法加速。

买一堆电热丝来堆显存,然后跑起来的速度纯单卡瓶颈,那么喜欢大内存不如去堆DDR4 REG便宜内存条
作者: boyinfly    时间: 2025-4-16 11:31
awpak78 发表于 2025-4-16 11:23
张口闭口就是70B_Q4,32B_Q4这种GGUF特色格式;配llama.cpp典中典之一张卡跑70B Q4,模型都分层1/4到CPU ...


我就当这卡是个游戏卡可以把?600来块买来玩个黑猴子不行么?跟我在这杠个毛线,我又不是卖卡的。
作者: boyinfly    时间: 2025-4-16 11:32
sunnymen 发表于 2025-4-16 11:22
昨天看那个斯伯土的视频。3ka只能9tok

我看他视频了,感觉这卡当游戏卡玩玩可以,有点当年P106的感觉
作者: zhuifeng88    时间: 2025-4-16 11:34
awpak78 发表于 2025-4-16 11:23
张口闭口就是70B_Q4,32B_Q4这种GGUF特色格式;配llama.cpp典中典之一张卡跑70B Q4,模型都分层1/4到CPU ...

* q4倒也谈不上gguf特色吧, 反正一般讨论也没必要区分, 至少我是所有4bit量化统称q4的, 除非是有必要特别区分的上下文
作者: 港城钢铁侠    时间: 2025-4-16 11:40
说实话这价格没啥理由不买T10,主要是功耗差距太大了,T10是这卡一半的功耗,除非遇到爆显存,不然推理性能也是比mi50强的,这就是这卡为啥涨不起来
作者: lksimba    时间: 2025-4-16 11:42
boyinfly 发表于 2025-4-16 11:31
我就当这卡是个游戏卡可以把?600来块买来玩个黑猴子不行么?跟我在这杠个毛线,我又不是卖卡的。 ...

当游戏卡啥性能啊?
作者: michaelzxp    时间: 2025-4-16 11:47
还是买个 mac 做个人 ai 服务器吧
作者: boyinfly    时间: 2025-4-16 11:58
lksimba 发表于 2025-4-16 11:42
当游戏卡啥性能啊?

鲁大师39w分,刷bios解锁功耗能到44w分,差不多3060水平吧。
作者: 8owd8wan    时间: 2025-4-16 12:01
本地LLM不感兴趣,能做图做视频的倒是很需要
作者: zx0550    时间: 2025-4-16 12:06
等5090能改96g显存吧
32位宽 上双面3g颗粒
普通人自费架服务器还不够折腾的
作者: guitengyue    时间: 2025-4-16 12:14
mi100不知道比mi50强多少
作者: 我輩樹である    时间: 2025-4-16 12:49
mi100的洋垃圾可以搞一块收藏一下,也是当年的dream card了。
作者: kerafyrm    时间: 2025-4-16 12:55
家用nas才真有用,家用ai真是瞎扯淡了
作者: natt    时间: 2025-4-16 13:04
刷个Radeon VII的bios就可以当显卡用

说的我心动不已
作者: KimmyGLM    时间: 2025-4-16 13:08
我輩樹である 发表于 2025-4-16 12:49
mi100的洋垃圾可以搞一块收藏一下,也是当年的dream card了。

mi100 大船要6000块,还不如买W6800 32G了
作者: Monkly    时间: 2025-4-16 13:10
不够折腾的。虽然这个价格很心动,比买5700xt划算吧
作者: boyinfly    时间: 2025-4-16 15:46
natt 发表于 2025-4-16 13:04
刷个Radeon VII的bios就可以当显卡用

说的我心动不已

垃圾佬都这么想
作者: sunnymen    时间: 2025-4-17 14:01
boyinfly 发表于 2025-4-16 11:32
我看他视频了,感觉这卡当游戏卡玩玩可以,有点当年P106的感觉

不知道多卡能不能加强
作者: guitengyue    时间: 2025-4-17 15:26
已经到了人手可以弄32B的时代了,后期就是多模了
作者: Neo_Granzon    时间: 2025-4-17 15:51
boyinfly 发表于 2025-4-16 10:03
MI50算力和V100是一个级别的

没有TensorCore,就别碰瓷V100了。哪怕是fp16算力碰上V100的TF32也是完全不够看。
作者: Neo_Granzon    时间: 2025-4-17 15:53
boyinfly 发表于 2025-4-16 10:25
便宜的是sxm2的,家用要上pcie转接卡,加上散热成本远比mi50高,还没显示输出接口,确实不如600多块的mi5 ...

mi50超过900块钱还是不大划算,600块钱确实挺香。
作者: boyinfly    时间: 2025-4-17 16:30
Neo_Granzon 发表于 2025-4-17 15:53
mi50超过900块钱还是不大划算,600块钱确实挺香。

900块的是32g显存版本,600块的是16g的,600块的刷个bios当游戏卡也挺划算,差不多3060水平
作者: Mufasa    时间: 2025-4-17 16:36
boyinfly 发表于 2025-4-16 09:55
至少目前linux下这卡效能还是可以的,毕竟也是7nm的
600/900块就能买16G/32 HBM显存的卡,还不便宜?
刷 ...

问题在于软件支持

如果linux下面有软件可以跑起来,确实性价比不错
作者: 红色狂想    时间: 2025-4-28 20:35
一直想搞两张vGPU计算卡插服务器上跑Stable Diffusion,不知选哪款显卡性价比最好,原本看上了P40,优势是显存容量诱人,但有人说这卡速度慢的要死,后来看到单卡只要700元!AI画图炼丹性价比之王,超大**显存【Mizuiro-Aqua】这篇文章中说P100的优势是半精度浮点运算对运行AI模型很重要,不知该怎么选了,看来个人本地部署AI还是得老老实实选老黄的N卡,农企的A卡没优势

作者: karaki    时间: 2025-4-28 21:02
主要不好玩,装完机估计就放那了。绘图和音频应该用不到那么多显存?玩671b不如直接豆包啥的,因为有人维护,勘误,自己弄得反而数据都静止在某个时间点了
作者: hanzhiwei168    时间: 2025-5-1 16:41
我就问楼主到底买了没有?实际使用效果如何?含散热、噪音、功耗性能等等有没有折腾价值?
作者: 各路游走    时间: 2025-5-1 17:34
能像Tesla P系列一样打游戏不
作者: YsHaNg    时间: 2025-5-1 17:41
karaki 发表于 2025-4-28 13:02
主要不好玩,装完机估计就放那了。绘图和音频应该用不到那么多显存?玩671b不如直接豆包啥的,因为有人维护 ...

自己配搜索引擎api 有新模型也可以随时下
作者: 楼主的马甲    时间: 2025-6-27 22:36
mkkkno1 发表于 2025-4-16 09:53
性能太低了,不然也不会成垃圾

比它强的魔改3080-20之类的,价格完全不同了!
根本不算低了
只要是AI兼容性确实没法比2080-22




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5