想知道目前APU的AI性能么？IPU篇

我輩樹である · 发表于 2024-5-27 09:18

本帖最后由我輩樹である于 2024-5-28 10:19 编辑

8840U（cTDP 15-30W）。纸面性能AI算力16T。

8840U里面的IPU目前支持的int4和bf16。也支持混合精度运算，也就是下面要用到的w4abf16量化方式（权重int4，激活层fp16）。

按照amd官方的教程操作，模型为：llama2 7B w4a16 awq量化 +flash attention + lm head。

我这个机器BIOS限制了20w功耗，使用RyzenAdj调节cpu总功耗，得出了10w，15w，20w的功耗下的测试结果：
10w
aie 10w.png

15w

20w

在运行过程中，IPU一直保持1.6GHz的频率，所以，这个性能差距可能是因为CPU功耗控制导致的。

长链下可以有接近4 token/s的速度，说实话，相当符合预期，速度居然不慢，至少不是玩具。

客户训练时期，要的只是植入一颗种子，别要求的太多。

-------------------------------------------------------

大家觉得4bit模型是个笑话么？其实还是有点用途。比如用在RAG程序上，finetune在某个狭窄的知识领域也有比较好的效果，但目前这个速度还是有点慢了。

未来肯定是云边本地结合的时代。如果下一代有40T以上的算力，10 t/s的速度，locallm才能起飞。无论是amd还是intel，我觉得这一代AI处理器肯定是想尽快翻篇过去了。

intel的测试也在路上，机器是matebook x pro。

------------------------------------------------------
另外，AI不止大模型，这个ipu在视觉方面的任务还是挺给力的，虽然也只能执行mobile级别的模型。具体可以看ryzenai的官方文档。

amd也提供了用于ipu开发的ide，Vitis，说实话挺难安装的，感觉amd的软件好像缺乏普遍适用性的测试。

pdvc · 发表于 2024-5-27 09:26

7b就是玩具，没啥意义，至少得能跑70b还差不多能用，虽然也一般……

我輩樹である · 发表于 2024-5-27 10:37

pdvc 发表于 2024-5-27 09:26
7b就是玩具，没啥意义，至少得能跑70b还差不多能用，虽然也一般……

70b一般都是生产端的模型。

消费端随着量化技术的进步，以后本地10b左右的模型是主流。

tundra · 发表于 2024-5-27 10:40

pdvc 发表于 2024-5-27 09:26
7b就是玩具，没啥意义，至少得能跑70b还差不多能用，虽然也一般……

个人体验是qwen 32b@q4这一等级差不多就能用了，但是内存和算力短期也就能满足7b，locallm还有好长路得走

fofo · 发表于 2024-5-27 10:56

农家哪些cpu是带ai的

我輩樹である · 发表于 2024-5-27 11:04

fofo 发表于 2024-5-27 10:56
农家哪些cpu是带ai的

移动端的7000和8000系，其他的我不知道。

liu3yang3715 · 发表于 2024-5-27 11:05

请教一下大佬，这个IPU跑pytorch大约能有什么显卡的水平？

pdvc · 发表于 2024-5-27 11:13

我輩樹である发表于 2024-5-27 10:37
70b一般都是生产端的模型。

消费端随着量化技术的进步，以后本地10b左右的模型是主流。 ...

不至于吧，就70b的用起来都很一般，和生产基本不靠边😓

pdvc · 发表于 2024-5-27 11:15

tundra 发表于 2024-5-27 10:40
个人体验是qwen 32b@q4这一等级差不多就能用了，但是内存和算力短期也就能满足7b，locallm还有好长路得走 ...

发展太快了，本地的LLM根本不够打，生产力用只能opus和4o……

我輩樹である · 发表于 2024-5-27 11:15

liu3yang3715 发表于 2024-5-27 11:05
请教一下大佬，这个IPU跑pytorch大约能有什么显卡的水平？

这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s，你可以对比下。

psps3 · 发表于 2024-5-27 11:17

npu毕竟刚开始集成到cpu里，期待以后第二代，第三代的表现

我輩樹である · 发表于 2024-5-27 11:21

pdvc 发表于 2024-5-27 11:13
不至于吧，就70b的用起来都很一般，和生产基本不靠边😓

自己看吧。目前开源最强的就是llama3 70b。
https://chat.lmsys.org/?leaderboard

私有的你又不能自己玩。

而且好不好用，还要看微调和提示词工程。

小模型虽然通用对话不行，但微调为特定用途性能就上去了。

zhuifeng88 · 发表于 2024-5-27 11:21

我輩樹である发表于 2024-5-27 11:15
这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s，你可以对比下。

ipu这个真菜了, 锅大半可能得pytorch背, rk3588纯cpu跑7b q4都不止4token/s generation

我輩樹である · 发表于 2024-5-27 11:23

zhuifeng88 发表于 2024-5-27 11:21
ipu这个真菜了, 锅大半可能得pytorch背, rk3588纯cpu跑7b q4都不止4token/s

8840U纯cpu跑也比IPU快。

但是，cpu跑的时候会把系统卡死。IPU跑的时候系统正常操作没问题，cpu占比40%。

zhuifeng88 · 发表于 2024-5-27 11:37

本帖最后由 zhuifeng88 于 2024-5-27 11:46 编辑

我輩樹である发表于 2024-5-27 11:23
8840U纯cpu跑也比IPU快。

但是，cpu跑的时候会把系统卡死。IPU跑的时候系统正常操作没问题，cpu占比40% ...

考虑毕竟是offload那确实, 但是就40%CPU而言, 我严重怀疑限制3个CPU核心去跑仍然可以不止这点速度

----------
拿12700h 4800内存试了下, 两个核心就可以不止了
]~UOXAPJ95O`AE~U{2VU2T1.png

pdvc · 发表于 2024-5-27 11:52

本帖最后由 pdvc 于 2024-5-27 11:54 编辑

我輩樹である发表于 2024-5-27 11:21
自己看吧。目前开源最强的就是llama3 70b。
https://chat.lmsys.org/?leaderboard

竞技场一直有看，开源的CR+也很强，但不行就是不行，自己也训练微调折腾过，已经放弃了。现在也就TTS还能本地折腾下，LLM差距实在是太大了。

pmax · 发表于 2024-5-27 12:11

我要求比较高，根据阅读速度看，一秒必须要20 Token才有的玩。
IPU这玩意，还得练。另外就是内存带宽该升级了，要这么玩的话。不知道x3d 会不会牛逼

liu3yang3715 · 发表于 2024-5-27 13:42

我輩樹である发表于 2024-5-27 11:15
这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s，你可以对比下。

感谢回复，这样更期待下一代了。

QYE · 发表于 2024-5-27 14:02

现在8000G里集成的AI不过是先解决有无问题，算是正式开启一个新的次世代（噱头）篇章的存在而已，至于生产力啥的那基本就是想多了……

不过比较奇怪的是Win11的任务管理器早已可以显示INTEL的NPU了，但AMD的NPU就不支持。

我輩樹である · 发表于 2024-5-27 14:05

QYE 发表于 2024-5-27 14:02
现在8000G里集成的AI不过是先解决有无问题，算是正式开启一个新的次世代（噱头）篇章的存在而已，至于生产 ...

软件支持上intel还是要强一点（和windows紧密一些，毕竟老搭档了）。

amd是收购整合赛灵思的ip，还需要时间，况且amd软件方面本来就不是很上心。

QYE · 发表于 2024-5-27 14:15

我輩樹である发表于 2024-5-27 14:05
软件支持上intel还是要强一点（和windows紧密一些，毕竟老搭档了）。

amd是收购整合赛灵思的ip，还需要 ...

淘宝有M.2规格的NPU卖，芯片是以色列的Hailo-8，26TOPS算力，比APU这个强了一大截，但价格也比较感人。

以后发展趋势应该就是类似这种M.2形态的AI计算卡百花齐放了吧。

zhuifeng88 · 发表于 2024-5-27 14:19

本帖最后由 zhuifeng88 于 2024-5-27 14:22 编辑

QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖，芯片是以色列的Hailo-8，26TOPS算力，比APU这个强了一大截，但价格也比较感人。

...

llm generation阶段到后面几乎都是带宽瓶颈(除非算力低得过于离谱), m.2规格, 甚至所有PCIE卡这里就已经死路一条了 (除非像显卡一样自己存所有参数(或者至少是大部分参数)), 避免在pcie上传输

我輩樹である · 发表于 2024-5-27 14:27

QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖，芯片是以色列的Hailo-8，26TOPS算力，比APU这个强了一大截，但价格也比较感人。

...

马上要发的strix point就有了。

q3again0605 · 发表于 2024-5-27 15:13

tundra 发表于 2024-5-27 10:40
个人体验是qwen 32b@q4这一等级差不多就能用了，但是内存和算力短期也就能满足7b，locallm还有好长路得走 ...

agent能力还不如14b，不知道是哪个环节有问题

OMJ · 发表于 2024-5-27 15:33

7b的智商不够，基本没啥好的用处，llama3 70b就好多了，ai 现在对普通人来说本地成本还是太高。当下分布计算可能是更有性价比的算力方案，充分利用cpu+gpu甚至npu

yueyue · 发表于 2024-5-27 19:31

pdvc 发表于 2024-5-27 11:13
不至于吧，就70b的用起来都很一般，和生产基本不靠边😓

主要看微调和提示词用法，有条件再搞搞RAG，体验上应该已经很不错了

liyichao97 · 发表于 2024-5-27 19:44

微软前几天那个发布会说phi silica跑在本地有20多token/s，但是看那个措辞好像是只有prefill用npu，推理用的是cpu，估计npu实在是不够快
从phi3的表现推断的话phi silica的智力水准应该是能达到本地llm能用的底线的，如果能解放cpu，只靠npu达到20+token/s的话那就比较理想了

q3again0605 · 发表于 2024-5-27 20:20

liyichao97 发表于 2024-5-27 19:44
微软前几天那个发布会说phi silica跑在本地有20多token/s，但是看那个措辞好像是只有prefill用npu，推理用 ...

prefill靠算力，decode推理主要看显存/内存带宽。15以上token/s基本可以接受了。

hustlhx · 发表于 2024-5-27 20:24

QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖，芯片是以色列的Hailo-8，26TOPS算力，比APU这个强了一大截，但价格也比较感人。

...

26T也太少了，微软对AI PC的要求是至少40T，马上要发布的strix point应该轻松超过40T

QYE · 发表于 2024-5-28 08:45

hustlhx 发表于 2024-5-27 20:24
26T也太少了，微软对AI PC的要求是至少40T，马上要发布的strix point应该轻松超过40T ...

买两个不就轻松超过40TOPS了……

账号		自动登录	找回密码
密码			加入我们

[显卡] 想知道目前APU的AI性能么？IPU篇