找回密码
 加入我们
搜索
      
查看: 2944|回复: 34

[显卡] 想知道目前APU的AI性能么?IPU篇

[复制链接]
发表于 2024-5-27 09:18 | 显示全部楼层 |阅读模式
本帖最后由 我輩樹である 于 2024-5-28 10:19 编辑

8840U(cTDP 15-30W)。纸面性能AI算力16T。

8840U里面的IPU目前支持的int4和bf16。也支持混合精度运算,也就是下面要用到的w4abf16量化方式(权重int4,激活层fp16)。

按照amd官方的教程操作,模型为:llama2 7B w4a16 awq量化 +flash attention + lm head。

我这个机器BIOS限制了20w功耗,使用RyzenAdj调节cpu总功耗,得出了10w,15w,20w的功耗下的测试结果:
10w
aie 10w.png
15w
aie 15w.png
20w
aie 20w.png

在运行过程中,IPU一直保持1.6GHz的频率,所以,这个性能差距可能是因为CPU功耗控制导致的。

长链下可以有接近4 token/s的速度,说实话,相当符合预期,速度居然不慢,至少不是玩具。

客户训练时期,要的只是植入一颗种子,别要求的太多。

-------------------------------------------------------

大家觉得4bit模型是个笑话么?其实还是有点用途。比如用在RAG程序上,finetune在某个狭窄的知识领域也有比较好的效果,但目前这个速度还是有点慢了。

未来肯定是云边本地结合的时代。如果下一代有40T以上的算力,10 t/s的速度,locallm才能起飞。无论是amd还是intel,我觉得这一代AI处理器肯定是想尽快翻篇过去了。

intel的测试也在路上,机器是matebook x pro。

------------------------------------------------------
另外,AI不止大模型,这个ipu在视觉方面的任务还是挺给力的,虽然也只能执行mobile级别的模型。具体可以看ryzenai的官方文档。

amd也提供了用于ipu开发的ide,Vitis,说实话挺难安装的,感觉amd的软件好像缺乏普遍适用性的测试。
发表于 2024-5-27 09:26 来自手机 | 显示全部楼层
7b就是玩具,没啥意义,至少得能跑70b还差不多能用,虽然也一般……
 楼主| 发表于 2024-5-27 10:37 | 显示全部楼层
pdvc 发表于 2024-5-27 09:26
7b就是玩具,没啥意义,至少得能跑70b还差不多能用,虽然也一般……

70b一般都是生产端的模型。

消费端随着量化技术的进步,以后本地10b左右的模型是主流。
发表于 2024-5-27 10:40 | 显示全部楼层
pdvc 发表于 2024-5-27 09:26
7b就是玩具,没啥意义,至少得能跑70b还差不多能用,虽然也一般……

个人体验是qwen 32b@q4这一等级差不多就能用了,但是内存和算力短期也就能满足7b,locallm还有好长路得走
发表于 2024-5-27 10:56 | 显示全部楼层
农家哪些cpu是带ai的
 楼主| 发表于 2024-5-27 11:04 | 显示全部楼层
fofo 发表于 2024-5-27 10:56
农家哪些cpu是带ai的

移动端的7000和8000系,其他的我不知道。
发表于 2024-5-27 11:05 | 显示全部楼层
请教一下大佬,这个IPU跑pytorch大约能有什么显卡的水平?
发表于 2024-5-27 11:13 来自手机 | 显示全部楼层
我輩樹である 发表于 2024-5-27 10:37
70b一般都是生产端的模型。

消费端随着量化技术的进步,以后本地10b左右的模型是主流。 ...

不至于吧,就70b的用起来都很一般,和生产基本不靠边😓
发表于 2024-5-27 11:15 来自手机 | 显示全部楼层
tundra 发表于 2024-5-27 10:40
个人体验是qwen 32b@q4这一等级差不多就能用了,但是内存和算力短期也就能满足7b,locallm还有好长路得走 ...

发展太快了,本地的LLM根本不够打,生产力用只能opus和4o……
 楼主| 发表于 2024-5-27 11:15 | 显示全部楼层
liu3yang3715 发表于 2024-5-27 11:05
请教一下大佬,这个IPU跑pytorch大约能有什么显卡的水平?


这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s,你可以对比下。
发表于 2024-5-27 11:17 来自手机 | 显示全部楼层
npu毕竟刚开始集成到cpu里,期待以后第二代,第三代的表现
 楼主| 发表于 2024-5-27 11:21 | 显示全部楼层
pdvc 发表于 2024-5-27 11:13
不至于吧,就70b的用起来都很一般,和生产基本不靠边😓


自己看吧。目前开源最强的就是llama3 70b。
https://chat.lmsys.org/?leaderboard

私有的你又不能自己玩。

而且好不好用,还要看微调和提示词工程。

小模型虽然通用对话不行,但微调为特定用途性能就上去了。
发表于 2024-5-27 11:21 | 显示全部楼层
我輩樹である 发表于 2024-5-27 11:15
这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s,你可以对比下。


ipu这个真菜了, 锅大半可能得pytorch背, rk3588纯cpu跑7b q4都不止4token/s generation
 楼主| 发表于 2024-5-27 11:23 | 显示全部楼层
zhuifeng88 发表于 2024-5-27 11:21
ipu这个真菜了, 锅大半可能得pytorch背, rk3588纯cpu跑7b q4都不止4token/s

8840U纯cpu跑也比IPU快。

但是,cpu跑的时候会把系统卡死。IPU跑的时候系统正常操作没问题,cpu占比40%。
发表于 2024-5-27 11:37 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-5-27 11:46 编辑
我輩樹である 发表于 2024-5-27 11:23
8840U纯cpu跑也比IPU快。

但是,cpu跑的时候会把系统卡死。IPU跑的时候系统正常操作没问题,cpu占比40% ...


考虑毕竟是offload那确实, 但是就40%CPU而言, 我严重怀疑限制3个CPU核心去跑仍然可以不止这点速度

----------
拿12700h 4800内存试了下, 两个核心就可以不止了
]~UOXAPJ95O`AE~U{2VU2T1.png
发表于 2024-5-27 11:52 来自手机 | 显示全部楼层
本帖最后由 pdvc 于 2024-5-27 11:54 编辑
我輩樹である 发表于 2024-5-27 11:21
自己看吧。目前开源最强的就是llama3 70b。
https://chat.lmsys.org/?leaderboard



竞技场一直有看,开源的CR+也很强,但不行就是不行,自己也训练微调折腾过,已经放弃了。现在也就TTS还能本地折腾下,LLM差距实在是太大了。
发表于 2024-5-27 12:11 | 显示全部楼层
我要求比较高,根据阅读速度看,一秒必须要20 Token才有的玩。
IPU这玩意,还得练。另外就是内存带宽该升级了,要这么玩的话。不知道x3d 会不会牛逼
发表于 2024-5-27 13:42 | 显示全部楼层
我輩樹である 发表于 2024-5-27 11:15
这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s,你可以对比下。

感谢回复,这样更期待下一代了。
发表于 2024-5-27 14:02 | 显示全部楼层
现在8000G里集成的AI不过是先解决有无问题,算是正式开启一个新的次世代(噱头)篇章的存在而已,至于生产力啥的那基本就是想多了……

不过比较奇怪的是Win11的任务管理器早已可以显示INTEL的NPU了,但AMD的NPU就不支持。
 楼主| 发表于 2024-5-27 14:05 | 显示全部楼层
QYE 发表于 2024-5-27 14:02
现在8000G里集成的AI不过是先解决有无问题,算是正式开启一个新的次世代(噱头)篇章的存在而已,至于生产 ...

软件支持上intel还是要强一点(和windows紧密一些,毕竟老搭档了)。

amd是收购整合赛灵思的ip,还需要时间,况且amd软件方面本来就不是很上心。
发表于 2024-5-27 14:15 | 显示全部楼层
我輩樹である 发表于 2024-5-27 14:05
软件支持上intel还是要强一点(和windows紧密一些,毕竟老搭档了)。

amd是收购整合赛灵思的ip,还需要 ...

淘宝有M.2规格的NPU卖,芯片是以色列的Hailo-8,26TOPS算力,比APU这个强了一大截,但价格也比较感人。

以后发展趋势应该就是类似这种M.2形态的AI计算卡百花齐放了吧。
发表于 2024-5-27 14:19 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-5-27 14:22 编辑
QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖,芯片是以色列的Hailo-8,26TOPS算力,比APU这个强了一大截,但价格也比较感人。

...


llm generation阶段到后面几乎都是带宽瓶颈(除非算力低得过于离谱), m.2规格, 甚至所有PCIE卡这里就已经死路一条了 (除非像显卡一样自己存所有参数(或者至少是大部分参数)), 避免在pcie上传输
 楼主| 发表于 2024-5-27 14:27 | 显示全部楼层
QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖,芯片是以色列的Hailo-8,26TOPS算力,比APU这个强了一大截,但价格也比较感人。

...

马上要发的strix point就有了。
发表于 2024-5-27 15:13 | 显示全部楼层
tundra 发表于 2024-5-27 10:40
个人体验是qwen 32b@q4这一等级差不多就能用了,但是内存和算力短期也就能满足7b,locallm还有好长路得走 ...

agent能力还不如14b,不知道是哪个环节有问题
发表于 2024-5-27 15:33 | 显示全部楼层
7b的智商不够,基本没啥好的用处,llama3 70b就好多了,ai 现在对普通人来说本地成本还是太高。当下分布计算可能是更有性价比的算力方案,充分利用cpu+gpu甚至npu
发表于 2024-5-27 19:31 来自手机 | 显示全部楼层
pdvc 发表于 2024-5-27 11:13
不至于吧,就70b的用起来都很一般,和生产基本不靠边😓

主要看微调和提示词用法,有条件再搞搞RAG,体验上应该已经很不错了
发表于 2024-5-27 19:44 | 显示全部楼层
微软前几天那个发布会说phi silica跑在本地有20多token/s,但是看那个措辞好像是只有prefill用npu,推理用的是cpu,估计npu实在是不够快
从phi3的表现推断的话phi silica的智力水准应该是能达到本地llm能用的底线的,如果能解放cpu,只靠npu达到20+token/s的话那就比较理想了
发表于 2024-5-27 20:20 | 显示全部楼层
liyichao97 发表于 2024-5-27 19:44
微软前几天那个发布会说phi silica跑在本地有20多token/s,但是看那个措辞好像是只有prefill用npu,推理用 ...

prefill靠算力,decode推理主要看显存/内存带宽。15以上token/s基本可以接受了。
发表于 2024-5-27 20:24 | 显示全部楼层
QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖,芯片是以色列的Hailo-8,26TOPS算力,比APU这个强了一大截,但价格也比较感人。

...

26T也太少了,微软对AI PC的要求是至少40T,马上要发布的strix point应该轻松超过40T
发表于 2024-5-28 08:45 | 显示全部楼层
hustlhx 发表于 2024-5-27 20:24
26T也太少了,微软对AI PC的要求是至少40T,马上要发布的strix point应该轻松超过40T ...

买两个不就轻松超过40TOPS了……
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-6-18 00:02 , Processed in 0.015501 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表