想知道目前APU的AI性能么?IPU篇
本帖最后由 我輩樹である 于 2024-5-28 10:19 编辑8840U(cTDP 15-30W)。纸面性能AI算力16T。
8840U里面的IPU目前支持的int4和bf16。也支持混合精度运算,也就是下面要用到的w4abf16量化方式(权重int4,激活层fp16)。
按照amd官方的教程操作,模型为:llama2 7B w4a16 awq量化 +flash attention + lm head。
我这个机器BIOS限制了20w功耗,使用RyzenAdj调节cpu总功耗,得出了10w,15w,20w的功耗下的测试结果:
10w
15w
20w
在运行过程中,IPU一直保持1.6GHz的频率,所以,这个性能差距可能是因为CPU功耗控制导致的。
长链下可以有接近4 token/s的速度,说实话,相当符合预期,速度居然不慢,至少不是玩具。
客户训练时期,要的只是植入一颗种子,别要求的太多。
-------------------------------------------------------
大家觉得4bit模型是个笑话么?其实还是有点用途。比如用在RAG程序上,finetune在某个狭窄的知识领域也有比较好的效果,但目前这个速度还是有点慢了。
未来肯定是云边本地结合的时代。如果下一代有40T以上的算力,10 t/s的速度,locallm才能起飞。无论是amd还是intel,我觉得这一代AI处理器肯定是想尽快翻篇过去了。
intel的测试也在路上,机器是matebook x pro。
------------------------------------------------------
另外,AI不止大模型,这个ipu在视觉方面的任务还是挺给力的,虽然也只能执行mobile级别的模型。具体可以看ryzenai的官方文档。
amd也提供了用于ipu开发的ide,Vitis,说实话挺难安装的,感觉amd的软件好像缺乏普遍适用性的测试。 7b就是玩具,没啥意义,至少得能跑70b还差不多能用,虽然也一般…… pdvc 发表于 2024-5-27 09:26
7b就是玩具,没啥意义,至少得能跑70b还差不多能用,虽然也一般……
70b一般都是生产端的模型。
消费端随着量化技术的进步,以后本地10b左右的模型是主流。 pdvc 发表于 2024-5-27 09:26
7b就是玩具,没啥意义,至少得能跑70b还差不多能用,虽然也一般……
个人体验是qwen 32b@q4这一等级差不多就能用了,但是内存和算力短期也就能满足7b,locallm还有好长路得走 农家哪些cpu是带ai的 fofo 发表于 2024-5-27 10:56
农家哪些cpu是带ai的
移动端的7000和8000系,其他的我不知道。 请教一下大佬,这个IPU跑pytorch大约能有什么显卡的水平? 我輩樹である 发表于 2024-5-27 10:37
70b一般都是生产端的模型。
消费端随着量化技术的进步,以后本地10b左右的模型是主流。 ...
不至于吧,就70b的用起来都很一般,和生产基本不靠边😓 tundra 发表于 2024-5-27 10:40
个人体验是qwen 32b@q4这一等级差不多就能用了,但是内存和算力短期也就能满足7b,locallm还有好长路得走 ...
发展太快了,本地的LLM根本不够打,生产力用只能opus和4o…… liu3yang3715 发表于 2024-5-27 11:05
请教一下大佬,这个IPU跑pytorch大约能有什么显卡的水平?
这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s,你可以对比下。 npu毕竟刚开始集成到cpu里,期待以后第二代,第三代的表现 pdvc 发表于 2024-5-27 11:13
不至于吧,就70b的用起来都很一般,和生产基本不靠边😓
自己看吧。目前开源最强的就是llama3 70b。
https://chat.lmsys.org/?leaderboard
私有的你又不能自己玩。
而且好不好用,还要看微调和提示词工程。
小模型虽然通用对话不行,但微调为特定用途性能就上去了。 我輩樹である 发表于 2024-5-27 11:15
这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s,你可以对比下。
ipu这个真菜了, 锅大半可能得pytorch背, rk3588纯cpu跑7b q4都不止4token/s generation zhuifeng88 发表于 2024-5-27 11:21
ipu这个真菜了, 锅大半可能得pytorch背, rk3588纯cpu跑7b q4都不止4token/s
8840U纯cpu跑也比IPU快。
但是,cpu跑的时候会把系统卡死。IPU跑的时候系统正常操作没问题,cpu占比40%。 本帖最后由 zhuifeng88 于 2024-5-27 11:46 编辑
我輩樹である 发表于 2024-5-27 11:23
8840U纯cpu跑也比IPU快。
但是,cpu跑的时候会把系统卡死。IPU跑的时候系统正常操作没问题,cpu占比40% ...
考虑毕竟是offload那确实, 但是就40%CPU而言, 我严重怀疑限制3个CPU核心去跑仍然可以不止这点速度
----------
拿12700h 4800内存试了下, 两个核心就可以不止了
本帖最后由 pdvc 于 2024-5-27 11:54 编辑
我輩樹である 发表于 2024-5-27 11:21
自己看吧。目前开源最强的就是llama3 70b。
https://chat.lmsys.org/?leaderboard
竞技场一直有看,开源的CR+也很强,但不行就是不行,自己也训练微调折腾过,已经放弃了。现在也就TTS还能本地折腾下,LLM差距实在是太大了。 我要求比较高,根据阅读速度看,一秒必须要20 Token才有的玩。
IPU这玩意,还得练。另外就是内存带宽该升级了,要这么玩的话。不知道x3d 会不会牛逼 我輩樹である 发表于 2024-5-27 11:15
这个就是pytorch跑的。llama2 7bq4在4090上可以跑200+ token/s,你可以对比下。
感谢回复,这样更期待下一代了。 现在8000G里集成的AI不过是先解决有无问题,算是正式开启一个新的次世代(噱头)篇章的存在而已,至于生产力啥的那基本就是想多了……
不过比较奇怪的是Win11的任务管理器早已可以显示INTEL的NPU了,但AMD的NPU就不支持。 QYE 发表于 2024-5-27 14:02
现在8000G里集成的AI不过是先解决有无问题,算是正式开启一个新的次世代(噱头)篇章的存在而已,至于生产 ...
软件支持上intel还是要强一点(和windows紧密一些,毕竟老搭档了)。
amd是收购整合赛灵思的ip,还需要时间,况且amd软件方面本来就不是很上心。 我輩樹である 发表于 2024-5-27 14:05
软件支持上intel还是要强一点(和windows紧密一些,毕竟老搭档了)。
amd是收购整合赛灵思的ip,还需要 ...
淘宝有M.2规格的NPU卖,芯片是以色列的Hailo-8,26TOPS算力,比APU这个强了一大截,但价格也比较感人。
以后发展趋势应该就是类似这种M.2形态的AI计算卡百花齐放了吧。 本帖最后由 zhuifeng88 于 2024-5-27 14:22 编辑
QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖,芯片是以色列的Hailo-8,26TOPS算力,比APU这个强了一大截,但价格也比较感人。
...
llm generation阶段到后面几乎都是带宽瓶颈(除非算力低得过于离谱), m.2规格, 甚至所有PCIE卡这里就已经死路一条了 (除非像显卡一样自己存所有参数(或者至少是大部分参数)), 避免在pcie上传输 QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖,芯片是以色列的Hailo-8,26TOPS算力,比APU这个强了一大截,但价格也比较感人。
...
马上要发的strix point就有了。 tundra 发表于 2024-5-27 10:40
个人体验是qwen 32b@q4这一等级差不多就能用了,但是内存和算力短期也就能满足7b,locallm还有好长路得走 ...
agent能力还不如14b,不知道是哪个环节有问题 7b的智商不够,基本没啥好的用处,llama3 70b就好多了,ai 现在对普通人来说本地成本还是太高。当下分布计算可能是更有性价比的算力方案,充分利用cpu+gpu甚至npu pdvc 发表于 2024-5-27 11:13
不至于吧,就70b的用起来都很一般,和生产基本不靠边😓
主要看微调和提示词用法,有条件再搞搞RAG,体验上应该已经很不错了 微软前几天那个发布会说phi silica跑在本地有20多token/s,但是看那个措辞好像是只有prefill用npu,推理用的是cpu,估计npu实在是不够快
从phi3的表现推断的话phi silica的智力水准应该是能达到本地llm能用的底线的,如果能解放cpu,只靠npu达到20+token/s的话那就比较理想了 liyichao97 发表于 2024-5-27 19:44
微软前几天那个发布会说phi silica跑在本地有20多token/s,但是看那个措辞好像是只有prefill用npu,推理用 ...
prefill靠算力,decode推理主要看显存/内存带宽。15以上token/s基本可以接受了。 QYE 发表于 2024-5-27 14:15
淘宝有M.2规格的NPU卖,芯片是以色列的Hailo-8,26TOPS算力,比APU这个强了一大截,但价格也比较感人。
...
26T也太少了,微软对AI PC的要求是至少40T,马上要发布的strix point应该轻松超过40T hustlhx 发表于 2024-5-27 20:24
26T也太少了,微软对AI PC的要求是至少40T,马上要发布的strix point应该轻松超过40T ...
买两个不就轻松超过40TOPS了……[偷笑]
页:
[1]
2