找回密码
 加入我们
搜索
      
查看: 12726|回复: 22

[CPU] Zen4的AVX512有用么

[复制链接]
发表于 2023-8-3 22:04 | 显示全部楼层
zhuifeng88 发表于 2023-8-3 19:58
llama.cpp是毫无疑问的memory bandwidth bound啊, 你看imc性能计数或者profiling一下就能发现的

他的实现 ...

llama.cpp不全是memory bound,在一个一个往外跳tok时确实是卡内存带宽,因为这个时候内部全在算矩阵向量乘法。
在你输入一大段文字几十上百toks等模型理解时是卡计算的,这个时候batch size默认512,内部是在算矩阵矩阵乘法的。如果说想对比计算能力,应该看耗时中prompt eval这一项

不过话说回来,这一步llama.cpp好像是直接调blas库的,所以不如直接看各自cpu最优blas库的gemm速度了

发表于 2023-8-4 00:20 | 显示全部楼层
zhuifeng88 发表于 2023-8-3 22:49
cpu侧ggml的量化推理是他自己实现的, 并没用blas库, (而且常见blas库也没针对分块量化数据的实现), 至于 ...

可选的,你编译时链接了blas它就会用

blas库当然没有量化实现,所以llama.cpp这时候会先解压缩量化的权重到内存里再算乘法

大部分时候prompt eval是不用太多时间,两个例外一是ctx装满的时候,这时llama.cpp会把ctx/2的内容从新过一遍,8192ctx就要重新算一下4096个tok,另一个是你想让模型给你总结文章时当然也是prompt eval占主导

最主要不是楼主想看avx512在llama.cpp上的影响嘛,那就只有这个项目好看了

您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-7-17 19:08 , Processed in 0.008956 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表