Zen4的AVX512有用么

lshzh · 发表于 2023-8-3 22:04

zhuifeng88 发表于 2023-8-3 19:58
llama.cpp是毫无疑问的memory bandwidth bound啊, 你看imc性能计数或者profiling一下就能发现的

他的实现 ...

llama.cpp不全是memory bound，在一个一个往外跳tok时确实是卡内存带宽，因为这个时候内部全在算矩阵向量乘法。
在你输入一大段文字几十上百toks等模型理解时是卡计算的，这个时候batch size默认512，内部是在算矩阵矩阵乘法的。如果说想对比计算能力，应该看耗时中prompt eval这一项

不过话说回来，这一步llama.cpp好像是直接调blas库的，所以不如直接看各自cpu最优blas库的gemm速度了

lshzh · 发表于 2023-8-4 00:20

zhuifeng88 发表于 2023-8-3 22:49
cpu侧ggml的量化推理是他自己实现的, 并没用blas库, (而且常见blas库也没针对分块量化数据的实现), 至于 ...

可选的，你编译时链接了blas它就会用

blas库当然没有量化实现，所以llama.cpp这时候会先解压缩量化的权重到内存里再算乘法

大部分时候prompt eval是不用太多时间，两个例外一是ctx装满的时候，这时llama.cpp会把ctx/2的内容从新过一遍，8192ctx就要重新算一下4096个tok，另一个是你想让模型给你总结文章时当然也是prompt eval占主导

最主要不是楼主想看avx512在llama.cpp上的影响嘛，那就只有这个项目好看了

账号		自动登录	找回密码
密码			加入我们

[CPU] Zen4的AVX512有用么

浏览过的版块