zhuifeng88 发表于 2023-8-3 19:58
llama.cpp是毫无疑问的memory bandwidth bound啊, 你看imc性能计数或者profiling一下就能发现的
另外llama ...
我輩樹である 发表于 2023-8-3 20:08
memory bandwidth之前测的好像amd的还慢一些。
zhuifeng88 发表于 2023-8-3 20:15
而且视频可以看到你跑的是量化模型
量化的模型目前的实现实际上是几乎不会运行任何avx512的代码的 ...
zhuifeng88 发表于 2023-8-3 20:18
耗时95%以上的大头ggml_vec_dot_q4_0_q8_0里压根没有一丁点512宽度的代码
对于avx512vnni整个repo里甚至 ...
我輩樹である 发表于 2023-8-3 20:21
那我不解为什么有这种情况。刚才又测了下,intel的memory各项指标都是领先的。 ...
zhuifeng88 发表于 2023-8-3 20:25
因为intel的main cache现在是l2, l3整个都是victim cache, 在这种victim完全无效的场景下 intel的l3等效 ...
zhuifeng88 发表于 2023-8-3 19:58
llama.cpp是毫无疑问的memory bandwidth bound啊, 你看imc性能计数或者profiling一下就能发现的
他的实现 ...
ghgfhghj 发表于 2023-8-3 20:51
玩ps3模拟器有用
lshzh 发表于 2023-8-3 22:04
llama.cpp不全是memory bound,在一个一个往外跳tok时确实是卡内存带宽,因为这个时候内部全在算矩阵向量 ...
a6057c 发表于 2023-8-3 21:04
llama这种大模型推理几乎纯吃带宽不吃算力,上多强的AVX都不如超内存有用。13980HX是4800内存吧? ...
zhuifeng88 发表于 2023-8-3 22:49
cpu侧ggml的量化推理是他自己实现的, 并没用blas库, (而且常见blas库也没针对分块量化数据的实现), 至于 ...
欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) | Powered by Discuz! X3.5 |