zhuifeng88
发表于 2024-11-11 23:17
godspeed66 发表于 2024-11-4 15:56
万分感谢 对 prompt prefill 更 清晰了
prompt prefill 在哪里设置啊?
你跑单卡ada 10token/s的话合理怀疑用的是q4_k_m量化, 而不是iq4_xs量化, 前者作为"古典"量化方式, 损失基本一样的情况下bpw比后者高不少, 如果用的是前者的话单卡是会轻微爆显存的, 10token/s就很合理了
Krakenius
发表于 2024-11-11 23:29
秋天的酒 发表于 2024-10-31 15:24
“我身边都是”
联想销量居然超过戴尔和惠普
godspeed66
发表于 2024-11-12 22:53
本帖最后由 godspeed66 于 2024-11-13 20:51 编辑
zhuifeng88 发表于 2024-11-11 23:17
你跑单卡ada 10token/s的话合理怀疑用的是q4_k_m量化, 而不是iq4_xs量化, 前者作为"古典"量化方式, 损失 ...
M4 MAX 128G
RAG对话。chatchat+xinference qwen2.5-72b-mlx-8bit
2024-11-12 22:46:38,018 xinference.model.llm.mlx.core 9938 INFO Average generation speed: 0.59 tokens/s.
2024-11-12 22:51:15,523 xinference.model.llm.mlx.core 9938 INFO Average generation speed: 0.53 tokens/s.
RAG对话。chatchat+xinference qwen2.5-32b-mlx-8bit
2024-11-12 22:59:05,647 xinference.model.llm.mlx.core 23115 INFO Average generation speed: 5.81 tokens/s.
2024-11-12 23:00:29,167 xinference.model.llm.mlx.core 23115 INFO Average generation speed: 6.27 tokens/s.
不知道为啥72b 在RAG环节完蛋了,32B的还行
基本判断是MAC环境下Xinference的问题
zhuifeng88
发表于 2024-11-12 23:43
godspeed66 发表于 2024-11-12 22:53
M4 MAX 128G
RAG对话。chatchat+xinference qwen2.5-72b-mlx-8bit
retrieve放进去的context一共多少token
dxh216
发表于 2024-11-13 08:33
KMDYX 发表于 2024-10-31 13:24
可能库克都不知道到自家的mac这么牛逼
macos在工业制造还是不行,很多专业软件都没有。
godspeed66
发表于 2024-11-13 20:50
zhuifeng88 发表于 2024-11-12 23:43
retrieve放进去的context一共多少token
怎么放[晕倒] 不会啊
godspeed66
发表于 2024-11-13 20:59
本帖最后由 godspeed66 于 2024-11-13 22:50 编辑
zhuifeng88 发表于 2024-11-12 23:43
retrieve放进去的context一共多少token
chatchat + ollama qwen2.5:72b-instruct-q8_0
RAG 同样问题
2024/11/13 - 20:49:21 | 200 | 2m46s | 127.0.0.1 | POST "/v1/chat/completions"。 反馈927个文字,大约 5.5 tokens/s.
72B-q8的能力是真好,不知道为啥,分析历史文档的能力明显比int8-MLX的好
非RAG
2024/11/13 - 20:56:18 | 200 | 1m0s | 127.0.0.1 | POST "/v1/chat/completions"。 反馈546个文字,大约 9.1tokens/s. (速度不稳定,慢的时候大致6-8 t/s,与回答问题长短有关)
性能和能力 都非常满意
图片中是使用互联网agent回答问题,反馈889个文字,大约 6.8 tokens/s.
sciwander
发表于 2024-11-13 21:35
applebench跑分你也信~
zhuifeng88
发表于 2024-11-13 22:52
godspeed66 发表于 2024-11-13 20:59
chatchat + ollama qwen2.5:72b-instruct-q8_0
RAG 同样问题
你这个ollama跑得快很可能是因为prompt长度被ollama默认2048截断了 看你截图log倒数第二行警告
xinference默认是不会这样截断的
上面我想问的是你用xinference特别慢的那个 含文档的prompt总长有多少token
godspeed66
发表于 2024-11-14 15:46
本帖最后由 godspeed66 于 2024-11-14 15:57 编辑
zhuifeng88 发表于 2024-11-13 22:52
你这个ollama跑得快很可能是因为prompt长度被ollama默认2048截断了 看你截图log倒数第二行警告
xinferenc ...
嗯嗯。 注意到了 谢谢。 已经改成32K上下文
ollama show qwen2.5:72b-i-q8-ctx32k
Model
architecture qwen2
parameters 72.7B
context length 32768
embedding length 8192
quantization Q8_0
Parameters
num_ctx 32768
速度大约 5 t/s
PS:连续使用一会儿后有的时候速度会掉到3.5 t/s