zhuifeng88 发表于 2024-11-11 23:17

godspeed66 发表于 2024-11-4 15:56
万分感谢 对 prompt prefill 更 清晰了

prompt prefill 在哪里设置啊?


你跑单卡ada 10token/s的话合理怀疑用的是q4_k_m量化, 而不是iq4_xs量化, 前者作为"古典"量化方式, 损失基本一样的情况下bpw比后者高不少, 如果用的是前者的话单卡是会轻微爆显存的, 10token/s就很合理了

Krakenius 发表于 2024-11-11 23:29

秋天的酒 发表于 2024-10-31 15:24
“我身边都是”

联想销量居然超过戴尔和惠普

godspeed66 发表于 2024-11-12 22:53

本帖最后由 godspeed66 于 2024-11-13 20:51 编辑

zhuifeng88 发表于 2024-11-11 23:17
你跑单卡ada 10token/s的话合理怀疑用的是q4_k_m量化, 而不是iq4_xs量化, 前者作为"古典"量化方式, 损失 ...

M4 MAX 128G

RAG对话。chatchat+xinference qwen2.5-72b-mlx-8bit

2024-11-12 22:46:38,018 xinference.model.llm.mlx.core 9938 INFO   Average generation speed: 0.59 tokens/s.

2024-11-12 22:51:15,523 xinference.model.llm.mlx.core 9938 INFO   Average generation speed: 0.53 tokens/s.


RAG对话。chatchat+xinference qwen2.5-32b-mlx-8bit

2024-11-12 22:59:05,647 xinference.model.llm.mlx.core 23115 INFO   Average generation speed: 5.81 tokens/s.
2024-11-12 23:00:29,167 xinference.model.llm.mlx.core 23115 INFO   Average generation speed: 6.27 tokens/s.


不知道为啥72b 在RAG环节完蛋了,32B的还行

基本判断是MAC环境下Xinference的问题

zhuifeng88 发表于 2024-11-12 23:43

godspeed66 发表于 2024-11-12 22:53
M4 MAX 128G

RAG对话。chatchat+xinference qwen2.5-72b-mlx-8bit


retrieve放进去的context一共多少token

dxh216 发表于 2024-11-13 08:33

KMDYX 发表于 2024-10-31 13:24
可能库克都不知道到自家的mac这么牛逼

macos在工业制造还是不行,很多专业软件都没有。

godspeed66 发表于 2024-11-13 20:50

zhuifeng88 发表于 2024-11-12 23:43
retrieve放进去的context一共多少token

怎么放[晕倒] 不会啊

godspeed66 发表于 2024-11-13 20:59

本帖最后由 godspeed66 于 2024-11-13 22:50 编辑

zhuifeng88 发表于 2024-11-12 23:43
retrieve放进去的context一共多少token

chatchat + ollama qwen2.5:72b-instruct-q8_0

RAG 同样问题

2024/11/13 - 20:49:21 | 200 |         2m46s |       127.0.0.1 | POST   "/v1/chat/completions"。 反馈927个文字,大约 5.5 tokens/s.

72B-q8的能力是真好,不知道为啥,分析历史文档的能力明显比int8-MLX的好

非RAG
2024/11/13 - 20:56:18 | 200 |          1m0s |       127.0.0.1 | POST   "/v1/chat/completions"。 反馈546个文字,大约 9.1tokens/s. (速度不稳定,慢的时候大致6-8 t/s,与回答问题长短有关)

性能和能力 都非常满意





图片中是使用互联网agent回答问题,反馈889个文字,大约 6.8 tokens/s.

sciwander 发表于 2024-11-13 21:35

applebench跑分你也信~

zhuifeng88 发表于 2024-11-13 22:52

godspeed66 发表于 2024-11-13 20:59
chatchat + ollama qwen2.5:72b-instruct-q8_0

RAG 同样问题


你这个ollama跑得快很可能是因为prompt长度被ollama默认2048截断了 看你截图log倒数第二行警告
xinference默认是不会这样截断的

上面我想问的是你用xinference特别慢的那个 含文档的prompt总长有多少token

godspeed66 发表于 2024-11-14 15:46

本帖最后由 godspeed66 于 2024-11-14 15:57 编辑

zhuifeng88 发表于 2024-11-13 22:52
你这个ollama跑得快很可能是因为prompt长度被ollama默认2048截断了 看你截图log倒数第二行警告
xinferenc ...

嗯嗯。 注意到了 谢谢。 已经改成32K上下文

ollama show qwen2.5:72b-i-q8-ctx32k
Model
    architecture      qwen2   
    parameters          72.7B   
    context length      32768   
    embedding length    8192   
    quantization      Q8_0   

Parameters
    num_ctx    32768   




速度大约 5 t/s

PS:连续使用一会儿后有的时候速度会掉到3.5 t/s
页: 1 2 3 4 5 6 7 8 [9]
查看完整版本: M4这下真是把牢英的脸都发打肿了,同样是N3B工艺牢英做出来就是一坨