uprit
发表于 2025-2-12 17:55
zhuifeng88 发表于 2025-2-12 17:52
没跑过才说的出这话...16g几百context就不行了,几百context给谁用啊,拉起来就跑个hello llm图一乐吗 ...
你就说16G能不能跑起来嘛!
你真想要长上下文64k那种,单卡4090它也不够呀。
oolmfoo
发表于 2025-2-12 18:16
Intel 又贏了,AMX才有用
Vossk
发表于 2025-2-12 22:27
真不错,都是没卡、天价卡逼出来的[偷笑]
赫敏
发表于 2025-2-13 02:01
zhuifeng88 发表于 2025-2-12 04:55
没砍啊....MoE就是这样工作的 原始的是每层256 expert 每个token都动态选中top8 对于每一个token,在每层 ...
每一个token都选不同模型,那输出token不是乱了?
用户
发表于 2025-2-13 02:56
我刚下单了双路9480 hbm版,cpu应该是128gb的**,到时看看速度怎么样。
zhuifeng88
发表于 2025-2-13 06:55
赫敏 发表于 2025-2-13 02:01
每一个token都选不同模型,那输出token不是乱了?
推理只要选就完事了,而训练要考虑的就多了(
gyc
发表于 2025-2-13 07:31
还有个问题没有说, 虽然能运行了,但智力是不是受损就不好说了,
如果提问一个非常复杂的问题,是不是就不行?
hawie
发表于 2025-2-13 07:36
加油,全民满血DS不远了,最好朝9950x +192GB+5080/5090这个方向努力一下,上下文128k, 有个10 token以上就可以实用了。
nagashinn
发表于 2025-2-13 09:54
民用主板pc平台,1000w 跑得动就是好,人类大脑思考也用不了1000瓦吧
Oxyer
发表于 2025-2-13 14:12
指着我的4080FE气急败坏中:瞅瞅人家4090,再看看你,你个废物典型!.......jpg[傻笑]