YsHaNg 发表于 2025-2-3 18:38 你好滑稽 ![]() |
楼主为什么不自己试试 因为要用docker吗 |
本地跑7b速度还可以接受 |
BetaHT 发表于 2025-2-3 14:54 比70b好太多啊,有8成原版效果了。而且输入输出都支持128K。就是用虚拟内存跑的,上下文太长,直接晾你半小时,多轮或者酒馆就别想了,还是得大内存。 70b的超出24GB显存用内存跑,能有10token速度,如果是192GB内存,估计跑1.58位也能不错的速度了。 |
本帖最后由 BetaHT 于 2025-2-3 14:56 编辑 pdvc 发表于 2025-2-3 14:36 可行啊。准确性上和70比怎么样呢 例如修改代码这种需要足够精确度的任务 |
mythgo 发表于 2025-2-3 11:26 作者的说明提到了这一点,说1.73是更好的选择,试试看? |
manwomans 发表于 2025-2-3 14:43 实际就这样,看你CPU和内存速度了 |
pdvc 发表于 2025-2-3 14:39 不能够 我就是这配置跑的q4量化 |
manwomans 发表于 2025-2-3 11:17 4090+DDR5的跑70b有10token速度,DDR4是只有2token速度。 |
我试过1.58位,4090加128GB内存,虚拟内存128GB,每秒2个token左右。![]() ![]() |
使用8卡48G的GPU试了最后一个,会有超长思维链无法产生正确结果的问题,并且思考过程越长,你上下文的内存消耗也越多。速度很慢13token/s,这个速度跑评估要好几天,索性不测了,还是调用API把。 |
这个可以用intel的试试? 据说intel的浮点性能很顶 |
要是用内存就能跑的快4090早就不值钱了 |
4090+64g跑70b只能2t/s 这个更不用想了 |
msdelphi 发表于 2025-2-3 10:59 不知道,希望有大佬能实测一下。 |
意思是可以跑2.22bit?如果再配一块4090呢? |
Archiver|手机版|小黑屋|Chiphell
( 沪ICP备12027953号-5 )310112100042806
GMT+8, 2025-6-18 12:36 , Processed in 0.011349 second(s), 9 queries , Gzip On, Redis On.
Powered by Discuz! X3.5 Licensed
© 2007-2024 Chiphell.com All rights reserved.