kzfile 发表于 2025-2-5 09:05
如果不是跑越狱模型,还是买API最划算
kzfile 发表于 2025-2-5 09:02
m2max 14寸 96G,跑deepseek 蒸馏qwen 70b q6,大约2.5 token/s.但是并不安静,风扇狂转
T.JOHN 发表于 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一 ...
Oxyer 发表于 2025-2-5 09:09
感觉70b费劲点....有这个钱自己充值玩一玩得了.不是专业的不建议烧这东西
秦南瓜 发表于 2025-2-5 09:11
折腾硬件是主要目的。。。。
真要用 70b和在线的还是差远了
Oxyer 发表于 2025-2-5 09:13
对啊,在线的直接就是671B完整版,玩着还爽,玩腻了不充值就是了,你这折腾硬件的成本有点高啊,但凡你是自有 ...
Miner 发表于 2025-2-5 09:14
量化就是降低模型的精度,以减少推理时显存的占用,70b 模型 Q4 量化后大概需要 35G 显存,Q8就是 70G,还 ...
nn1122 发表于 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...
秦南瓜 发表于 2025-2-5 09:32
可以是可以,就是慢。14b相比70b来说太轻松了。
T.JOHN 发表于 2025-2-5 09:05
4090 48G,双卡跑不增加效率只增加电费。部署llm的难度永远不在硬件上,而在于环境搭建,性能调优上,光一 ...
os39000 发表于 2025-2-5 10:18
最省钱硬件可以 2080ti*2,显卡找那种闪电、evga的,7000
我自己是3090ti*2,可以下载43GB的Q4量化模型。70 ...
nn1122 发表于 2025-2-5 09:28
换平台,我mac mini m4 16GB能流畅跑14B,70B应该mac mini m4 48GB或者mac mini pro m4 48GB版本应该可以 ...
i6wz1l 发表于 2025-2-5 10:29
跑14b 多少token
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token 然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...
ahzhf 发表于 2025-2-5 10:50
因为DeepSeek是MoE model,Threadripper/EPYC+海量RAM的方案也可以考虑一下,这样比GPU方案跑的模型更大。 ...
秦南瓜 发表于 2025-2-5 10:51
不错!!我去逛逛咸鱼。你这套多少成本?
kuram 发表于 2025-2-5 10:55
第一没什么用 只有最大B的有用 ,他解决的是你现在访问人数太多,每次访问Speedseek 无响应的问题
第二 ...
(模型啥的不重要。其实还是给折腾显卡一个理由)
kuram 发表于 2025-2-5 11:06
第一 还有就是你要跑量化 得买WIND数据库 一般1年WIND的使用费用在10W ,
第二 如果是量化的话 基本显存越 ...
秦南瓜 发表于 2025-2-5 11:08
额,不是股票量化。。。。
我问的是那些模型的量化版本有啥区别。这边的量化说的是精简方式和幅度 ...
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token 然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...
nepdaisuki 发表于 2025-2-5 11:52
爆显存,会转移到内存,就会非常慢
gyc 发表于 2025-2-5 11:40
首先, deep seek R1 模型原版大小由638B,也就是大概600多G 大小。
72B的版本 是使用第三方 Qwen 2.5 ...
https://ollama.com/library/deepseek-r1/tags
Barcelona 发表于 2025-2-5 14:20
总有一款适合你
富哥买苹果集群吧,部署671b Q4_K_M量化的版本,不过也要404GB内存 ...
秦南瓜 发表于 2025-2-6 10:10
3w兜不住吧
Barcelona 发表于 2025-2-6 10:27
目前来看,3w最多能买128GB的苹果。2台mac mini M4 pro 64GB,15499 * 2。mac studio还没更新 ...
秦南瓜 发表于 2025-2-6 10:32
确实,可以等等,也期待一下amd的 aimax,
lasx 发表于 2025-2-6 11:09
ollma 32b 在4070s+64G内存电脑上速度有4tk/s。
Barcelona 发表于 2025-2-6 11:04
现在又有1.58bit量化版本了,需要140GB显存
秦南瓜 发表于 2025-2-6 11:10
全跑cpu上了。。现存太少
lasx 发表于 2025-2-6 11:14
不会,显存也用了,就是共享内存过去了
秦南瓜 发表于 2025-2-6 11:17
是这样。会吃显存,但是cpu在算
lasx 发表于 2025-2-6 11:18
我去,是这样吗?跑14b就很快。
秦南瓜 发表于 2025-2-6 11:20
对呀,不然怎么会那么慢。。。
秦南瓜 发表于 2025-2-6 11:10
这会不会笨死。。。
lasx 发表于 2025-2-6 11:24
我以为是内存延迟。我刚又试试了70b量化模型。感觉两个都在工作,但都没吃满。
我内存只有64G,共享显存 ...
lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。
lasx 发表于 2025-2-6 11:49
70B感觉没有32b聪明。。
gyc 发表于 2025-2-6 12:21
llama.cpp 工作机制好像是 如果模型无法加载到GPU中运行,那么直接使用CPU开始推理。
12G显存适合运行 7 ...
i6wz1l 发表于 2025-2-5 10:30
我昨天用4060部署的 14b 每秒2token 然后问了几次就非常慢了,部署了olloma推荐的7b,速度非常快,能满足 ...
装陈醋的酱油瓶 发表于 2025-2-6 14:55
如果只是想70b玩玩,那么你现有的3090/ 4090 搭配一张新的2080 ti 22G 差不多
如果以后想要玩的high且只考 ...
秦南瓜 发表于 2025-2-6 15:04
可以不同型号混搭对吧,实际推理速度如何?
欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) | Powered by Discuz! X3.5 |