KimmyGLM 发表于 2025-2-13 10:54
所以最快的办法还是4090 48G,保证不要溢出到内存里即可;
便宜的下位替代还有W7900 48G ...
秦南瓜 发表于 2025-2-13 10:58
409048g确实可,但目前价格&性能平衡的比较好的应该是双3090方案,推理速度相比双4090弱了不到20%,价格 ...
KimmyGLM 发表于 2025-2-13 11:01
惨,显存方案跑LLM,目前哪家都不便宜,而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧 ...
agrant 发表于 2025-2-13 11:03
没在命令行看,在任务管理器看,不知道准不准
同样是32B,LM Studio全部放的进显存,3t/s左右
ollama不知道 ...
manwomans 发表于 2025-2-13 11:08
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了 ...
秦南瓜 发表于 2025-2-13 11:10
32B Q4量化 会吃21g显存,Q5量化会吃23G显存
你这个 3~4token/s太慢了,很显然是cpu在跑。。gpu只吃了显 ...
agrant 发表于 2025-2-13 11:19
嗯嗯,试试向上够不够得着跑32B,仅仅能跑,但是太慢,估计只能退一步跑14B了
图个折腾 ...
威廉第三 发表于 2025-2-13 11:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s ...
港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W
秦南瓜 发表于 2025-2-13 11:25
下一步换双3090了。四分之一价格达到17token/s,自己玩玩嘎嘎够了
港城钢铁侠 发表于 2025-2-13 11:29
别忘了功耗也起飞了,说实话,真要自己部署并且7*24小时开着我肯定选苹果 ...
秦南瓜 发表于 2025-2-13 11:30
功耗问题不大。不太在意。。
家里空调365*24的,电脑洒洒水啦
nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...
秦南瓜 发表于 2025-2-13 11:56
企业业务训练需求的话。租云算力呗。搞硬件实在是不划算
港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W
uprit 发表于 2025-2-13 12:13
快个鸡毛,最多也就10t/s的水平
港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...
港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...
港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...
dikuf001 发表于 2025-2-13 12:57
这么折腾,不如去腾讯云注册一个用户,花很少的钱就能跑满血的deepseek r1
秦南瓜 发表于 2025-2-13 12:53
Q8量化6.76token/s
Q4量化10token/s
uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。
...
港城钢铁侠 发表于 2025-2-13 13:00
看来就是10t/s了,那个Up主乱报数据了。不过10t/s个人用也还行了
秦南瓜 发表于 2025-2-13 13:01
强就强在便携了。这玩意属于有需求就是质变
港城钢铁侠 发表于 2025-2-13 13:03
等一波M4 ultra mac studio看看内存带宽有惊喜
nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...
Oxyer 发表于 2025-2-13 13:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...
秦南瓜 发表于 2025-2-13 13:25
额,为啥?这玩意还有快乐表的嘛。。。
Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...
秦南瓜 发表于 2025-2-13 13:48
显示速度都一样,体感有差别?还是说实际跑的速度就不一样的。。
Oxyer 发表于 2025-2-13 13:48
实际跑的速度能明显感觉出来
秦南瓜 发表于 2025-2-13 13:50
你说的llm是lm studio吗,应该是设置问题
秦南瓜 发表于 2025-2-13 13:58
lm studio上下文你设置多少,这玩意设置大的话,显存占用很爆炸的,会影响速度,还有就是gpu offload记得 ...
Oxyer 发表于 2025-2-13 14:01
4096默认值,温度0.6-0.8,其他不动
秦南瓜 发表于 2025-2-13 14:02
设置差异了。 ollama我下载下来就没整webui设置,全默认用。。
21PENNY 发表于 2025-2-13 15:59
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡 ...
Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...
liolio 发表于 2025-2-13 16:25
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。
li77leprince 发表于 2025-2-13 16:26
支持土豪楼主的探索精神!最近也在想弄两张魔改4090 48GB本地跑70B,关注楼主的后续动态~ ...
momoka 发表于 2025-2-13 16:31
我不懂,只能问它自己了。。。
uprit 发表于 2025-2-13 16:21
就是上下文的影响。上下文越长,显存占用越大,推理速度越慢。ollama默认只有2k上下文。
...
秦南瓜 发表于 2025-2-13 16:10
但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再 ...
21PENNY 发表于 2025-2-13 16:56
嗯,确实应该是爆显存。搜了下,3090的nvlink带宽没有比2080提升很多。
Q: What is the GeForce RTX 309 ...
testmepro 发表于 2025-2-13 17:19
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu ...
秦南瓜 发表于 2025-2-13 17:20
是的。。新手嘛,先玩傻瓜的
testmepro 发表于 2025-2-13 17:24
我也是刚开始玩.ollama完了几天卸载了..装个ubantu准备玩vllm 玩顺畅了考虑升级家里台式机做个本地大模型 ...
uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。
...
威廉第三 发表于 2025-2-13 03:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s ...
nagashinn 发表于 2025-2-13 03:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...
nagashinn 发表于 2025-2-13 03:59
我现在是质疑研发的能力啊
Oxyer 发表于 2025-2-13 05:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...
欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) | Powered by Discuz! X3.5 |