找回密码
 加入我们
搜索
      
查看: 10481|回复: 71

[显卡] 新手本地LLM折腾分享

[复制链接]
发表于 2025-2-13 17:28 | 显示全部楼层
威廉第三 发表于 2025-2-13 03:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s ...

应该可以提升很多 ollama优化很拉 和它上游llama.cpp差几十个commits 在vllm/transformer面前都是草履虫
发表于 2025-2-13 17:32 | 显示全部楼层
nagashinn 发表于 2025-2-13 03:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...

只做蒸馏还行 https://github.com/huggingface/open-r1 说8 H100 80G GPU takes about 3 hours
发表于 2025-2-13 17:34 | 显示全部楼层
nagashinn 发表于 2025-2-13 03:59
我现在是质疑研发的能力啊

都是开源的框架 脚本都在那 工业流水线生产 只是你卡不够多不够好就只能出来个apple intelligence
发表于 2025-2-13 18:32 | 显示全部楼层
Oxyer 发表于 2025-2-13 05:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...

LM Studio的lms是个大前端 整个js写的 引擎应该默认用的是苹果mlx 别的runtime可以自己下载 llama.cpp甚至rocm
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-6-19 14:27 , Processed in 0.009217 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表