看看,研究参考下。。。 |
赫敏 发表于 2024-7-21 10:47 确实,以前2070s我记得都有nvlink呢,反而现在40都没有了 |
fut888 发表于 2024-7-22 09:36 m1 ultra,70b 7tok/s,只能说可以跑,就是慢了些。 |
Mark一下 |
awpak78 发表于 2024-7-20 18:27 原生还不行,需要自己改一下config然后自己编译一下,还是方便的。我32b 4bit的Qwen2.5试了一下还不错,比4090慢了不到30%。准备4卡+trx40+3960x再玩玩:) |
awpak78 发表于 2024-8-13 22:57 非常感谢!!! |
q3again0605 发表于 2024-8-13 14:58 1. 必须是2^n张显卡 2. 跨节点肯定是流水线并行. 参考vllm文档节点内张量并行, 跨节点流水线并行 3. P100用mlc-llm速度更快, 你要双机分布式那就用vllm gguf是llama.cpp发明的模型格式, llama.cpp以及调用它的那些乱七八糟的软件(比如ollama)都是纯粹的垃圾. 除了方便移植到各种根本不适合跑LLM的平台上强行演示以便卖货以外, 对于已经有N卡的人来说这就是最慢最垃圾的LLM推理框架. |
来请教几个问题:1、张量并行奇数张卡行不。2、我目前的配置是2台机子,100g ib网路互联(有大神说2台其实ethernet也差不多延迟,x8槽不够了,只能pcie4.0x4互联,跑个50G)和你的pcie switch比较的话延时和易用性如何,因为要保持4.0x8,我也不想太多卡所以就最多4卡,然后后续更新。3、你的vllm是不是也用的支持pasacal的fork?为啥不用gguf?我也准备再加2张p100,已经有了1张4090。谢谢指教。 |
牛掰!!! |
本帖最后由 pdvc 于 2024-7-23 05:33 编辑 awpak78 发表于 2024-7-22 20:07 所以我说的mini版啊,如果要用百度产品类比,那也是一刻相册,而不是百度网盘。 |
anishieh` 发表于 2024-7-22 09:52 LM Studio的后端就是垃圾llama.cpp 删了换vllm速度立马翻倍 |
赫敏 发表于 2024-7-21 10:47 nvlink要多卡组成全连接拓扑才有用。 PCIe标卡上面那只支持双卡互联的nvlink金手指基本等于超市里的免费试吃,也就只够尝下味道 |
用户 发表于 2024-7-21 01:37 没有用,DDR5的速度相比HBM就是弟中弟 |
pdvc 发表于 2024-7-21 01:08 百度网盘不收费的时候是能跑满100M上下传的 |
fut888 发表于 2024-7-22 09:36 挺好,过几天弄个m2 ultra试试水。 ![]() |
家用双卡4090 70b模型比如Qwen2和LLaMa3应该都是16~18token/s用LM Studio。 不过我感觉好像这种家用70b应用场景不多,谷歌的Gemma 27b可以单卡4090/3090跑速度很快性能也够用了,需要更高性能肯定直接openai api了。 |
搞基薛定谔 发表于 2024-7-22 08:45 m1 ultra 128gb,满载100w,70b 7tok/s,110b 5tok/s |
本帖最后由 搞基薛定谔 于 2024-7-22 08:47 编辑 家里现在的双4090可以跑 llama3:70b 到16 |
zcyandrew 发表于 2024-7-20 18:12 4028GR基本上就是那个时代的生产环境No 2-3了。。。。。 甚至可以一定程度摸到No1。。 不管配什么卡,一套正经的平台都非常重要。。。 |
只要空间够,不怕吵,有的是洋垃圾可以折腾啊![]() |
ljy1414 发表于 2024-7-20 21:06 要不是老黄故意阉割SLI/nvlink哪有这些东西什么事啊。当然老黄也是为了把带nvlink的显卡卖多一位数 |
rico19375 发表于 2024-7-21 10:39 ![]() 主要是P100散热问题,可能要买3D打印支架的套装改散热 ![]() |
ljy1414 发表于 2024-7-21 10:06 其实如果双卡x16或者四卡x8,不用买这套平台,以前有不少老旗舰就是带PLX的,z77,z87,z97都有 |
rico19375 发表于 2024-7-21 09:58 懂了,所以PLX卡也是LZ这套配置当中需要花多点$$的必要设备 ![]() |
ljy1414 发表于 2024-7-21 01:55 plx相当于交换机啊,就比如说路由器底下连着交换机,交换机连着两台电脑,这两台电脑互传数据是不经过路由器的,延迟降低,并且上层没有负载。。 PLX就这样,两个显卡传数据不经过CPU,这样CPU负载就低多了。。。 延迟最高的一种情况就是双路CPU分别负责两个显卡,这样不仅经过CPU,还经过CPU的互联总线,延迟可以高到爆表 |
性价比最高的是3090,能耗比加性价比综合最佳的是咸鱼收一台m1 ultra |
现在的大模型还用不上TensorCore吗?如果用得上的话P100算力应该没有优势啊。 |
本帖最后由 ljy1414 于 2024-7-21 01:58 编辑 dsanke 发表于 2024-7-20 22:12 lz这个有点看不太懂,大佬能不能帮忙翻译一下 相当于lz买了一个带plx的拆分卡,然后把P100插在转接出来的PCIE,避免延迟? ![]() |
Archiver|手机版|小黑屋|Chiphell
( 沪ICP备12027953号-5 )310112100042806
GMT+8, 2025-6-12 22:28 , Processed in 0.014425 second(s), 10 queries , Gzip On, Redis On.
Powered by Discuz! X3.5 Licensed
© 2007-2024 Chiphell.com All rights reserved.