Chiphell - 分享与交流用户体验»社区 › 讨论区-生活与技术的讨论 › 电脑讨论(新) › 半块RTX4090 玩转70B大语言模型

半块RTX4090 玩转70B大语言模型

查看数: 21492 | 评论数: 47 | 收藏 37

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

awpak78

发布时间: 2024-7-20 18:00

正文摘要:

本帖最后由 awpak78 于 2024-7-20 18:00 编辑自Chat**发布以来，隔三岔五就有人宣称又在多么没门级的硬件上成功运行了大模型但只要点进详情就会发现要么模型小得可怜，要么速度慢得没有实用价值而我的目标是 ...

zikura 发表于 2025-2-18 18:53

看看，研究参考下。。。

tim6252 发表于 2025-2-18 18:02

赫敏发表于 2024-7-21 10:47
要不是老黄故意阉割SLI/nvlink哪有这些东西什么事啊。当然老黄也是为了把带nvlink的显卡卖多一位数 ...

确实，以前2070s我记得都有nvlink呢，反而现在40都没有了

aimee87 发表于 2025-2-18 16:31

fut888 发表于 2024-7-22 09:36
m1 ultra 128gb，满载100w，70b 7tok/s，110b 5tok/s

m1 ultra，70b 7tok/s，只能说可以跑，就是慢了些。

like2022 发表于 2025-2-18 15:31

Mark一下

q3again0605 发表于 2024-11-9 16:03

awpak78 发表于 2024-7-20 18:27
硬件倒是没什么问题，CPU的ECC和显卡的ECC都没有报错

还是软件的BUG太多了，最近vllm也支持Pascal老卡了 ...

原生还不行，需要自己改一下config然后自己编译一下，还是方便的。我32b 4bit的Qwen2.5试了一下还不错，比4090慢了不到30%。准备4卡+trx40+3960x再玩玩：）

q3again0605 发表于 2024-8-13 23:16

awpak78 发表于 2024-8-13 22:57
1. 必须是2^n张显卡
2. 跨节点肯定是流水线并行. 参考vllm文档节点内张量并行, 跨节点流水线并行
3. P100 ...

非常感谢！！！

awpak78 发表于 2024-8-13 22:57

q3again0605 发表于 2024-8-13 14:58
来请教几个问题：1、张量并行奇数张卡行不。2、我目前的配置是2台机子，100g ib网路互联（有大神说2台其实e ...

1. 必须是2^n张显卡
2. 跨节点肯定是流水线并行. 参考vllm文档节点内张量并行, 跨节点流水线并行
3. P100用mlc-llm速度更快, 你要双机分布式那就用vllm

gguf是llama.cpp发明的模型格式, llama.cpp以及调用它的那些乱七八糟的软件(比如ollama)都是纯粹的垃圾.
除了方便移植到各种根本不适合跑LLM的平台上强行演示以便卖货以外, 对于已经有N卡的人来说这就是最慢最垃圾的LLM推理框架.

q3again0605 发表于 2024-8-13 14:58

来请教几个问题：1、张量并行奇数张卡行不。2、我目前的配置是2台机子，100g ib网路互联（有大神说2台其实ethernet也差不多延迟，x8槽不够了，只能pcie4.0x4互联，跑个50G）和你的pcie switch比较的话延时和易用性如何，因为要保持4.0x8，我也不想太多卡所以就最多4卡，然后后续更新。3、你的vllm是不是也用的支持pasacal的fork？为啥不用gguf？我也准备再加2张p100，已经有了1张4090。谢谢指教。

Oxyer 发表于 2024-7-24 09:34

牛掰!!!

pdvc 发表于 2024-7-22 23:45

本帖最后由 pdvc 于 2024-7-23 05:33 编辑

awpak78 发表于 2024-7-22 20:07
百度网盘不收费的时候是能跑满100M上下传的

所以我说的mini版啊，如果要用百度产品类比，那也是一刻相册，而不是百度网盘。

awpak78 发表于 2024-7-22 20:13

anishieh` 发表于 2024-7-22 09:52
家用双卡4090 70b模型比如Qwen2和LLaMa3应该都是16~18token/s用LM Studio。

不过我感觉好像这种家用70b应 ...

LM Studio的后端就是垃圾llama.cpp
删了换vllm速度立马翻倍

awpak78 发表于 2024-7-22 20:12

赫敏发表于 2024-7-21 10:47
要不是老黄故意阉割SLI/nvlink哪有这些东西什么事啊。当然老黄也是为了把带nvlink的显卡卖多一位数 ...

nvlink要多卡组成全连接拓扑才有用。

PCIe标卡上面那只支持双卡互联的nvlink金手指基本等于超市里的免费试吃，也就只够尝下味道

awpak78 发表于 2024-7-22 20:09

搞基薛定谔发表于 2024-7-22 08:45
家里现在的双4090可以跑 llama3:70b 到16tok/s左右。基本够用了。

把垃圾ollama删了，换vllm速度立马翻倍

评分

参与人数 1	邪恶指数 +1	收起理由
搞基薛定谔	+ 1	666

查看全部评分

awpak78 发表于 2024-7-22 20:08

用户发表于 2024-7-21 01:37
谁能拿8490H+amx跑一个比比，现在单路8490H好像7000人刀能拿到了

双路8490H功耗高点，但不会有显存焦虑 ...

没有用，DDR5的速度相比HBM就是弟中弟

awpak78 发表于 2024-7-22 20:07

pdvc 发表于 2024-7-21 01:08
G-P-T4o mini的API很便宜了，web版也免费了，自己折腾意义不大了......

百度网盘不收费的时候是能跑满100M上下传的

搞基薛定谔 发表于 2024-7-22 10:18

fut888 发表于 2024-7-22 09:36
m1 ultra 128gb，满载100w，70b 7tok/s，110b 5tok/s

挺好，过几天弄个m2 ultra试试水。

anishieh` 发表于 2024-7-22 09:52

家用双卡4090 70b模型比如Qwen2和LLaMa3应该都是16~18token/s用LM Studio。

不过我感觉好像这种家用70b应用场景不多，谷歌的Gemma 27b可以单卡4090/3090跑速度很快性能也够用了，需要更高性能肯定直接openai api了。

fut888 发表于 2024-7-22 09:36

搞基薛定谔发表于 2024-7-22 08:45
家里现在的双4090可以跑 llama3:70b 到16tok/s左右。基本够用了。

m1 ultra 128gb，满载100w，70b 7tok/s，110b 5tok/s

搞基薛定谔 发表于 2024-7-22 08:45

本帖最后由搞基薛定谔于 2024-7-22 08:47 编辑

家里现在的双4090可以跑 llama3:70b 到1625tok/s左右。基本够用了。

建议柠檬 发表于 2024-7-21 22:42

zcyandrew 发表于 2024-7-20 18:12
这套方案自己折腾着玩玩可以，真要放生产环境里运维得累死
家庭小作坊个人感觉还是单4090或者双3090nvlink ...

4028GR基本上就是那个时代的生产环境No 2-3了。。。。。
甚至可以一定程度摸到No1。。

不管配什么卡，一套正经的平台都非常重要。。。

weindy 发表于 2024-7-21 22:37

只要空间够，不怕吵，有的是洋垃圾可以折腾啊

赫敏 发表于 2024-7-21 10:47

ljy1414 发表于 2024-7-20 21:06
懂了，所以PLX卡也是LZ这套配置当中需要花多点$$的必要设备

要不是老黄故意阉割SLI/nvlink哪有这些东西什么事啊。当然老黄也是为了把带nvlink的显卡卖多一位数

ljy1414 发表于 2024-7-21 10:42

rico19375 发表于 2024-7-21 10:39
其实如果双卡x16或者四卡x8，不用买这套平台，以前有不少老旗舰就是带PLX的，z77，z87，z97都有 ...

我只是在想用屏蔽嘉的X99服务器主板 + 2696V3，是不是有搞头

主要是P100散热问题，可能要买3D打印支架的套装改散热

rico19375 发表于 2024-7-21 10:39

ljy1414 发表于 2024-7-21 10:06
懂了，所以PLX卡也是LZ这套配置当中需要花多点$$的必要设备

其实如果双卡x16或者四卡x8，不用买这套平台，以前有不少老旗舰就是带PLX的，z77，z87，z97都有

ljy1414 发表于 2024-7-21 10:06

rico19375 发表于 2024-7-21 09:58
plx相当于交换机啊，就比如说路由器底下连着交换机，交换机连着两台电脑，这两台电脑互传数据是不经过路 ...

懂了，所以PLX卡也是LZ这套配置当中需要花多点$$的必要设备

rico19375 发表于 2024-7-21 09:58

ljy1414 发表于 2024-7-21 01:55
lz这个有点看不太懂，大佬能不能帮忙翻译一下

相当于lz买了一个带plx的拆分卡，然后把P100插在转接出来 ...

plx相当于交换机啊，就比如说路由器底下连着交换机，交换机连着两台电脑，这两台电脑互传数据是不经过路由器的，延迟降低，并且上层没有负载。。

PLX就这样，两个显卡传数据不经过CPU，这样CPU负载就低多了。。。

延迟最高的一种情况就是双路CPU分别负责两个显卡，这样不仅经过CPU，还经过CPU的互联总线，延迟可以高到爆表

fut888 发表于 2024-7-21 06:53

性价比最高的是3090，能耗比加性价比综合最佳的是咸鱼收一台m1 ultra

Neo_Granzon 发表于 2024-7-21 04:06

现在的大模型还用不上TensorCore吗？如果用得上的话P100算力应该没有优势啊。

ljy1414 发表于 2024-7-21 01:55

本帖最后由 ljy1414 于 2024-7-21 01:58 编辑

dsanke 发表于 2024-7-20 22:12
PLX的用法长见识了，牛

lz这个有点看不太懂，大佬能不能帮忙翻译一下

相当于lz买了一个带plx的拆分卡，然后把P100插在转接出来的PCIE，避免延迟？

账号		自动登录	找回密码
密码			加入我们

半块RTX4090 玩转70B大语言模型

正文摘要:

回复

评分