slymitec 发表于 2023-7-10 16:04

LocaVoiD 发表于 2023-7-10 16:14

4090都没有NVLINK,而且计算玩家都不差钱。

slymitec 发表于 2023-7-10 16:17

zhuifeng88 发表于 2023-7-10 16:21

本帖最后由 zhuifeng88 于 2023-7-10 16:22 编辑

slymitec 发表于 2023-7-10 16:04
所以搞计算,用RTX 6000 Ada/RTX A6000 而 不用 RTX4090/3090 的原因是因为显存大?
(6000Ada带宽反而还 ...

ecc 4090也有, 一方面是显存大, 另一方面主要是合规, 当然还有虚拟化之类的功能差异, 但这个ai场景不是很关心

godspeed66 发表于 2023-7-10 16:23

slymitec 发表于 2023-7-10 16:04
所以搞计算,用RTX 6000 Ada/RTX A6000 而 不用 RTX4090/3090 的原因是因为显存大?
(6000Ada带宽反而还 ...

我理解就是显存的问题,

看起来RTX 6000 ADA 是 RTX4090价格的3.4倍,但RTX 6000 ADA 是 RTX4090 实际训练性能的6倍,考虑到真实环境没有睿频,RTX 6000 ADA 是 RTX4090 实际训练性能的2倍以上。

再开率到配套环境,如机箱、10A电源插排、制冷,不会用4090的

zhuifeng88 发表于 2023-7-10 16:30

本帖最后由 zhuifeng88 于 2023-7-10 16:33 编辑

godspeed66 发表于 2023-7-10 16:23
我理解就是显存的问题,

看起来RTX 6000 ADA 是 RTX4090价格的3.4倍,但RTX 6000 ADA 是 RTX4090 实际训 ...


虽然是比较早的测试, 但不涉及显存问题的情况下4090和rtx6000ada微调llm根本不存在那种差异

YoshinoSakura 发表于 2023-7-10 16:38

有没有可能,可以根据廉价设备的算力特征,进行针对性设计AI

我輩樹である 发表于 2023-7-10 16:46

godspeed66 发表于 2023-7-10 15:57
我理解AI 大语言模型类

正常机构都会用 A100 H100这种专用芯片


llm不是AI的全部。即便是跑llm,显存c2c其实也有软件解决方案。当然大家都不可能接近nvlink c2c,已经直接serde到显存。如果你不是训练一个模型,而是多组参数同时训练多组模型,在同一个4090或rtx 6000集群上,可以做到一定程度的高效。

godspeed66 发表于 2023-7-10 16:47

zhuifeng88 发表于 2023-7-10 16:30
虽然是比较早的测试, 但不涉及显存问题的情况下4090和rtx6000ada微调llm根本不存在那种差异 ...

额微调不涉及显存?这就是伪命题啊


我把过程写的很详细了

https://www.chiphell.com/forum.php?mod=redirect&goto=findpost&ptid=2515267&pid=52973058



引用一句我认为很重要的话“影响LLM全参数微调时间的因素就是显存,很明显这时高显存能带来极大的性能收益。”

godspeed66 发表于 2023-7-10 16:53

我輩樹である 发表于 2023-7-10 16:46
llm不是AI的全部。即便是跑llm,显存c2c其实也有软件解决方案。当然大家都不可能接近nvlink c2c,已经直 ...

1.   我都说了 我只针对 LLM

2.“多组参数同时训练多组模型”

我没明白,微调的目标不就是一个模型吗? 怎么会多组模型? 多组模型什么意思?

同样数量的4090 与 同样数量的RTX 6000,bs 设置至少差1倍,性能是怎么做到一致的?

darkness66201 发表于 2023-7-10 16:54

其实还有一个问题,比方说字节向NV直接下单了10亿美元的单子,这个量显然也只能直接要NV下单,你说你想省钱全换成4090?人家不卖给你你能怎么样呢,你到市场上搜刮价值几十亿的4090也不现实,更何况所有的性能差异都是基于单卡不是基于大规模的计算集群,说白了还是那句话,那么多大公司不是傻子,NV这样定价也足以证明4090根本可能做到H100的事情。

我輩樹である 发表于 2023-7-10 16:57

godspeed66 发表于 2023-7-10 16:53
1.   我都说了 我只针对 LLM

2.“多组参数同时训练多组模型”


研发阶段,多种超参数配置,多种优化手段配置,网络结构也进行一些变形,试错的过程会有同时训练多个模型的过程。

如果你只有一个模型,都确定了,那就是想做算法落地。这个时候没有消费卡什么事。

rtx 6000我没这个卡,没法回答你的问题。

zhuifeng88 发表于 2023-7-10 16:58

本帖最后由 zhuifeng88 于 2023-7-10 16:59 编辑

godspeed66 发表于 2023-7-10 16:47
额微调不涉及显存?这就是伪命题啊




微调相对低参数量的llm确实不会涉及显存问题, 更何况通常不需要全参微调, 重要的反而是低成本试错

godspeed66 发表于 2023-7-10 17:07

zhuifeng88 发表于 2023-7-10 16:58
微调相对低参数量的llm确实不会涉及显存问题, 更何况通常不需要全参微调, 重要的反而是低成本试错 ...

LLM

不论是全参数微调,还是lora,耗时,与显存大小息息相关

在GPU同等性能情况下,一个一次只能处理1条数据,一个一次能处理6条数据,很明显后者微调耗时仅为前者的大约1/6,实际上会是前者的1/3用时!

更不要提机房环境的需求差异!

godspeed66 发表于 2023-7-10 17:13

我輩樹である 发表于 2023-7-10 16:57
研发阶段,多种超参数配置,多种优化手段配置,网络结构也进行一些变形,试错的过程会有同时训练多个模型 ...

RTX 6000   48GB显存   TDP300W   涡轮版 实际能使用到300W

RTX 4090   24GB显存   TDP450W   涡轮版 实际能使用到300W,水冷能到350W

我理解你的意思是,看算法是否收敛,所以没必要大显存的专业显卡,是这个意思吗?

不论哪个LLM数据不都是几十亿、甚至百亿、千亿级别的?   就是微调数据也要几十甚至百万级别的数据

样本小,bs设置差1倍,样本大,bs甚至差几倍以上

性能是怎么趋于一致的呢?

我輩樹である 发表于 2023-7-10 17:38

本帖最后由 我輩樹である 于 2023-7-10 17:39 编辑

godspeed66 发表于 2023-7-10 17:13
RTX 6000   48GB显存   TDP300W   涡轮版 实际能使用到300W

RTX 4090   24GB显存   TDP450W   涡轮 ...

性能趋于一致是什么意思?我没有rtx 6000显卡,什么性能我不知道。

你是想我帮你在纸面上算性能么?实际上我们实验室是用十几块4090,然后魔改的spark框架做的llm微调。使用了offloading的技术。

zhuifeng88 发表于 2023-7-10 17:41

本帖最后由 zhuifeng88 于 2023-7-10 17:44 编辑

godspeed66 发表于 2023-7-10 17:07
LLM

不论是全参数微调,还是lora,耗时,与显存大小息息相关


但你假设的rtx6000ada能提供6倍4090的bs实际不成立
再然后气泡不严重的情况下bs和throughput的关系并不强
7b/13b微调就能符合这种情况

hsshhssh 发表于 2023-7-10 17:55

反正AI不看FP64,这个是科学计算用的,超算前几名AMD多就是因为A卡FP64性能优势大

godspeed66 发表于 2023-7-10 18:09

本帖最后由 godspeed66 于 2023-7-10 18:21 编辑

我輩樹である 发表于 2023-7-10 17:38
性能趋于一致是什么意思?我没有rtx 6000显卡,什么性能我不知道。

你是想我帮你在纸面上算性能么?实际 ...

1.你说的“在同一个4090或rtx 6000集群上,可以做到一定程度的高效。”,bs 设置是否会导致性能差异?我认为会有明显性能差异


2. offloading 到cpu上吗?时指DeepSpeed offload cpu吗?求指点, 我是业余自学的。不知道llm还有其他offload技术。

我就在用DeepSpeed offload cpu ,但 这个估计不是你说的offloading技术,求发个offloading的论文链接吗? 我想学习下

godspeed66 发表于 2023-7-10 18:20

zhuifeng88 发表于 2023-7-10 17:41
但你假设的rtx6000ada能提供6倍4090的bs实际不成立
再然后气泡不严重的情况下bs和throughput的关系并不强 ...

吞吐量与bs 设置有什么关系? 这个求指点,我自学的,差了好多知识

我理解 不论哪个llm 微调都需要数据,

假设微调2万条数据,bs=1 需要2万步,bs= 6 仅需要0.34万步,而且当bs=1 改到bs=6 后,每步计算时间仅增加30秒,总体获益大约3倍的效率。

根据上面的数据,

bs=1时,每epoch需要6.94天,epoch=50   需要大约1年

bs=6时,每epoch需要1.16天,epoch=100 需要大约0.33年

这个时间效率提升不是很明显吗?


我輩樹である 发表于 2023-7-10 18:22

godspeed66 发表于 2023-7-10 18:09
1.你说的“在同一个4090或rtx 6000集群上,可以做到一定程度的高效。”,我就问你微调时 bs 设置是否会导 ...

offload的原始论文是flexgen,它用在推理上的,这个应该随便搜一下就能找到。我这里可以一定程度用在微调上。

bs设置当然会导致性能差异,差异多少我不知道。我说的“一定程度高效”和“趋于一致”是一个意思么?这个高效是基于整个的评估,而不是单独微调一个模型。

我们的场景差太远了,你都用通用框架了,我们都是自己开发的。

godspeed66 发表于 2023-7-10 18:25

我輩樹である 发表于 2023-7-10 18:22
offload的原始论文是flexgen,它用在推理上的,这个应该随便搜一下就能找到。我这里可以一定程度用在微调 ...

非常感谢

zhuifeng88 发表于 2023-7-10 18:38

godspeed66 发表于 2023-7-10 18:20
吞吐量与bs 设置有什么关系? 这个求指点,我自学的,差了好多知识

我理解 不论哪个llm 微调都需要数 ...

这建立在你的bs大小造成了很大的气泡的前提下, 实际使用中比如7b, lora r=8, 4bit forward, bf16 backward微调, bs在4090上至少可以设128(micro batch=2), 这样是几乎没有气泡的, 这时候你用6000ada比如可以把batchsize,microbatch分别设到256,4, 但每epoch耗时变化会很小(可以说通常<20%)

godspeed66 发表于 2023-7-10 19:01

zhuifeng88 发表于 2023-7-10 18:38
这建立在你的bs大小造成了很大的气泡的前提下, 实际使用中比如7b, lora r=8, 4bit forward, bf16 backwar ...

万分感谢

求指点下https://www.chiphell.com/forum.php?mod=redirect&goto=findpost&ptid=2530683&pid=52977355

我已经蒙了

fairness 发表于 2023-7-11 10:25

darkness66201 发表于 2023-7-10 16:54
其实还有一个问题,比方说字节向NV直接下单了10亿美元的单子,这个量显然也只能直接要NV下单,你说你想省钱 ...

字节花10亿美金去向NV下单,目标就是通过这个10亿的硬件+自己的推荐/AI技术从市场赚回100亿甚至更多;

一听这样的消息,没钱想的就是要花10亿美金,能否少花点,3亿5亿美金搞定; 但你是字节的高层更多考虑的是,10亿花了,能否实现100亿或者其他的收益,会不会只能赚到50亿或者120亿;

格局和位置不同,考虑的东西都是不一样的。

besttime 发表于 2023-7-11 11:23

fairness 发表于 2023-7-11 10:25
字节花10亿美金去向NV下单,目标就是通过这个10亿的硬件+自己的推荐/AI技术从市场赚回100亿甚至更多;

...

还有,只有花钱才能名正言顺从投资人、股民手里掏钱,在有看似正确名目的前提下,当然是花的越多越好。反正钱也不是他们自己的,不花白不花,花了总有些能落到手里,再不济起到拉升股价的作用方便之后出自己的股票也是挺好的。

我輩樹である 发表于 2023-7-11 12:17

darkness66201 发表于 2023-7-10 16:54
其实还有一个问题,比方说字节向NV直接下单了10亿美元的单子,这个量显然也只能直接要NV下单,你说你想省钱 ...

就算搜刮到全世界的4090不能组hpc集群,老黄源头控制了,没人敢跟你出方案。

或许伊朗朝鲜可以。

fairness 发表于 2023-7-11 17:17

我輩樹である 发表于 2023-7-11 12:17
就算搜刮到全世界的4090不能组hpc集群,老黄源头控制了,没人敢跟你出方案。

或许伊朗朝鲜可以。 ...

大规模的AI训练系统,不仅仅看单卡,还要看多卡互联;4090没有NVLINK,互联的方案只能走PCIE的话,这样的效率太低了; 可能需要更多的4090,结果是更多的功耗; 这些都是大型的云服务厂商和大厂要考虑的。

星辰柯博文 发表于 2023-7-11 17:26

本帖最后由 星辰柯博文 于 2023-7-11 17:29 编辑

darkness66201 发表于 2023-7-10 15:57
反正现在A100/H100供不应求,30万一张都一样依然在疯抢,却没有公司花30万买20张4090跑AI,那么多大公司人 ...

大公司不傻,买专业卡。但小工作室和有点钱的玩家鸡贼,所以买4090。
小工作室担心AI/显卡计算泡沫,所以买4090,一次性投入成本相对低,以后泡沫破了也好出给香打游戏的,止损变现快。专业卡就只能出给同行,越是行业亏损的时候越南变现。
有点钱的玩家考虑以后可能再出现矿潮或者第二轮AI热潮,所以买4090,希望玩两年之后还能平价甚至加价出给搞显卡健身的或者搞AI/计算/渲染的小老板。

显卡就应该游戏卡纯打游戏,计算卡纯计算。皮衣刀客给高端游戏卡赋予低端计算性能,就是让小老板和游戏/硬件富哥去抢卡,给自家显卡抬价。

我輩樹である 发表于 2023-7-11 17:42

fairness 发表于 2023-7-11 17:17
大规模的AI训练系统,不仅仅看单卡,还要看多卡互联;4090没有NVLINK,互联的方案只能走PCIE的话,这样 ...

这个当然是技术上的原因。我要说的是4090组AI集群/HPC在源头就是被禁止的。

至于llm的对吞吐量的需求,如果你不是赶着做这个去赚钱的,我觉得还是让子弹再飞一会。

据我所知现在有很多团队在尝试降低训练llm的需求,每过段时间都有新进展的发生。
页: 1 [2] 3
查看完整版本: 到底AI所用的数学模型和数值计算方法,对游戏卡有无大规模“竞争”?