[分享]CPU对大语言模型微调的影响复旦MOSS 16B模型

godspeed66 发表于 2023-7-23 18:34

本帖最后由 godspeed66 于 2023-7-23 18:37 编辑

[分享]CPU对大语言模型微调的影响复旦MOSS 16B模型

表中测试数据1000条，epochs=2

所有测试均使用W9-3495X模拟，微调使用DeepSpeed offload到CPU上，因此对CPU性能有需求

根据测试，12核心、3.20 GHz的w5-3425 与顶级的W9-3495X对比，实际耗时相差不足10%

然而，6核心、2.1 GHz的w3-2423，与w5-3425和顶级的W9-3495X有着巨大的差距，实际耗时差距在35%以上

这个不是很严谨的测试供大家参考

用时10%的差距能够接受，毕竟w5-34250.82万与 W9-3495X 4.41万的差距在那呢，都快差出个RTX 6000了，把钱用在第二块RTX 6000上明显更合适。

但低端CPU 英特尔® 至强® W3-2423 处理器就不建议了，虽然便宜，但性能太差；

而w5-3425 比W3-2423仅仅贵了大约0.5万元，多花0.5万元25%的速度提升还是很可观的。

pmax 发表于 2023-7-23 20:47

有意思的测试。

不过你的意思是核太多就不明显了？

fafnirken 发表于 2023-7-23 22:03

一种理解是核心数量比较少，线程打包分发都很消耗资源，不够用
个人炼丹不如直接用按摩店来的实惠吧，核多

godspeed66 发表于 2023-7-24 09:17

pmax 发表于 2023-7-23 20:47
有意思的测试。

不过你的意思是核太多就不明显了？

复旦MOSS 16B模型大语言模型微调对CPU的消耗模式

主要还是单线程

多线程有用但不明显

DeepSpeed offload到CPU上要使用大量的内存，和单线程CPU性能

godspeed66 发表于 2023-7-24 09:18

fafnirken 发表于 2023-7-23 22:03
一种理解是核心数量比较少，线程打包分发都很消耗资源，不够用
个人炼丹不如直接用按摩店来的实惠吧，核多 ...

这个正好反了

主要消耗单线程

多线程大约12核心后提升就不明显了，甚至可以说在误差范围中了

pmax 发表于 2023-7-24 11:23

godspeed66 发表于 2023-7-24 09:17
复旦MOSS 16B模型大语言模型微调对CPU的消耗模式

主要还是单线程

多核对数据并行处理帮助不大？

godspeed66 发表于 2023-7-24 12:36

pmax 发表于 2023-7-24 11:23
多核对数据并行处理帮助不大？

主要消耗单核性能，多核有影响，但不大，实测

q3again0605 发表于 2023-7-24 14:07

那推理呢，cpu的影响如何？

zhuifeng88 发表于 2023-7-24 14:12

q3again0605 发表于 2023-7-24 14:07
那推理呢，cpu的影响如何？

gpu推理的话没什么影响, cpu推理的话通常平台都是内存带宽瓶颈, 主流架构每核心可以承载20-30GB/s内存带宽, 比如你的平台可见的内存带宽是200GB/s, 那么超过12核之后核心数量就和速度几乎无关了

用户发表于 2023-7-24 14:12

直接用cpu跑试过吗？好奇3495wx bf16精度算力是什么水平

q3again0605 发表于 2023-7-24 16:17

zhuifeng88 发表于 2023-7-24 14:12
gpu推理的话没什么影响, cpu推理的话通常平台都是内存带宽瓶颈, 主流架构每核心可以承载20-30GB/s内存带 ...

谢谢：）

zhuifeng88 发表于 2023-7-24 16:27

用户发表于 2023-7-24 14:12
直接用cpu跑试过吗？好奇3495wx bf16精度算力是什么水平

裸算力的话主要看你全核能拉在多少频率
amx和avx512vnni提供的bf16算力3475x在420w功耗墙下能测到的都是15Tflops, 另外amx和avx512vnni是相互独立的单元可以同时使用(但显然会受限于功耗)

另外, llm都是memory bound, 实际峰值算力连裸算力的10%都跑不出来的, 不仅是CPU, GPU也一样, 或者说GPU能跑出来的比值更低

g7muik 发表于 2023-7-24 16:37

我是W3475配2个Rtx6000 Ada，还在路上，到了看下效果

pmax 发表于 2023-7-24 16:51

zhuifeng88 发表于 2023-7-24 16:27
裸算力的话主要看你全核能拉在多少频率
amx和avx512vnni提供的bf16算力3475x在420w功耗墙下能测到的都是1 ...

看来AI时代真的要狠狠地改进一下memory架构了

zhuifeng88 发表于 2023-7-24 16:55

pmax 发表于 2023-7-24 16:51
看来AI时代真的要狠狠地改进一下memory架构了

大厂玩存算一体, 但这玩意到头来都是整柜整柜的玩意, 别说消费级了, 专业wks都玩不起的

harryjohnson 发表于 2023-7-26 23:36

打游戏估计3435X够了

facebbook 发表于 2023-8-1 09:51

A6000 还是 6000 Ada？

godspeed66 发表于 2023-8-1 22:39

facebbook 发表于 2023-8-1 09:51
A6000 还是 6000 Ada？

RTX 6000 ADA

facebbook 发表于 2023-8-2 13:13

godspeed66 发表于 2023-8-1 22:39
RTX 6000 ADA

楼主配了两块 ……6000 Ada？

yehaku 发表于 2023-8-2 13:26

本帖最后由 yehaku 于 2023-8-2 13:28 编辑

生产应用以后都是服务器多通道内存的天下。
现在桌面双通道挂多核心的加压超频U内存会严重堵车。功耗发热高算力效率低下。[睡觉]

godspeed66 发表于 2023-8-2 14:01

facebbook 发表于 2023-8-2 13:13
楼主配了两块 ……6000 Ada？

目前是1块，自己估算需要2~6块

8月4日清华智谱AI（chatGLM团队）、复旦moss团队、中科院紫东太初团队、百度文心一言团队、东北大学tech**团队有个研讨会，打算听听他们的微调解决办法后，再确认购买什么GPU。

另外就是现在国产化逐步成为硬性需求，

华为的Atlas 300系列也在考虑范围，就是听说实际运行与英伟达的差距很大，但新项目都在用这个中标。

godspeed66 发表于 2023-8-2 14:02

yehaku 发表于 2023-8-2 13:26
生产应用以后都是服务器多通道内存的天下。
现在桌面双通道挂多核心的加压超频U内存会严重堵车。功耗发热高 ...

为啥这么说？

是指中台应用会消耗内存带宽吗？

yehaku 发表于 2023-8-2 15:24

godspeed66 发表于 2023-8-2 14:02
为啥这么说？

是指中台应用会消耗内存带宽吗？

游戏多开和并行视频处理明显能感觉到多通道内存调用的好处。
玩单机游戏其实现在更注重GPU。

godspeed66 发表于 2023-8-2 15:40

yehaku 发表于 2023-8-2 15:24
游戏多开和并行视频处理明显能感觉到多通道内存调用的好处。
玩单机游戏其实现在更注重GPU。 ...

并行视频处理，是指多路视频中人脸搜索、行为识别吗？

yehaku 发表于 2023-8-2 17:15

本帖最后由 yehaku 于 2023-8-2 17:21 编辑

godspeed66 发表于 2023-8-2 15:40
并行视频处理，是指多路视频中人脸搜索、行为识别吗？

包括在内。还有游戏NPC人工智能行为赐予这些。未来很多应用范围。
主频加压堆叠到后面是有极限的。而且功耗效能很难提高。
但是堆核心和内存通道大数据并行处理是没极限的。比加压提高主频和和纳米制成的成本更低。
以后特别是LINUX平台生产应用上。对核心和内存通道的需求比对主频的需求更高。
对多核心优化的游戏也会越来越多。主频单核跑分的优势会逐渐被多核心和内存通道提升带宽取代。
看下现在苹果和游戏主机发展方向就知道了。[睡觉]

godspeed66 发表于 2023-8-2 23:36

yehaku 发表于 2023-8-2 17:15
包括在内。还有游戏NPC人工智能行为赐予这些。未来很多应用范围。
主频加压堆叠到后面是有极限的。而且功 ...

多路视频中人脸搜索、行为识别，没有看到对内存带宽的需求

厂商仅对CPU核心数量和内存大小提出要求，从没有对内存带宽提出要求

yehaku 发表于 2023-8-3 02:29

godspeed66 发表于 2023-8-2 23:36
多路视频中人脸搜索、行为识别，没有看到对内存带宽的需求

厂商仅对CPU核心数量和内存大小提出要求，从 ...

公司有业务来往的客户说的人工智能数据建模需要。他们做的游戏社区虚拟项目。虚拟场景NPC新一代网游。哎不说了。说多了涉及他们的商业隐私。[睡觉]

godspeed66 发表于 2023-8-3 07:43

草率了

换成3435X后，实测发现，比3495X慢了大约20%[晕倒]

什么原因呢？

用3495x模拟3425@3.2Ghz比3435X@4.7Ghz快！

BFG9K 发表于 2023-8-3 07:47

godspeed66 发表于 2023-8-3 07:43
草率了

换成3435X后，实测发现，比3495X慢了大约20%

3495x、3435X缓存大小和结构是不一样的，不只是核心

huaweiu636 发表于 2023-11-28 23:08

这种大小核心的不如6458Q 32全部大核心满载4.0

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

[分享]CPU对大语言模型微调的影响 复旦MOSS 16B模型

[分享]CPU对大语言模型微调的影响复旦MOSS 16B模型