找回密码
 加入我们
搜索
      
查看: 10356|回复: 30

[CPU] [分享]CPU对大语言模型微调的影响 复旦MOSS 16B模型

[复制链接]
发表于 2023-7-23 18:34 | 显示全部楼层 |阅读模式
本帖最后由 godspeed66 于 2023-7-23 18:37 编辑

[分享]CPU对大语言模型微调的影响 复旦MOSS 16B模型

表中测试数据1000条,epochs=2



CPU.png



所有测试均使用W9-3495X模拟,微调使用DeepSpeed offload到CPU上,因此对CPU性能有需求


根据测试,12核心、3.20 GHz的w5-3425 与 顶级的W9-3495X对比,实际耗时相差不足10%

然而,6核心、2.1 GHz的w3-2423,与w5-3425和顶级的W9-3495X有着巨大的差距,实际耗时差距在35%以上



这个不是很严谨的测试供大家参考



用时10%的差距能够接受,毕竟w5-3425  0.82万  与   W9-3495X 4.41万的差距在那呢,都快差出个RTX 6000了,把钱用在第二块RTX 6000上明显更合适。

但低端CPU 英特尔® 至强® W3-2423 处理器 就不建议了,虽然便宜,但性能太差;

而w5-3425 比  W3-2423仅仅贵了大约0.5万元,多花0.5万元25%的速度提升还是很可观的。






发表于 2023-7-23 20:47 | 显示全部楼层
有意思的测试。

不过你的意思是核太多就不明显了?
发表于 2023-7-23 22:03 | 显示全部楼层
一种理解是核心数量比较少,线程打包分发都很消耗资源,不够用
个人炼丹不如直接用按摩店来的实惠吧,核多
 楼主| 发表于 2023-7-24 09:17 | 显示全部楼层
pmax 发表于 2023-7-23 20:47
有意思的测试。

不过你的意思是核太多就不明显了?

复旦MOSS 16B模型大语言模型微调对CPU的消耗模式

主要还是单线程

多线程有用但不明显


DeepSpeed offload到CPU上 要使用大量的内存,和单线程CPU性能




 楼主| 发表于 2023-7-24 09:18 | 显示全部楼层
fafnirken 发表于 2023-7-23 22:03
一种理解是核心数量比较少,线程打包分发都很消耗资源,不够用
个人炼丹不如直接用按摩店来的实惠吧,核多 ...

这个正好反了

主要消耗单线程

多线程大约12核心后提升就不明显了,甚至可以说在误差范围中了
发表于 2023-7-24 11:23 | 显示全部楼层
godspeed66 发表于 2023-7-24 09:17
复旦MOSS 16B模型大语言模型微调对CPU的消耗模式

主要还是单线程

多核对数据并行处理帮助不大?
 楼主| 发表于 2023-7-24 12:36 来自手机 | 显示全部楼层
pmax 发表于 2023-7-24 11:23
多核对数据并行处理帮助不大?

主要消耗单核性能,多核有影响,但不大,实测
发表于 2023-7-24 14:07 | 显示全部楼层
那推理呢,cpu的影响如何?
发表于 2023-7-24 14:12 | 显示全部楼层
q3again0605 发表于 2023-7-24 14:07
那推理呢,cpu的影响如何?


gpu推理的话没什么影响, cpu推理的话通常平台都是内存带宽瓶颈, 主流架构每核心可以承载20-30GB/s内存带宽, 比如你的平台可见的内存带宽是200GB/s, 那么超过12核之后核心数量就和速度几乎无关了
发表于 2023-7-24 14:12 | 显示全部楼层
直接用cpu跑试过吗?好奇3495wx bf16精度算力是什么水平
发表于 2023-7-24 16:17 | 显示全部楼层
zhuifeng88 发表于 2023-7-24 14:12
gpu推理的话没什么影响, cpu推理的话通常平台都是内存带宽瓶颈, 主流架构每核心可以承载20-30GB/s内存带 ...

谢谢:)
发表于 2023-7-24 16:27 | 显示全部楼层
用户 发表于 2023-7-24 14:12
直接用cpu跑试过吗?好奇3495wx bf16精度算力是什么水平


裸算力的话主要看你全核能拉在多少频率
amx和avx512vnni提供的bf16算力3475x在420w功耗墙下能测到的都是15Tflops, 另外amx和avx512vnni是相互独立的单元可以同时使用(但显然会受限于功耗)

另外, llm都是memory bound, 实际峰值算力连裸算力的10%都跑不出来的, 不仅是CPU, GPU也一样, 或者说GPU能跑出来的比值更低
发表于 2023-7-24 16:37 | 显示全部楼层
我是W3475配2个Rtx6000 Ada,还在路上,到了看下效果
发表于 2023-7-24 16:51 | 显示全部楼层
zhuifeng88 发表于 2023-7-24 16:27
裸算力的话主要看你全核能拉在多少频率
amx和avx512vnni提供的bf16算力3475x在420w功耗墙下能测到的都是1 ...

看来AI时代真的要狠狠地改进一下memory架构了
发表于 2023-7-24 16:55 | 显示全部楼层
pmax 发表于 2023-7-24 16:51
看来AI时代真的要狠狠地改进一下memory架构了

大厂玩存算一体, 但这玩意到头来都是整柜整柜的玩意, 别说消费级了, 专业wks都玩不起的
发表于 2023-7-26 23:36 | 显示全部楼层
打游戏估计3435X够了
发表于 2023-8-1 09:51 | 显示全部楼层
A6000 还是 6000 Ada?
 楼主| 发表于 2023-8-1 22:39 | 显示全部楼层
facebbook 发表于 2023-8-1 09:51
A6000 还是 6000 Ada?

RTX 6000 ADA
发表于 2023-8-2 13:13 | 显示全部楼层

楼主配了两块 ……6000 Ada?
发表于 2023-8-2 13:26 | 显示全部楼层
本帖最后由 yehaku 于 2023-8-2 13:28 编辑

生产应用以后都是服务器多通道内存的天下。
现在桌面双通道挂多核心的加压超频U内存会严重堵车。功耗发热高算力效率低下。
 楼主| 发表于 2023-8-2 14:01 | 显示全部楼层
facebbook 发表于 2023-8-2 13:13
楼主配了两块 ……6000 Ada?

目前是1块  ,自己估算需要2~6块


8月4日  清华智谱AI(chatGLM团队)、复旦moss团队、中科院紫东太初团队、百度文心一言团队、东北大学tech**团队有个研讨会,打算听听他们的微调解决办法后,再确认购买什么GPU。

另外就是现在国产化逐步成为硬性需求,

华为的Atlas 300系列也在考虑范围,就是听说实际运行与英伟达的差距很大,但新项目都在用这个中标。
 楼主| 发表于 2023-8-2 14:02 | 显示全部楼层
yehaku 发表于 2023-8-2 13:26
生产应用以后都是服务器多通道内存的天下。
现在桌面双通道挂多核心的加压超频U内存会严重堵车。功耗发热高 ...

为啥这么说?

是指中台应用会消耗内存带宽吗?
发表于 2023-8-2 15:24 | 显示全部楼层
godspeed66 发表于 2023-8-2 14:02
为啥这么说?

是指中台应用会消耗内存带宽吗?

游戏多开和并行视频处理明显能感觉到多通道内存调用的好处。
玩单机游戏其实现在更注重GPU。
 楼主| 发表于 2023-8-2 15:40 | 显示全部楼层
yehaku 发表于 2023-8-2 15:24
游戏多开和并行视频处理明显能感觉到多通道内存调用的好处。
玩单机游戏其实现在更注重GPU。 ...

并行视频处理,是指多路视频中人脸搜索、行为识别吗?
发表于 2023-8-2 17:15 | 显示全部楼层
本帖最后由 yehaku 于 2023-8-2 17:21 编辑
godspeed66 发表于 2023-8-2 15:40
并行视频处理,是指多路视频中人脸搜索、行为识别吗?


包括在内。还有游戏NPC人工智能行为赐予这些。未来很多应用范围。
主频加压堆叠到后面是有极限的。而且功耗效能很难提高。
但是堆核心和内存通道大数据并行处理是没极限的。比加压提高主频和和纳米制成的成本更低。
以后特别是LINUX平台生产应用上。对核心和内存通道的需求比对主频的需求更高。
对多核心优化的游戏也会越来越多。主频单核跑分的优势会逐渐被多核心和内存通道提升带宽取代。
看下现在苹果和游戏主机发展方向就知道了。
 楼主| 发表于 2023-8-2 23:36 | 显示全部楼层
yehaku 发表于 2023-8-2 17:15
包括在内。还有游戏NPC人工智能行为赐予这些。未来很多应用范围。
主频加压堆叠到后面是有极限的。而且功 ...

多路视频中人脸搜索、行为识别,没有看到对内存带宽的需求

厂商仅对CPU核心数量和内存大小提出要求,从没有对内存带宽提出要求
发表于 2023-8-3 02:29 | 显示全部楼层
godspeed66 发表于 2023-8-2 23:36
多路视频中人脸搜索、行为识别,没有看到对内存带宽的需求

厂商仅对CPU核心数量和内存大小提出要求,从 ...

公司有业务来往的客户说的人工智能数据建模需要。他们做的游戏社区虚拟项目。虚拟场景NPC新一代网游。哎不说了。说多了涉及他们的商业隐私。
 楼主| 发表于 2023-8-3 07:43 来自手机 | 显示全部楼层
草率了

换成3435X后,实测发现,比3495X慢了大约20%

什么原因呢?

用3495x模拟3425@3.2Ghz  比3435X@4.7Ghz快!
发表于 2023-8-3 07:47 | 显示全部楼层
godspeed66 发表于 2023-8-3 07:43
草率了

换成3435X后,实测发现,比3495X慢了大约20%

3495x、3435X缓存大小和结构是不一样的,不只是核心
发表于 2023-11-28 23:08 | 显示全部楼层
这种大小核心的不如6458Q 32全部大核心  满载4.0
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-2 17:04 , Processed in 0.014552 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表