[分享]CPU对大语言模型微调的影响 复旦MOSS 16B模型
本帖最后由 godspeed66 于 2023-7-23 18:37 编辑[分享]CPU对大语言模型微调的影响 复旦MOSS 16B模型
表中测试数据1000条,epochs=2
所有测试均使用W9-3495X模拟,微调使用DeepSpeed offload到CPU上,因此对CPU性能有需求
根据测试,12核心、3.20 GHz的w5-3425 与 顶级的W9-3495X对比,实际耗时相差不足10%
然而,6核心、2.1 GHz的w3-2423,与w5-3425和顶级的W9-3495X有着巨大的差距,实际耗时差距在35%以上
这个不是很严谨的测试供大家参考
用时10%的差距能够接受,毕竟w5-34250.82万与 W9-3495X 4.41万的差距在那呢,都快差出个RTX 6000了,把钱用在第二块RTX 6000上明显更合适。
但低端CPU 英特尔® 至强® W3-2423 处理器 就不建议了,虽然便宜,但性能太差;
而w5-3425 比W3-2423仅仅贵了大约0.5万元,多花0.5万元25%的速度提升还是很可观的。
有意思的测试。
不过你的意思是核太多就不明显了? 一种理解是核心数量比较少,线程打包分发都很消耗资源,不够用
个人炼丹不如直接用按摩店来的实惠吧,核多 pmax 发表于 2023-7-23 20:47
有意思的测试。
不过你的意思是核太多就不明显了?
复旦MOSS 16B模型大语言模型微调对CPU的消耗模式
主要还是单线程
多线程有用但不明显
DeepSpeed offload到CPU上 要使用大量的内存,和单线程CPU性能
fafnirken 发表于 2023-7-23 22:03
一种理解是核心数量比较少,线程打包分发都很消耗资源,不够用
个人炼丹不如直接用按摩店来的实惠吧,核多 ...
这个正好反了
主要消耗单线程
多线程大约12核心后提升就不明显了,甚至可以说在误差范围中了 godspeed66 发表于 2023-7-24 09:17
复旦MOSS 16B模型大语言模型微调对CPU的消耗模式
主要还是单线程
多核对数据并行处理帮助不大? pmax 发表于 2023-7-24 11:23
多核对数据并行处理帮助不大?
主要消耗单核性能,多核有影响,但不大,实测 那推理呢,cpu的影响如何? q3again0605 发表于 2023-7-24 14:07
那推理呢,cpu的影响如何?
gpu推理的话没什么影响, cpu推理的话通常平台都是内存带宽瓶颈, 主流架构每核心可以承载20-30GB/s内存带宽, 比如你的平台可见的内存带宽是200GB/s, 那么超过12核之后核心数量就和速度几乎无关了 直接用cpu跑试过吗?好奇3495wx bf16精度算力是什么水平 zhuifeng88 发表于 2023-7-24 14:12
gpu推理的话没什么影响, cpu推理的话通常平台都是内存带宽瓶颈, 主流架构每核心可以承载20-30GB/s内存带 ...
谢谢:) 用户 发表于 2023-7-24 14:12
直接用cpu跑试过吗?好奇3495wx bf16精度算力是什么水平
裸算力的话主要看你全核能拉在多少频率
amx和avx512vnni提供的bf16算力3475x在420w功耗墙下能测到的都是15Tflops, 另外amx和avx512vnni是相互独立的单元可以同时使用(但显然会受限于功耗)
另外, llm都是memory bound, 实际峰值算力连裸算力的10%都跑不出来的, 不仅是CPU, GPU也一样, 或者说GPU能跑出来的比值更低 我是W3475配2个Rtx6000 Ada,还在路上,到了看下效果 zhuifeng88 发表于 2023-7-24 16:27
裸算力的话主要看你全核能拉在多少频率
amx和avx512vnni提供的bf16算力3475x在420w功耗墙下能测到的都是1 ...
看来AI时代真的要狠狠地改进一下memory架构了 pmax 发表于 2023-7-24 16:51
看来AI时代真的要狠狠地改进一下memory架构了
大厂玩存算一体, 但这玩意到头来都是整柜整柜的玩意, 别说消费级了, 专业wks都玩不起的 打游戏估计3435X够了 A6000 还是 6000 Ada? facebbook 发表于 2023-8-1 09:51
A6000 还是 6000 Ada?
RTX 6000 ADA godspeed66 发表于 2023-8-1 22:39
RTX 6000 ADA
楼主配了两块 ……6000 Ada? 本帖最后由 yehaku 于 2023-8-2 13:28 编辑
生产应用以后都是服务器多通道内存的天下。
现在桌面双通道挂多核心的加压超频U内存会严重堵车。功耗发热高算力效率低下。[睡觉] facebbook 发表于 2023-8-2 13:13
楼主配了两块 ……6000 Ada?
目前是1块,自己估算需要2~6块
8月4日清华智谱AI(chatGLM团队)、复旦moss团队、中科院紫东太初团队、百度文心一言团队、东北大学tech**团队有个研讨会,打算听听他们的微调解决办法后,再确认购买什么GPU。
另外就是现在国产化逐步成为硬性需求,
华为的Atlas 300系列也在考虑范围,就是听说实际运行与英伟达的差距很大,但新项目都在用这个中标。 yehaku 发表于 2023-8-2 13:26
生产应用以后都是服务器多通道内存的天下。
现在桌面双通道挂多核心的加压超频U内存会严重堵车。功耗发热高 ...
为啥这么说?
是指中台应用会消耗内存带宽吗? godspeed66 发表于 2023-8-2 14:02
为啥这么说?
是指中台应用会消耗内存带宽吗?
游戏多开和并行视频处理明显能感觉到多通道内存调用的好处。
玩单机游戏其实现在更注重GPU。 yehaku 发表于 2023-8-2 15:24
游戏多开和并行视频处理明显能感觉到多通道内存调用的好处。
玩单机游戏其实现在更注重GPU。 ...
并行视频处理,是指多路视频中人脸搜索、行为识别吗? 本帖最后由 yehaku 于 2023-8-2 17:21 编辑
godspeed66 发表于 2023-8-2 15:40
并行视频处理,是指多路视频中人脸搜索、行为识别吗?
包括在内。还有游戏NPC人工智能行为赐予这些。未来很多应用范围。
主频加压堆叠到后面是有极限的。而且功耗效能很难提高。
但是堆核心和内存通道大数据并行处理是没极限的。比加压提高主频和和纳米制成的成本更低。
以后特别是LINUX平台生产应用上。对核心和内存通道的需求比对主频的需求更高。
对多核心优化的游戏也会越来越多。主频单核跑分的优势会逐渐被多核心和内存通道提升带宽取代。
看下现在苹果和游戏主机发展方向就知道了。[睡觉] yehaku 发表于 2023-8-2 17:15
包括在内。还有游戏NPC人工智能行为赐予这些。未来很多应用范围。
主频加压堆叠到后面是有极限的。而且功 ...
多路视频中人脸搜索、行为识别,没有看到对内存带宽的需求
厂商仅对CPU核心数量和内存大小提出要求,从没有对内存带宽提出要求 godspeed66 发表于 2023-8-2 23:36
多路视频中人脸搜索、行为识别,没有看到对内存带宽的需求
厂商仅对CPU核心数量和内存大小提出要求,从 ...
公司有业务来往的客户说的人工智能数据建模需要。他们做的游戏社区虚拟项目。虚拟场景NPC新一代网游。哎不说了。说多了涉及他们的商业隐私。[睡觉] 草率了
换成3435X后,实测发现,比3495X慢了大约20%[晕倒]
什么原因呢?
用3495x模拟3425@3.2Ghz比3435X@4.7Ghz快! godspeed66 发表于 2023-8-3 07:43
草率了
换成3435X后,实测发现,比3495X慢了大约20%
3495x、3435X缓存大小和结构是不一样的,不只是核心 这种大小核心的不如6458Q 32全部大核心满载4.0
页:
[1]
2