找回密码
 加入我们
搜索
      
楼主: godspeed66

[电源] [分享]电脑重启,问题在CPU瞬间温度,CPU瞬间754瓦,电源换2000W,更新HWMonitor截图

[复制链接]
 楼主| 发表于 2023-6-13 18:53 | 显示全部楼层
sinopart 发表于 2023-6-13 17:10
他跑的是自己软件的测试,不是跑AVX,压力会小很多。

我的程序使用AVX512

Loading extension module cpu_adam...
Time to load cpu_adam op: 2.5269882678985596 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
发表于 2023-6-13 19:47 | 显示全部楼层
感谢绝活哥持续更新
发表于 2023-6-13 19:58 来自手机 | 显示全部楼层
简易的功率计确实测不出瞬时波动,FCP 大魔王用的致茂 Chroma 8000 系列设备测的,不过普通玩家确实也没必要用这种专业设备。
发表于 2023-6-13 20:03 来自手机 | 显示全部楼层
更正一下是“至茂”,阿里巴巴上二手的卖19万一台。
发表于 2023-6-13 20:04 | 显示全部楼层
godspeed66 发表于 2023-6-13 18:53
我的程序使用AVX512

Loading extension module cpu_adam...

你跑AVX512 時應該已經掉頻不可能在4.8G
y-cruncher スクリーンショット 2023-06-13 195314.png
 楼主| 发表于 2023-6-13 20:35 | 显示全部楼层
本帖最后由 godspeed66 于 2023-6-13 20:40 编辑
kanakoaoi 发表于 2023-6-13 20:04
你跑AVX512 時應該已經掉頻不可能在4.8G
y-cruncher




512.jpg

正好帮我看看
发表于 2023-6-13 20:37 | 显示全部楼层

优化器的avx512指令密度是非常低的
发表于 2023-6-13 20:42 | 显示全部楼层
godspeed66 发表于 2023-6-12 15:17
嗯嗯 看到了 等1600瓦的 单电源不行 再买2个电源

不同型号的电源直接并联没法有效平衡负载,瞬间的压力还是会在其中一个电源上
发表于 2023-6-13 20:42 | 显示全部楼层

你跑個y-cruncher 試試
 楼主| 发表于 2023-6-13 20:43 | 显示全部楼层
zhuifeng88 发表于 2023-6-13 20:37
优化器的avx512指令密度是非常低的

所以这个没用AVX512?
发表于 2023-6-13 20:44 | 显示全部楼层
godspeed66 发表于 2023-6-13 20:43
所以这个没用AVX512?


用了, 但优化器本身不是compute bound的负载, 并且指令当中avx512指令的占比很低, 你挂vtune看看就明白了
 楼主| 发表于 2023-6-13 20:47 | 显示全部楼层
IamAeon 发表于 2023-6-13 19:58
简易的功率计确实测不出瞬时波动,FCP 大魔王用的致茂 Chroma 8000 系列设备测的,不过普通玩家确实也没必 ...

所以只看效果就行了

19万的设备,要不是职业用户或者极其个别的个人用户,绝大多数人是不会买的

那我们就别纠结什么瞬间功率了

买个好电源N20 2000瓦才1699  雷神2 1600才4299  海韵TX1600 才3999  ,咋买都比19万的设备便宜
 楼主| 发表于 2023-6-13 20:49 | 显示全部楼层
fcs15963 发表于 2023-6-13 20:42
不同型号的电源直接并联没法有效平衡负载,瞬间的压力还是会在其中一个电源上 ...

你说的好对,早点知道这个知识能节省我至少6个小时


我是测试后,根据测试结果才反应过来的
发表于 2023-6-13 20:51 | 显示全部楼层
配置逆天
也许AX1600i可以???
 楼主| 发表于 2023-6-13 20:53 | 显示全部楼层
zhuifeng88 发表于 2023-6-13 20:44
用了, 但优化器本身不是compute bound的负载, 并且指令当中avx512指令的占比很低, 你挂vtune看看就明白了 ...

所以,说重点啊


怎么用AMX加速啊!!!!!!!!!


拿各种测试软件没意义呀

买这么好的CPU 不用AMX ,去用AVX512
发表于 2023-6-13 20:56 | 显示全部楼层

你的使用场景和amx的使用场景八竿子打不着边, 用不上的
amx面向的是小模型的低延迟推理和offload到cpu部分的加速
 楼主| 发表于 2023-6-13 20:57 | 显示全部楼层
bigeblis 发表于 2023-6-13 20:51
配置逆天
也许AX1600i可以???

感谢推荐

看测评确实很好

而且还是C14接口

但价格4999   ,我打算先尝试下1699的长城N20 2000瓦,先支持下国产,不行再换好的
 楼主| 发表于 2023-6-13 20:58 | 显示全部楼层
zhuifeng88 发表于 2023-6-13 20:56
你的使用场景和amx的使用场景八竿子打不着边, 用不上的
amx面向的是小模型的低延迟推理和offload到cpu部 ...

我这就是offload到 CPU了啊

  offload_optimizer_device: cpu
 楼主| 发表于 2023-6-13 21:00 | 显示全部楼层
zhuifeng88 发表于 2023-6-13 20:56
你的使用场景和amx的使用场景八竿子打不着边, 用不上的
amx面向的是小模型的低延迟推理和offload到cpu部 ...


我都郁闷了

IPEX 貌似也没用上
ipex_config:
  ipex: true


都启用了


就是看不到效果

周边又没人懂这个,只能自己摸索着玩
发表于 2023-6-13 21:04 | 显示全部楼层
本帖最后由 zhuifeng88 于 2023-6-13 21:06 编辑
godspeed66 发表于 2023-6-13 20:58
我这就是offload到 CPU了啊

  offload_optimizer_device: cpu


deepspeed的优化器不是computebonund, offload只是减轻显存压力而已, 俩内置offload功能都是这个目的的, 和加速计算的offload说的不是一个东西
ipex的话是会用上的, 但加速的部分可能不是耗时大头(特别是在多卡的情况下), 整体上未必能看出效果
 楼主| 发表于 2023-6-13 21:13 | 显示全部楼层
zhuifeng88 发表于 2023-6-13 21:04
deepspeed的优化器不是computebonund, offload只是减轻显存压力而已, 俩内置offload功能都是这个目的的,  ...

为什么优化器里不能用AMX 或者说IPEX?

[WARNING]  cpu_adam cuda is missing or is incompatible with installed torch, only cpu ops can be compiled!
Using /root/.cache/torch_extensions/py38_cu121 as PyTorch extensions root...
Emitting ninja build file /root/.cache/torch_extensions/py38_cu121/cpu_adam/build.ninja...
Building extension module cpu_adam...
Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
ninja: no work to do.
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.5269882678985596 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability
发表于 2023-6-13 21:17 | 显示全部楼层
godspeed66 发表于 2023-6-13 21:13
为什么优化器里不能用AMX 或者说IPEX?

[WARNING]  cpu_adam cuda is missing or is incompatible with  ...


amx能用, 但意义不大, 在这块提供不了什么加速, 做这个的人力花别的地方多好
ipex的话, 这是pytorch的扩展, 而你用的优化器是deepspeed实现的, 邻居家的小孩关ipex啥事
 楼主| 发表于 2023-6-13 21:24 | 显示全部楼层
zhuifeng88 发表于 2023-6-13 21:17
amx能用, 但意义不大, 在这块提供不了什么加速, 做这个的人力花别的地方多好
ipex的话, 这是pytorch的扩 ...

我执行 python -m pip install intel_extension_for_pytorch -f https://developer.intel.com/ipex-whl-stable-cpu

import Accelerator

配置里也启用IPEX

但没效果
 楼主| 发表于 2023-6-13 21:37 | 显示全部楼层
莫名其妙的

白天运行没问题

晚上再运行程序,海韵TX1600 也重启了

我有点不会玩了
发表于 2023-6-13 21:46 来自手机 | 显示全部楼层
godspeed66 发表于 2023-6-13 21:37
莫名其妙的

白天运行没问题

不会是cpu不稳定吧
 楼主| 发表于 2023-6-13 22:02 | 显示全部楼层
yin19991999 发表于 2023-6-13 21:46
不会是cpu不稳定吧

怀疑过,现在也有点怀疑

但每次都是执行程序到指定位置后再重启,而且之前CPU运行100% 好多次了,所以目前还是更怀疑电




有点晕啊
 楼主| 发表于 2023-6-13 22:06 | 显示全部楼层
kanakoaoi 发表于 2023-6-13 20:04
你跑AVX512 時應該已經掉頻不可能在4.8G
y-cruncher


我在想,有没有可能是我的CPU温度过高导致的问题



刚刚看到

TCASE:是Intel官方公布的,可让CPU满性能运行的温度上限,超过上限后,CPU会尝试降频工作,以降低温度,若降频工作温度仍然无法控制,则会重启主机(该功能需要主板配合)。
 楼主| 发表于 2023-6-13 22:06 | 显示全部楼层
zhuifeng88 发表于 2023-6-13 21:17
amx能用, 但意义不大, 在这块提供不了什么加速, 做这个的人力花别的地方多好
ipex的话, 这是pytorch的扩 ...


我在想,有没有可能是我的CPU温度过高导致的问题



刚刚看到

TCASE:是Intel官方公布的,可让CPU满性能运行的温度上限,超过上限后,CPU会尝试降频工作,以降低温度,若降频工作温度仍然无法控制,则会重启主机(该功能需要主板配合)。
发表于 2023-6-13 22:07 | 显示全部楼层
godspeed66 发表于 2023-6-13 22:06
我在想,有没有可能是我的CPU温度过高导致的问题

白天开空调温度低,晚上没开空调温度高?
 楼主| 发表于 2023-6-13 22:09 | 显示全部楼层
blueflash 发表于 2023-6-13 22:07
白天开空调温度低,晚上没开空调温度高?

嗯嗯  

我正回忆呢,确实白天有空调,晚上没空调

难道之前是1250瓦电源、1300瓦电源是功率不够

换成1600瓦电源后,是温度问题?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-5-19 16:35 , Processed in 0.014325 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表