godspeed66 发表于 2023-6-12 10:45

[分享]电脑重启,问题在CPU瞬间温度,CPU瞬间754瓦,电源换2000W,更新HWMonitor截图

本帖最后由 godspeed66 于 2023-6-17 20:54 编辑

瞬间功率1224瓦的时候电脑重启,垃圾影驰HOFGH1300我承认我喊的早了,别的电源也这样

按照ATX3.0要求,影驰HOFGH1300瞬间峰值应该大于2600瓦才对啊?

结果1224瓦就直接重启电脑。。。。。。。[愤怒]


垃圾电源 根本不配1920元,这电源是650瓦虚标成1300瓦的吗?!!

ATX3.0 新规范下,电源整机输出能力需具备 100ms 承担 120% 额定功率输出、10ms 承担 160% 额定功率输出、1ms 承担 180% 额定功率输出、100μs 承担 200% 额定功率输出。

HOFGH1300 连1300瓦额定都达不到[谩骂]我承认我喊的早了,别的电源也这样


我的电脑啊!!!!![流泪]


CPU                  英特尔® 至强® W9-3495X   全核睿频@4.8GHz
散热器               猫头鹰 U12S LGA4677 *1
CPU辅助安装架   INTEL 4677散热器配套用塑料支架 CPU辅助安装架子 (主板附带)
主板                  Pro WS W790E-SAGE SE(IPMI 界面很友好)* 1
内存                  64GB DDR5 4800 *8
机箱                  方糖机械大师 C34Pro+EATX扩展支架+机箱提手 典雅黑 *1
硬盘                  NVME:三星990PRO 2TB*2   ;
                           SATA    Intel 7.68TB*1利旧
显卡                  RTX6000 ADA利旧
电源                   150x140电源影驰HOFGH1300   因体手残,布线困难,只能这个最小体积的电源,不能利旧
风扇                  猫头鹰*4利旧



===============================================

单独使用昆仑KL-1250G ATX3.0电源,更完蛋,跑第二步就重启了[晕倒]


正在准备2个电源一起跑


===============================================
昆仑KL-1250G ATX3.0电源+影驰HOFGH1300,2个电源一起跑,主板选择冷冗余电源 或 非冗余电源模式,均完蛋[晕倒]


完全无头绪中


===============================================
但是我发现,按说明书接好 CPU 8PIN线*4 后,电源明显按照质量相对不好的效果来(连电脑重启时间都一样一样的),

而且跑程序时出现了连续3次蓝屏或重启


这充可能从侧面说明是我的电脑对单个电源的要求比较高


待机约300瓦




==============================================

测试中

32核心跑LLM微调测试数据通过
36核心跑LLM微调测试数据通过
40核心跑LLM微调测试数据通过
44核心跑LLM微调测试数据通过并发现数据处理速度没有明显增加
48核心跑LLM微调测试数据通过并发现数据处理速度没有明显增加
50核心跑LLM微调测试数据通过并发现数据处理速度没有明显变化

电脑关机拆海韵1600瓦电源中


==============================================

2023.6.13

56核心 跑LLM微调测试数据通过   现数据处理速度略有提升   海韵TX 1600








更换海韵TX 1600后,待机输入功率由293瓦下降至272瓦280瓦


跑LLM微调测试数据中遇到2次功率峰值,如下图所示:




此外在整个过程中,功率表显示800瓦+、900瓦+次数明显增多。


综上,先想办法把海韵电源放到机箱中,放不进去的话就期待长城 N202000W电源。









         ==========================================================


莫名其妙的

白天运行没问题

晚上再运行程序,海韵TX1600 也重启了

我有点不会玩了


白天晚上,没发现有不一样的环境啊







         ===========================================================


我在想,有没有可能是我的CPU温度过高导致的问题



刚刚看到

TCASE:是Intel官方公布的,可让CPU满性能运行的温度上限,超过上限后,CPU会尝试降频工作,以降低温度,若降频工作温度仍然无法控制,则会重启主机(该功能需要主板配合)。


主板上没看到TCASE 设置,应该不是这个问题

================================================================

2023.6.14

       机器换个位置56核心又行了[晕倒]
       换位置后电压由218V下降至215V,新位置基本属于正对空调冷风区


       出差回来更新个功率图,供大家参考


CPU 701瓦,出现一次



CPU680瓦,出现好多次





                   ========================================================

以下数据供大家参考,56核心@4.8GHz







本贴基本到此结束,等过几天放假有时间了,我会把这次组装工作站的经历和经验总结后,单独发出来

小节:

1. 电源很关键,1250瓦的电源是基础,但需要注意的是,在某些环境中,电压会从218V下降至211V甚至更低,疑似导致CPU不稳定;在本案例中,为了保持小机箱,我最终选择了2000W电源(长城 N20),在长城电源没到时,我选择外挂海韵TX1600W电源;


2. 温度需要关注,但更需要注意的是,烤机对于正常使用电脑的散热仅有指导性,因为绝大多数程序不能让CPU显卡极限工作;本次异常强劲的空调“立功了”,导致走了好多弯路;等周末会采用外挂360水冷方式解决下执念,然后继续用风冷;风冷安全!

    另,弱弱的说一句,按照我理解论坛上好几个人的说法,按道理我的电脑跑不起来,但事实上我的电脑现在工作良好(除了外挂电源丑了些),在没有空调的、或空调不足的时候,根据环境选择36~50核心跑程序,很稳、很快。


3.再次感谢各位网友的帮助,尤其时积极帮我排查问题的网友们,以及让我发现自己着相了的网友。谢谢大家




手机里、电脑里有好多数据,等得空了我发出来,希望对大家有帮助




PS: 2023.06.17

使用长城N20 2000瓦电源

通过对比猫头鹰 U12S LGA4677   与 U14S DX-4677运行程序的效果,U14S DX-4677 打开上下进气道(去掉防尘网)后,英特尔® 至强® W9-3495X   @4.8GHz56核心屋内空调,程序可以正常运行;而同样情况 U12S LGA4677 不能,使用U12S LGA4677时正对空调口附近时, @4.8GHz56核心才能正常运行;

因此基本可以确认电脑重启的原因在于散热器

明天争取测试下昆仑KL-1250G ATX3.0电源+影驰HOFGH1300

dcl2009 发表于 2023-6-12 10:47

单路输出超限了吧

某人的马甲 发表于 2023-6-12 10:49

那你倒是说说你是怎么做到peak 1224,以及如何测出来的?

godspeed66 发表于 2023-6-12 11:07

本帖最后由 godspeed66 于 2023-6-13 09:22 编辑

某人的马甲 发表于 2023-6-12 10:49
那你倒是说说你是怎么做到peak 1224,以及如何测出来的?



这么看的

电脑端 finetune 微调 llm

具体电脑配置参见https://www.chiphell.com/thread-2519018-1-1.html


你提醒我了


这输入才1224瓦,HOFGH1300 输出肯定还达不到1224瓦!!!

PPXG 发表于 2023-6-12 11:08

peak power怎么测出来的?[震惊]

godspeed66 发表于 2023-6-12 11:10

PPXG 发表于 2023-6-12 11:08
peak power怎么测出来的?

参见你楼上的图片

godspeed66 发表于 2023-6-12 11:11

dcl2009 发表于 2023-6-12 10:47
单路输出超限了吧

GPU跟CPU 我还以为是同路12V?

dcl2009 发表于 2023-6-12 11:16

godspeed66 发表于 2023-6-12 11:11
GPU跟CPU 我还以为是同路12V?

铭牌上应该有写CPU单路和显卡单路能承受的最大电流,我记得cpu供电只能三四十安吧

tozofly 发表于 2023-6-12 11:17

你这什么配置这么爆炸

godspeed66 发表于 2023-6-12 11:18

dcl2009 发表于 2023-6-12 11:16
铭牌上应该有写CPU单路和显卡单路能承受的最大电流,我记得cpu供电只能三四十安吧 ...

就写 12V合计100A 了

godspeed66 发表于 2023-6-12 11:19

tozofly 发表于 2023-6-12 11:17
你这什么配置这么爆炸

https://www.chiphell.com/thread-2519018-1-1.html

配置在这里

sinopart 发表于 2023-6-12 11:20

本帖最后由 sinopart 于 2023-6-12 14:03 编辑

原来是那个组迷你工作站的朋友。
看了前因后果,我可能知道你出了什么问题了。
不是电源也不是瞬时功率。是你这套配置的稳态功率已经超过此电源的功率保护值了。
ATX3.0以海韵为例,有两套过功率保护标准,一套是传统的OPP,一套是ATX3.0新加的瞬时响应。
你是不是看到功耗计在电源断电之前最后一秒的读数是1224?其实真正的功耗一定比这个1224更高,因为这玩意的精度远不如示波器等专业仪器,我怀疑真实的功耗已经冲到了1500w以上,只不过因为精度不高,还没来得及显示就断电了:并不是电源性能不行,而是触发了电源的过功率保护机制。
56核四代志强,之前看到新闻说液氮超频全核5.5GHZ后稳态烤鸡功率超过1880w,可能是你这个电源带不动CPU烤鸡的功率,尝试换一个更大瓦数的试试看。
PS:长城最近搞了个大瓦数ATX3.0,NIVIRA 2000w金牌,而且长度只有15cm,很适合你的机箱使用。
再PS:不要买AX1600i和TX-1600,要买就买银欣 HELA 2050R,全汉 CANNON PRO 2500P,振华 LEADEX P2000这种肌肉电源。

godspeed66 发表于 2023-6-12 11:33

sinopart 发表于 2023-6-12 11:20
原来是那个组迷你工作站的朋友。
看了前因后果,我可能知道你出了什么问题了。
不是电源也不是瞬时功率。是 ...

万分感谢


指路明灯,能让我少走好多弯路

xy. 发表于 2023-6-12 11:35

这个电源唯一的意义就是提供自家 hof 的双 12vhpwr..

yingfores 发表于 2023-6-12 11:35

这220v的功率计省省吧
采样频率1hz都不到,何德何能去测100us级别的peak

godspeed66 发表于 2023-6-12 11:36

sinopart 发表于 2023-6-12 11:20
原来是那个组迷你工作站的朋友。
看了前因后果,我可能知道你出了什么问题了。
不是电源也不是瞬时功率。是 ...

求“长城最近搞了个大瓦数ATX3.0,NIVIRA 2000w金牌,而且长度只有15cm” 在哪能买到?

京东和淘宝上 没搜索到

sinopart 发表于 2023-6-12 11:42

godspeed66 发表于 2023-6-12 11:36
求“长城最近搞了个大瓦数ATX3.0,NIVIRA 2000w金牌,而且长度只有15cm” 在哪能买到?

京东和淘宝上 没 ...

https://www.expreview.com/87778.html这是超能网对这个电源的评测。
如果网购网站没找到,就是还没上市。可以看看TX-1600 ATX3.0,过功率保护上限是2400w。但是特别长,C34能不能放下不好说,但是乔斯伯D30我见过能放这个电源。

大头吃小头 发表于 2023-6-12 11:43

godspeed66 发表于 2023-6-12 11:36
求“长城最近搞了个大瓦数ATX3.0,NIVIRA 2000w金牌,而且长度只有15cm” 在哪能买到?

京东和淘宝上 没 ...

n20猎金

xwmhlb 发表于 2023-6-12 11:46

godspeed66 发表于 2023-6-12 11:07
这么看的

电脑端 finetune 微调 llm


这个肯定误差太大了[吃惊]

xwmhlb 发表于 2023-6-12 11:46

sinopart 发表于 2023-6-12 11:20
原来是那个组迷你工作站的朋友。
看了前因后果,我可能知道你出了什么问题了。
不是电源也不是瞬时功率。是 ...

分析到位

yubeii 发表于 2023-6-12 11:47

北电功率仪是看不到真正的峰值功率的,需要用高速示波器

sinopart 发表于 2023-6-12 11:53

还得补充一句,既然是3495X,必须把主板的四个CPU 8pin口都插上,而且除了保证插到位,还要用最好的线材。单个EPS 8PIN接口最多提供384W,材质特别好的走480W不是问题(每组回路10A)。虽然没玩过,但是看你的案例和那个5.5GHZ超频的例子来看,3495X5全部56核心全开,就算小超频也能轻松突破1200w,起码要四个口同时供电才能满足要求。

cuixiang 发表于 2023-6-12 12:03

电源还是要买大瓦数的,像你2000W起步,甚至2600W,不管现在有没有这个瓦数的电源。

你买个1300W的电源,瓦数低,你会让电源长期处于高负载状态,
这个高负载是指某一项指标,不是单纯的瓦数,否者电源迟早会挂。
而且挂电源只是小事。

早期玩X79X99平台,对电源的简单总结

cuixiang 发表于 2023-6-12 12:04

现在的电源,虚标的绝对不少,还踩着线买。[恶魔]

某人的马甲 发表于 2023-6-12 12:07

godspeed66 发表于 2023-6-12 11:07
这么看的

电脑端 finetune 微调 llm


你这个配置1300W肯定是不够的。。。

W9这种玩意,频率起来了功耗非常非常夸张

24核的2495X,不超频,仅仅是解锁功耗墙,单拷就800W.....你关了核心帮助也不是特别大

亦真亦假 发表于 2023-6-12 13:02

W9-3495X要说单烤就有800W,但你这显卡功耗也不高吧,正常电源过载保护120%总要有的,1300W跑到1600W轻轻松松,不太可能是功率不够,建议还是售后换一台再试试

godspeed66 发表于 2023-6-12 13:16

单独使用昆仑KL-1250G ATX3.0电源,更完蛋,跑第二步就重启了


正在准备2个电源一起跑

godspeed66 发表于 2023-6-12 13:18

yingfores 发表于 2023-6-12 11:35
这220v的功率计省省吧
采样频率1hz都不到,何德何能去测100us级别的peak

我提使用感受还需要买专业仪器?笑话

blackdenoir 发表于 2023-6-12 13:37

看着都和功耗无关,某楼推荐2000W以上电源真的无法理解,这种情况可能换一台就好了

godspeed66 发表于 2023-6-12 13:45

blackdenoir 发表于 2023-6-12 13:37
看着都和功耗无关,某楼推荐2000W以上电源真的无法理解,这种情况可能换一台就好了 ...

使用单独电源跑,测试数据20步。

昆仑KL-1250G ATX3.0电源 ,仅仅坚持到第2步

影驰HOFGH1300,能坚持到第15步


目前看还是电源问题的面大
页: [1] 2 3 4 5 6 7
查看完整版本: [分享]电脑重启,问题在CPU瞬间温度,CPU瞬间754瓦,电源换2000W,更新HWMonitor截图