找回密码
 加入我们
搜索
      
查看: 28559|回复: 195

[电源] [分享]电脑重启,问题在CPU瞬间温度,CPU瞬间754瓦,电源换2000W,更新HWMonitor截图

[复制链接]
发表于 2023-6-12 10:45 | 显示全部楼层 |阅读模式
本帖最后由 godspeed66 于 2023-6-17 20:54 编辑

瞬间功率1224瓦的时候电脑重启,垃圾影驰HOFGH1300我承认我喊的早了,别的电源也这样

按照ATX3.0要求,影驰HOFGH1300瞬间峰值应该大于2600瓦才对啊?

结果1224瓦就直接重启电脑。。。。。。。


垃圾电源 根本不配1920元,这电源是650瓦虚标成1300瓦的吗?!!

ATX3.0 新规范下,电源整机输出能力需具备 100ms 承担 120% 额定功率输出、10ms 承担 160% 额定功率输出、1ms 承担 180% 额定功率输出、100μs 承担 200% 额定功率输出。

HOFGH1300 连1300瓦额定都达不到我承认我喊的早了,别的电源也这样


我的电脑啊!!!!!


CPU                    英特尔® 至强® W9-3495X   全核睿频@4.8GHz
散热器                 猫头鹰 U12S LGA4677 *1
CPU辅助安装架   INTEL 4677散热器配套用塑料支架 CPU辅助安装架子 (主板附带)
主板                    Pro WS W790E-SAGE SE(IPMI 界面很友好)* 1
内存                    64GB DDR5 4800 *8  
机箱                    方糖机械大师 C34Pro+EATX扩展支架+机箱提手 典雅黑 *1
硬盘                    NVME:三星990PRO 2TB*2   ;  
                           SATA    Intel 7.68TB*1利旧
显卡                    RTX6000 ADA  利旧
电源                   150x140电源  影驰HOFGH1300   因体手残,布线困难,只能这个最小体积的电源,不能利旧
风扇                    猫头鹰*4  利旧


微信图片_20230612175805.jpg
===============================================

单独使用昆仑KL-1250G ATX3.0电源  ,更完蛋,跑第二步就重启了


正在准备2个电源一起跑


===============================================
昆仑KL-1250G ATX3.0电源+影驰HOFGH1300,2个电源一起跑,主板选择冷冗余电源 或 非冗余电源模式,均完蛋


完全无头绪中


===============================================
但是我发现,按说明书接好 CPU 8PIN线*4 后,电源明显按照质量相对不好的效果来(连电脑重启时间都一样一样的),

而且跑程序时出现了连续3次蓝屏或重启


这充可能从侧面说明是我的电脑对单个电源的要求比较高


待机约300瓦




==============================================

测试中

32核心  跑LLM微调测试数据通过
36核心  跑LLM微调测试数据通过
40核心  跑LLM微调测试数据通过
44核心  跑LLM微调测试数据通过  并发现数据处理速度没有明显增加
48核心  跑LLM微调测试数据通过  并发现数据处理速度没有明显增加
50核心  跑LLM微调测试数据通过  并发现数据处理速度没有明显变化

电脑关机拆海韵1600瓦电源中


==============================================

2023.6.13

56核心 跑LLM微调测试数据通过   现数据处理速度略有提升     海韵TX 1600


676e64461e1e7d048e4b2f4915b43e3.jpg





更换海韵TX 1600后,待机输入功率由293瓦下降至272瓦280瓦
520f821fdef44c6b409ebd7a8521731.jpg

跑LLM微调测试数据中遇到2次功率峰值,如下图所示:

1236.jpg
1244.jpg

此外在整个过程中,功率表显示800瓦+、900瓦+次数明显增多。


综上,先想办法把海韵电源放到机箱中,放不进去的话就期待长城 N20  2000W电源。



5adfd9d11e15db8cba799e4e1ff449f.jpg

ff383497ae95eeabf4f785c1781e6da.jpg



           ==========================================================


莫名其妙的

白天运行没问题

晚上再运行程序,海韵TX1600 也重启了

我有点不会玩了


白天晚上,没发现有不一样的环境啊


TX1600png.png

82.jpg


           ===========================================================


我在想,有没有可能是我的CPU温度过高导致的问题



刚刚看到

TCASE:是Intel官方公布的,可让CPU满性能运行的温度上限,超过上限后,CPU会尝试降频工作,以降低温度,若降频工作温度仍然无法控制,则会重启主机(该功能需要主板配合)。



主板上没看到TCASE 设置,应该不是这个问题

================================================================

2023.6.14

       机器换个位置  56核心又行了
       换位置后电压由218V下降至215V,新位置基本属于正对空调冷风区


       出差回来更新个功率图,供大家参考


CPU 701瓦,出现一次
701W.jpg


CPU  680瓦,出现好多次

680W.jpg



                   ========================================================

以下数据供大家参考,56核心@4.8GHz

屏幕截图 2023-06-14 213933.png
屏幕截图 2023-06-14 214042.png
屏幕截图 2023-06-14 214105.png



本贴基本到此结束,等过几天放假有时间了,我会把这次组装工作站的经历和经验总结后,单独发出来

小节:

1. 电源很关键,1250瓦的电源是基础,但需要注意的是,在某些环境中,电压会从218V下降至211V甚至更低,疑似导致CPU不稳定;在本案例中,为了保持小机箱,我最终选择了2000W电源(长城 N20),在长城电源没到时,我选择外挂海韵TX1600W电源;


2. 温度需要关注,但更需要注意的是,烤机对于正常使用电脑的散热仅有指导性,因为绝大多数程序不能让CPU显卡极限工作;本次异常强劲的空调“立功了”,导致走了好多弯路;等周末会采用外挂360水冷方式解决下执念,然后继续用风冷;风冷安全!

    另,弱弱的说一句,按照我理解论坛上好几个人的说法,按道理我的电脑跑不起来,但事实上我的电脑现在工作良好(除了外挂电源丑了些),在没有空调的、或空调不足的时候,根据环境选择36~50核心跑程序,很稳、很快。


3.  再次感谢各位网友的帮助,尤其时积极帮我排查问题的网友们,以及让我发现自己着相了的网友。谢谢大家




手机里、电脑里有好多数据,等得空了我发出来,希望对大家有帮助




PS: 2023.06.17

使用长城N20 2000瓦电源

通过对比猫头鹰 U12S LGA4677   与 U14S DX-4677  运行程序的效果,U14S DX-4677 打开上下进气道(去掉防尘网)后,英特尔® 至强® W9-3495X   @4.8GHz  56核心  屋内空调,程序可以正常运行;而同样情况 U12S LGA4677 不能,使用U12S LGA4677时正对空调口附近时, @4.8GHz  56核心  才能正常运行;

因此基本可以确认电脑重启的原因在于散热器

明天争取测试下昆仑KL-1250G ATX3.0电源+影驰HOFGH1300
 楼主| 发表于 2023-6-17 20:55 | 显示全部楼层
2023.06.17

使用长城N20 2000瓦电源

通过对比猫头鹰 U12S LGA4677   与 U14S DX-4677  运行程序的效果,U14S DX-4677 打开上下进气道(去掉防尘网)后,英特尔® 至强® W9-3495X   @4.8GHz  56核心  屋内空调,程序可以正常运行;而同样情况 U12S LGA4677 不能,使用U12S LGA4677时正对空调口附近时, @4.8GHz  56核心  才能正常运行;

因此基本可以确认电脑重启的原因在于散热器

明天争取测试下昆仑KL-1250G ATX3.0电源+影驰HOFGH1300
发表于 2023-6-15 16:28 | 显示全部楼层
大部分家用智能插座是测不出来瞬间峰值的,但是峰值过高也能弄重启电源

那会第一次群体打起来应该是vega56/64+海韵
发表于 2023-6-15 16:21 | 显示全部楼层
单塔压超频后700W的CPU?R U kidding with me?
13700K超频都够呛吧
重启肯定是过热保护了吧
 楼主| 发表于 2023-6-15 16:02 | 显示全部楼层
Takukou 发表于 2023-6-15 10:48
不敢相信博尔特可以跑进10s,我却不可以,我们难道不都是地球人?

这个  我达成了 56核心4.8GHz

并能够正常运行LLM的微调测试数据

要相信真实用户体验,不要过于迷信测试软件,那只是极端情况,这种极端情况正常人使用是可以避免的,实际过程CPU不会一直满载。
发表于 2023-6-15 11:17 | 显示全部楼层
我靠,750W的CPU         
发表于 2023-6-15 10:48 来自手机 | 显示全部楼层
godspeed66 发表于 2023-6-12 15:54
我不敢相信3495X 56核心@4.8GHz都跑不下来

这个CPU默频单核就是4.8GHz的

不敢相信博尔特可以跑进10s,我却不可以,我们难道不都是地球人?
发表于 2023-6-14 23:47 | 显示全部楼层
电源要求不搞全核4.8就一般正常用没那么离谱就是了, 我是鑫谷750带主板cpu硬盘之类杂七杂八的和一张矿渣3090, 矿龙1250带另外3张矿渣3090
 楼主| 发表于 2023-6-14 23:18 | 显示全部楼层
本贴基本到此结束,等过几天放假有时间了,我会把这次组装工作站的经历和经验总结后,单独发出来

小节:

1. 电源很关键,1250瓦的电源是基础,但需要注意的是,在某些环境中,电压会从218V下降至211V甚至更低,疑似导致CPU不稳定;在本案例中,为了保持小机箱,我最终选择了2000W电源(长城 N20),在长城电源没到时,我选择外挂海韵TX1600W电源;


2. 温度需要关注,但更需要注意的是,烤机对于正常使用电脑的散热仅有指导性,因为绝大多数程序不能让CPU显卡极限工作;本次异常强劲的空调“立功了”,导致走了好多弯路;等周末会采用外挂360水冷方式解决下执念,然后继续用风冷;风冷安全!

    另,弱弱的说一句,按照我理解论坛上好几个人的说法,按道理我的电脑跑不起来,但事实上我的电脑现在工作良好(除了外挂电源丑了些),在没有空调的、或空调不足的时候,根据环境选择36~50核心跑程序,很稳、很快。


3.  再次感谢各位网友的帮助,尤其时积极帮我排查问题的网友们,以及让我发现自己着相了的网友。谢谢大家
 楼主| 发表于 2023-6-14 22:54 | 显示全部楼层
赫敏 发表于 2023-6-14 20:36
感觉楼主就是技术不行又喜欢瞎折腾。没见过谁cpu超频工作的,还天天重启换电源不知每天还干不干活 ...

谢谢指出问题

心中执念太深,着相了


发表于 2023-6-14 22:28 | 显示全部楼层
godspeed66 发表于 2023-6-14 10:04
是ATX3.0的

我也怀疑与温度有关系

看你评论,这台TX1600不是ATX3.0版,只是带12VHPWR转接线而已,最新版是这个https://item.jd.com/10074156904053.html
发表于 2023-6-14 22:09 | 显示全部楼层
插座这种一般是家用监测比较宏观的,你一个月用了多少电,平时的功耗。

LZ想在家测瞬间峰值或者记录到小数点后4、5位的功率、电压、电流的话,可以考虑买个示波器。
发表于 2023-6-14 21:24 | 显示全部楼层
godspeed66 发表于 2023-6-14 20:12
非常感谢建议,今后确实需要双电源了

目前用双电源就得换大机箱了,现在即使只用32核心对我也够用,功耗 ...

这么大的功耗,风冷已经压不住了,水冷只能硬着头皮走,即便有焦虑。
发表于 2023-6-14 20:36 | 显示全部楼层
感觉楼主就是技术不行又喜欢瞎折腾。没见过谁cpu超频工作的,还天天重启换电源不知每天还干不干活
发表于 2023-6-14 20:30 | 显示全部楼层
本帖最后由 cuixiang 于 2023-6-14 20:35 编辑
godspeed66 发表于 2023-6-14 10:06
这咋证明呢?

沈阳这边售后非常麻烦,而且效率极其低下,本地商家拿个CPU测试能点亮,放一段时间不死机 ...


这种“有可能主板有问题”的病因,还是放下一步考虑吧

先解决电源 散热器
机箱应该是要换了


说一下我个人经历
早期 买华硕R4E+3960x,简单超频后,也是各种小问题,怀疑主板有暗伤、主板有问题,但又说不出个所以然,拿到官方售后网点,工作人员说,没条件测主板暗伤,要我直接返厂维修。
 楼主| 发表于 2023-6-14 20:12 | 显示全部楼层
cuixiang 发表于 2023-6-14 19:52
楼主,我还是推荐你搞双电源。
个人看法
1、你平台功耗太大了,单电源的条件下,对电源的要求偏高。

非常感谢建议,今后确实需要双电源了

目前用双电源就得换大机箱了,现在即使只用32核心对我也够用,功耗到时候会下降非常多,训练速度大约慢15%左右,目前基本没影响;

360水冷是我机箱去掉上盖后能使用得最大得水冷,看介绍说就是专门给3495X用的,我很焦虑水冷漏水,虽然我没遇到过这类情况,但依然焦虑
发表于 2023-6-14 20:06 | 显示全部楼层
blackdenoir 发表于 2023-6-12 13:37
看着都和功耗无关,某楼推荐2000W以上电源真的无法理解,这种情况可能换一台就好了 ...

这个确实要推荐2000W电源啊
发表于 2023-6-14 19:52 | 显示全部楼层
godspeed66 发表于 2023-6-14 18:49
出差回来更新个功率图,供大家参考

楼主,我还是推荐你搞双电源。
个人看法
1、你平台功耗太大了,单电源的条件下,对电源的要求偏高。
双电源,电源自身负载低,平台出问题的话,一般不会出在电源身上。
有精力排查其他地方。
2、1200W+的发热量,风冷就不要想了
你打算买abee 360水冷,你先做做功课,压得住吗?别踩着线买。
 楼主| 发表于 2023-6-14 18:49 | 显示全部楼层
出差回来更新个功率图,供大家参考
发表于 2023-6-14 17:31 | 显示全部楼层
有没有一种可能,你这样设置系统不稳定。所以放弃超频吧
发表于 2023-6-14 17:13 | 显示全部楼层
试了几个电源都这样,就没想过可能是其他问题吗?
发表于 2023-6-14 16:44 | 显示全部楼层
我家电饭煲都没这么大功率
发表于 2023-6-14 16:13 | 显示全部楼层
本帖最后由 yxy37yxy37 于 2023-6-14 16:15 编辑

看了机箱照片,感觉是电源过热,你这个风是从机箱内部抽给电源散热的。。。这。。。有点不好



哦,那个是影驰的。。。海韵的在外面放着的。。当我没说。。。
 楼主| 发表于 2023-6-14 15:15 来自手机 | 显示全部楼层
定abee 360水冷 了  ,周六先排除下散热问题
发表于 2023-6-14 10:44 | 显示全部楼层
本帖最后由 sinopart 于 2023-6-14 10:48 编辑
godspeed66 发表于 2023-6-14 10:34
不是新款得 ATX3.0

但是带16PIN 显卡电源线2条


那应该不是国行的,但是包装上也没有标注
打错了 ,那就是旧版TX-1600
 楼主| 发表于 2023-6-14 10:34 | 显示全部楼层
sinopart 发表于 2023-6-14 10:15
是不是国行的TX-1600?国行的ATX3.0版TX-1600使用的是C13接口,你昨天就说了你因为C19接口的原因放不进机 ...

不是新款得 ATX3.0

但是带16PIN 显卡电源线2条


25f0a4495cc62efdae7bf3f6f00029f.jpg
发表于 2023-6-14 10:16 | 显示全部楼层
Mufasa 发表于 2023-6-13 22:34
白天可以,晚上不行,是不是你那边用电有些问题。

但海韵这个带主动PFC,电压稍微低一点应该没事啊。。。 ...

主动PFC的补偿是要牺牲一点点输出能力的,楼主这数值已经踩在在输出的极限边沿,稍有点变化就顶不住了
发表于 2023-6-14 10:15 | 显示全部楼层
godspeed66 发表于 2023-6-14 10:04
是ATX3.0的

我也怀疑与温度有关系

是不是国行的TX-1600?国行的ATX3.0版TX-1600使用的是C13接口,你昨天就说了你因为C19接口的原因放不进机箱,那么你的如果是国行,必然不是ATX3.0的新版。
旧版也会标注一个”ATX3.0兼容“,但那终究不是真正的ATX3.0。国行ATX3.0的TX-1600现在就装在我机子上。
 楼主| 发表于 2023-6-14 10:06 | 显示全部楼层
本帖最后由 godspeed66 于 2023-6-14 10:34 编辑
litel 发表于 2023-6-14 09:31
有没有一种可能是主板有问题了...


这咋证明呢?

沈阳这边售后非常麻烦,而且效率极其低下,本地商家拿个CPU测试能点亮,放一段时间不死机,就会回复我没问题
 楼主| 发表于 2023-6-14 10:04 | 显示全部楼层
亦真亦假 发表于 2023-6-14 09:11
TX1600是ATX3.0版吗?这么多电源重启不一定是电源问题了,有可能是CPU温度和电压问题 ...

是ATX3.0的

我也怀疑与温度有关系
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-5-20 03:21 , Processed in 0.016341 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表