lk_yeah 发表于 2023-2-20 00:33

自组2.5g NAS系统组建第二篇:添加温度监控篇

本帖最后由 lk_yeah 于 2024-7-26 10:28 编辑

这一贴的内容是在PVE的监控页面上添加CPU温度、芯片组温度、CPU频率、硬盘温度。做这项工作其实跟运行的虚拟机无关,不喜欢可以不做。

先放效果


这是PVE节点概要的页面,其中“PVE管理版本”和“存储库状态”之间的内容是我添加的,显示的数字是可以动态更新的。
下面就给出实现方法。

安装温度显示软件lm-sensors
命令行运行
apt install lm-sensors根据提示,按下Y键,等一下就可以了。
然后运行
sensors-detect这条命令的作用是检测该主机上的硬件探测器,并将检测结果添加到/etc/modules中。执行过程会不断询问是否检测某种硬件,基本上一路Y键就可以了。
注意,这条命令中,-之前没有空格,sensors-detect是一个可执行文件,不是某条命令加选项。
检测完成后运行lm-sensors的基本命令就可以输出它监控到的各种硬件数值了。
sensors

以上就是我执行sensors命令后显示出的信息,最上面就是CPU温度,然后是主板芯片组的温度,再往下还有各种温度、电压、风扇转速等等,信息相当多。

配置页面
配置页面一共需要修改两个文件:
/usr/share/perl5/PVE/API2/Nodes.pm——这个文件定义变量名
/usr/share/pve-manager/js/pvemanagerlib.js——这个文件是页面代码
温馨提示,修改前备份一下原文件,预防改出问题。
命令行运行
cp /usr/share/perl5/PVE/API2/Nodes.pm /usr/share/perl5/PVE/API2/Nodes.pm.bak
cp /usr/share/pve-manager/js/pvemanagerlib.js /usr/share/pve-manager/js/pvemanagerlib.js.bak
首先以显示CPU温度为例,讲解下实现原理。
Nodes.pm中搜索shared => $meminfo->{memshared}
添加:
    $res->{cpu_temperatures} = `sensors`;pvemanagerlib.js中搜索textField: 'pveversion'
添加:
    {
      itemId: 'cpu-temperatures',
      colspan: 2,
      printBar: false,
      title: gettext('CPU温度'),
      textField: 'cpu_temperatures',
      renderer:function(value){
            const c0 = value.match(/Core 0.*?\+([\d\.]+)?/);
            const c1 = value.match(/Core 1.*?\+([\d\.]+)?/);
            const c2 = value.match(/Core 2.*?\+([\d\.]+)?/);
            const c3 = value.match(/Core 3.*?\+([\d\.]+)?/);
            const c4 = value.match(/Core 4.*?\+([\d\.]+)?/);
            const c5 = value.match(/Core 5.*?\+([\d\.]+)?/);
            const p0 = value.match(/Package id 0.*?\+([\d\.]+)?/);
            return `Package: ${p0}℃; Core 0: ${c0}℃; Core 1: ${c1}℃; Core 2: ${c2}℃; Core 3: ${c3}℃; Core 4: ${c4}℃; Core 5: ${c5}℃`
      }
    },
解释一下:
第一段中
cpu_temperatures为变量名;sensors为可执行命令,就是可以运行于Linux命令行的命令。
第二段中
itemId随便定义,只要在这个文件中不重复就行;title中的汉字就是页面左侧显示的文字;textField要跟第一段中变量名一致;后面的函数中,Core 0、Core 1之类的,是sensors命令执行后获取到的内容中,CPU核心温度的键名,具体请参看我上面的贴图,return句是显示输出的结果。
总结一下,两段代码就是从第一段的可执行命令中获取到的内容中,取相应的值按第二段返回语句显示出来。
温馨提示,每段代码最后的逗号分号一定不要忘记,缺了就报错了。
显示CPU温度的代码用到了lm-sensors。大家不要原样抄我的,我的CPU是8700,6核的,请根据自己的实际情况修改。
同理,大家可以根据自己的需要,把lm-sensors显示出的其他信息,比如电压、风扇转速等添加进来。

明白了原理后,我下面再给出显示CPU频率、固态盘温度、机械盘温度的代码。当然了,这些代码都是我从网上白嫖来的。
Nodes.pm添加:
    $res->{cpu_frequency} = `lscpu|grep MHz`;
    $res->{nvme_ssd_temperatures} = `smartctl -a /dev/nvme?|grep -E "Model Number|Total NVM Capacity|Temperature:|Percentage|Data Unit|Power On Hours"`;
    $res->{hdd_temperatures} = `smartctl -a /dev/sd?|grep -E "Model|Capacity|Power_On_Hours|Temperature"`;pvemanagerlib.js添加:
    {
      itemId: 'cpu-frequency',
      colspan: 2,
      printBar: false,
      title: gettext('CPU频率'),
      textField: 'cpu_frequency',
      renderer:function(value){
            const f0 = value.match(/CPU MHz.*?([\d]+)/);
            const f1 = value.match(/CPU min MHz.*?([\d]+)/);
            const f2 = value.match(/CPU max MHz.*?([\d]+)/);
            return `实时: ${f0} MHz; 最小: ${f1} MHz; 最大: ${f2} MHz`
      }
    },

    {
      itemId: 'nvme_ssd-temperatures',
      colspan: 2,
      printBar: false,
      title: gettext('NVME硬盘'),
      textField: 'nvme_ssd_temperatures',
      renderer:function(value){
            if (value.length > 0) {
                let nvmedevices = value.matchAll(/^Model.*:\s*([\s\S]*?)(\n^Total.*\[[\s\S]*?\]$|\s{0}$)\n^Temperature:\s*([\d]+)\s*Celsius\n^Percentage.*([\d]+\%)\n^Data Units.*\[([\s\S]*?)\]\n^Data Units.*\[([\s\S]*?)\]\n^Power.*:\s*([\s\S]*?)\n/gm);
                for (const nvmedevice of nvmedevices) {
                  for (var i=5; i<8; i++) {
                  nvmedevice = nvmedevice.replace(/ |,/gm, '');
                  }
                  if (nvmedevice.length > 0) {
                        let nvmecapacity = nvmedevice.match(/.*\[([\s\S]*?)\]/);
                        nvmecapacity = nvmecapacity.replace(/ /, '');
                        value = `${nvmedevice} | 已使用寿命: ${nvmedevice} (累计读取: ${nvmedevice}, 累计写入: ${nvmedevice}) | 容量: ${nvmecapacity} | 已通电: ${nvmedevice}小时 | 温度: ${nvmedevice}°C\n`;
                  }
                  else {
                        value = `${nvmedevice} | 已使用寿命: ${nvmedevice} (累计读取: ${nvmedevice}, 累计写入: ${nvmedevice}) | 已通电: ${nvmedevice}小时 | 温度: ${nvmedevice}°C\n`;
                  }
                }
            return value.replace(/\n/g, '<br>');
            }
            {
            return `提示: 未安装硬盘或已直通硬盘控制器`;
            }
      }
    },
   
    {
      itemId: 'hdd-temperatures',
      colspan: 2,
      printBar: false,
      title: gettext('SATA硬盘'),
      textField: 'hdd_temperatures',
      renderer:function(value){
            if (value.length > 0) {
                let devices = value.matchAll(/(\s*Model.*:\s*[\s\S]*?\n){1,2}^User.*\[([\s\S]*?)\]\n^\s*9[\s\S]*?\-\s*([\d]+)[\s\S]*?(\n(^19[\s\S]*?$){1,2}|\s{0}$)/gm);
                for (const device of devices) {
                  if(device.indexOf("Family") !== -1){
                        devicemodel = device.replace(/.*Model Family:\s*([\s\S]*?)\n^Device Model:\s*([\s\S]*?)\n/m, '$1 - $2');
                        }
                        else {
                        devicemodel = device.replace(/.*Model:\s*([\s\S]*?)\n/m, '$1');
                        }
                  device = device.replace(/ |,/gm, '');
                  if(value.indexOf("Min/Max") !== -1){
                        let devicetemps = device.matchAll(/19[\s\S]*?\-\s*(\d+)(\s\(Min\/Max\s(\d+)\/(\d+)\)$|\s{0}$)/gm);
                        for (const devicetemp of devicetemps) {
                            value = `${devicemodel} | 容量: ${device} | 已通电: ${device}小时 | 温度: ${devicetemp}°C\n`;
                        }
                  }
                  else if (value.indexOf("Temperature") !== -1){
                        let devicetemps = device.matchAll(/19[\s\S]*?\-\s*(\d+)/gm);
                        for (const devicetemp of devicetemps) {
                            value = `${devicemodel} | 容量: ${device} | 已通电: ${device}小时 | 温度: ${devicetemp}°C\n`;
                        }
                  }
                  else {
                        value = `${devicemodel} | 容量: ${device} | 已通电: ${device}小时 | 提示: 未检测到温度传感器\n`;
                  }
                }
                return value.replace(/\n/g, '<br>');
            }
            else {
                return `提示: 未安装硬盘或已直通硬盘控制器`;
            }
      }
    },经过测试,主机中安装的每个硬盘,都需要一段单独的代码,注意修改响应的设备名称,就是类似“/dev/sda”、“/dev/nvme0n1”这样的名称,可以通过lsblk命令查看。

差点忘了,还要在命令行执行一下提权命令,不然也会出问题。
chmod +s /usr/sbin/smartctl
还需要调整下页面高度,不然会显示不完全。
pvemanagerlib.js中搜索widget.pveNodeStatus
height: 300,这个高度值请大家自己根据自己的情况进行调整。
搜索gettext('Status') + ': ' + zpool
height: 600,这个高度值网上很多教程都提到了需要改,但我测试的结果改了没用,所以我没改。大家可以自己尝试。


修改了Nodes.pm文件,需要使用命令行运行下面命令重启API代理守护进程使修改生效,仅修改js文件,无需运行。
systemctl restart pveproxy温馨提示,浏览器测试修改效果别忘了Ctrl+F5。




lk_yeah 发表于 2023-2-20 00:35

我再提供另一种显示温度方案,这个方案是将可执行命令获取的信息以json格式显示出来。我测试过这个方案是OK的。注意,代码中某些地方需要根据自己的情况修改。机械盘同样需要每块盘添加一段代码。
   $res->{sensors_json} = `sensors -j`;
   $res->{smartctl_nvme_json} = `smartctl -a -j /dev/nvme?`;
   $res->{smartctl_sda_json} = `smartctl -i -n standby /dev/sda|grep "STANDBY" || smartctl -i -n standby /dev/sda|grep "No such device" || smartctl -a -j /dev/sda`;
   $res->{smartctl_sdb_json} = `smartctl -i -n standby /dev/sdb|grep "STANDBY" || smartctl -i -n standby /dev/sdb|grep "No such device" || smartctl -a -j /dev/sdb`;
    {
    itemId: 'thermal',
    colspan: 2,
    printBar: false,
    title: gettext('温度'),
    textField: 'sensors_json',
    renderer: function(value) {
      value = JSON.parse(value);
      const cpu0 = value['coretemp-isa-0000']['Package id 0']['temp1_input'].toFixed(1);
      const PECI0 = value['nct6798-isa-0290']['PECI Agent 0']['temp7_input'].toFixed(1);
      const pch = value['pch_cometlake-virtual-0']['temp1']['temp1_input'].toFixed(1);
      return `CPU: ${cpu0}°C || 南桥: ${pch} ℃ | 网卡: ${PECI0} ℃`;
    }
},
{
    itemId: 'thermal',
    colspan: 2,
    printBar: false,
    title: gettext('温度'),
    textField: 'sensors_json',
    renderer: function(value) {
      value = value.replace(/temp({1,})_input/g,'input');
      // Intel
      if (value.indexOf("coretemp-isa") != -1 ) {
            value = value.replace(/coretemp-isa-(.{4})/g,'coretemp-isa');
            value = value.replace(/nct6798-isa-(.{4})/g,'nct6798-isa');
            value = JSON.parse(value);
            try {var cpu_Intel = 'CPU: ' + value['coretemp-isa']['Package id 0']['input'].toFixed(1) + '°C';} catch(e) {var cpu_Intel = '';}
            try {var acpi = ' || 主板:' + value['acpitz-acpi-0']['temp1']['input'].toFixed(1) + '°C';} catch(e) {var acpi = '';}
            try {var pch = ' || 南桥:' + value['pch_cometlake-virtual-0']['temp1']['input'].toFixed(1) + '°C';} catch(e) {var pch = '';}
            try {var pci0 = ' || 网卡:' + value['nct6798-isa']['PECI Agent 0']['input'].toFixed(1) + '°C';} catch(e) {var pci0 = '';}
            if (cpu_Intel.length > 0 && pch.length + acpi.length + pci0.length > 0) {
                return `${cpu_Intel}${acpi}${pch}${pci0}`;
            } else if (cpu_Intel.length > 0) {
                try {var cpu0 = ' || 核心 0 : ' + value['coretemp-isa']['Core 0']['input'].toFixed(1) + '°C';} catch(e) {var cpu0 = '';}
                try {var cpu1 = ' | 核心 1 : ' + value['coretemp-isa']['Core 1']['input'].toFixed(1) + '°C';} catch(e) {var cpu1 = '';}
                try {var cpu2 = ' | 核心 2 : ' + value['coretemp-isa']['Core 2']['input'].toFixed(1) + '°C';} catch(e) {var cpu2 = '';}
                try {var cpu3 = ' | 核心 3 : ' + value['coretemp-isa']['Core 3']['input'].toFixed(1) + '°C';} catch(e) {var cpu3 = '';}
                try {var cpu4 = ' | 核心 4 : ' + value['coretemp-isa']['Core 4']['input'].toFixed(1) + '°C';} catch(e) {var cpu4 = '';}
                try {var cpu5 = ' | 核心 5 : ' + value['coretemp-isa']['Core 5']['input'].toFixed(1) + '°C';} catch(e) {var cpu5 = '';}
                try {var cpu6 = ' | 核心 6 : ' + value['coretemp-isa']['Core 6']['input'].toFixed(1) + '°C';} catch(e) {var cpu6 = '';}
                try {var cpu7 = ' | 核心 7 : ' + value['coretemp-isa']['Core 7']['input'].toFixed(1) + '°C';} catch(e) {var cpu7 = '';}
                return `${cpu_Intel}${cpu0}${cpu1}${cpu2}${cpu3}${cpu4}${cpu5}${cpu6}${cpu7}`;
            }
      // AMD
      } else if (value.indexOf("amdgpu-pci") != -1 ) {
            value = value.replace(/k10temp-pci-(.{4})/g,'k10temp-pci');
            value = value.replace(/zenpower-pci-(.{4})/g,'zenpower-pci');
            value = value.replace(/amdgpu-pci-(.{4})/g,'amdgpu-pci');
            value = JSON.parse(value);
            try {var cpu_amd_k10 = 'CPU: ' + value['k10temp-pci']['Tctl']['input'].toFixed(1) + '°C';} catch(e) {var cpu_amd_k10 = '';}
            try {var cpu_amd_zen = 'CPU: ' + value['zenpower-pci']['Tctl']['input'].toFixed(1) + '°C';} catch(e) {var cpu_amd_zen = '';}
            try {var amdgpu = ' | GPU:' + value['amdgpu-pci']['edge']['input'].toFixed(1) + '°C';} catch(e) {var amdgpu = '';}
            return `${cpu_amd_k10}${cpu_amd_zen}${amdgpu}`;
      } else {
            return `提示: CPU 及 主板 温度读取异常`;
      }
    }
},
{      
    itemId: 'nvme_ssd',
    colspan: 2,
    printBar: false,
    title: gettext('NVME'),
    textField: 'smartctl_nvme_json',
    renderer: function(value) {
      value = JSON.parse(value);
      if (value['model_name']) {
            try {var model_name = value['model_name'];} catch(e) {var model_name = '';}
            try {var percentage_used = ' | 使用寿命: ' + value['nvme_smart_health_information_log']['percentage_used'].toFixed(0) + '% ';} catch(e) {var percentage_used = '';}
            try {var data_units_read = value['nvme_smart_health_information_log']['data_units_read']*512/1024/1024/1024;var data_units_read = '(读: ' + data_units_read.toFixed(2) + 'TB, ';} catch(e) {var data_units_read = '';}
            try {var data_units_written = value['nvme_smart_health_information_log']['data_units_written']*512/1024/1024/1024;var data_units_written = '写: ' + data_units_written.toFixed(2) + 'TB)';} catch(e) {var data_units_written = '';}
            try {var power_on_time = ' | 通电: ' + value['power_on_time']['hours'].toFixed(0) + '小时';} catch(e) {var power_on_time = '';}
            try {var temperature = ' | 温度: ' + value['temperature']['current'].toFixed(1) + '°C';} catch(e) {var temperature = '';}
            return `${model_name}${percentage_used}${data_units_read}${data_units_written}${power_on_time}${temperature}`;
      } else {
            return `提示: 未安装硬盘或已直通硬盘控制器`;
      }
    }
},
{
    itemId: 'SATA_sda',
    colspan: 2,
    printBar: false,
    title: gettext('SATA_sda'),
    textField: 'smartctl_sda_json',
    renderer: function(value) {
      if (value.indexOf("Device is in STANDBY mode") != -1 ) {
            return `提示: 磁盘休眠中`;
      } else if (value.indexOf("No such device") != -1 ) {
            return `提示: 未安装硬盘或已直通硬盘控制器`;
      } else {
      value = JSON.parse(value);
            try {var model_name = value['model_name'];} catch(e) {var model_name = '';}
            try {var user_capacity = value['user_capacity']['bytes']/1024/1024/1024;var user_capacity = ' | 容量: ' + user_capacity.toFixed(2) + ' GB';} catch(e) {var user_capacity = '';}
            try {var power_on_time = ' | 已通电: ' + value['power_on_time']['hours'].toFixed(0) + ' 小时';} catch(e) {var power_on_time = '';}
            try {var error_count = value['ata_smart_error_log']['summary']['count'].toFixed(0);if (error_count != 0){error_count = ' | 磁盘错误: ' + error_count;} else {var error_count = '';} } catch(e) {var error_count = '';}
            try {var self_count = value['ata_smart_self_test_log']['standard']['count'].toFixed(0);if (self_count != 0){self_count = ' | 自检错误: ' + self_count;} else {var self_count = '';} } catch(e) {var self_count = '';}
            try {var temperature = ' | 温度: ' + value['temperature']['current'].toFixed(1) + '°C';} catch(e) {var temperature = '';}
            return `${model_name}${user_capacity}${power_on_time}${error_count}${self_count}${temperature}`;
      }
    }
},
{
    itemId: 'SATA_sdb',
    colspan: 2,
    printBar: false,
    title: gettext('SATA_sdb'),
    textField: 'smartctl_sdb_json',
    renderer: function(value) {
      if (value.indexOf("Device is in STANDBY mode") != -1 ) {
            return `提示: 磁盘休眠中`;
      } else if (value.indexOf("No such device") != -1 ) {
            return `提示: 未安装硬盘或已直通硬盘控制器`;
      } else {
      value = JSON.parse(value);
            try {var model_name = value['model_name'];} catch(e) {var model_name = '';}
            try {var user_capacity = value['user_capacity']['bytes']/1024/1024/1024;var user_capacity = ' | 容量: ' + user_capacity.toFixed(2) + ' GB';} catch(e) {var user_capacity = '';}
            try {var power_on_time = ' | 已通电: ' + value['power_on_time']['hours'].toFixed(0) + ' 小时';} catch(e) {var power_on_time = '';}
            try {var error_count = value['ata_smart_error_log']['summary']['count'].toFixed(0);if (error_count != 0){error_count = ' | 磁盘错误: ' + error_count;} else {var error_count = '';} } catch(e) {var error_count = '';}
            try {var self_count = value['ata_smart_self_test_log']['standard']['count'].toFixed(0);if (self_count != 0){self_count = ' | 自检错误: ' + self_count;} else {var self_count = '';} } catch(e) {var self_count = '';}
            try {var temperature = ' | 温度: ' + value['temperature']['current'].toFixed(1) + '°C';} catch(e) {var temperature = '';}
            return `${model_name}${user_capacity}${power_on_time}${error_count}${self_count}${temperature}`;
      }
    }
},

lk_yeah 发表于 2023-2-20 00:37

本帖最后由 lk_yeah 于 2023-3-23 14:07 编辑

占楼,放系列帖子的目录。


第零篇 硬件篇 垃圾佬心仪的NAS机箱:御夫座机箱
第一篇 PVE初始化篇
第二篇 添加温度监控篇
第三篇 配置直通篇
第四篇 配置虚拟机篇
第五篇 安装黑群篇
第六篇 联动UPS篇

summerq 发表于 2023-2-20 00:43

我觉得你可以多写一些网上比较少的东西。譬如显卡虚化,sriov,ceph,core affinity之类的。pve的网页管理,其实你用一段时间之后,就很少登陆了。用ssh敲命令更快。

lk_yeah 发表于 2023-2-20 01:17

summerq 发表于 2023-2-20 00:43
我觉得你可以多写一些网上比较少的东西。譬如显卡虚化,sriov,ceph,core affinity之类的。pve的网页管理 ...

我这些帖子是我折腾NAS的一个总结。这些内容看似网上很多,但实际上大多数帖子同质化相当严重,讲述的内容存在不讲原理,方案不合理、过时等问题,经过我的实践,会有很多问题。比如硬盘温度的显示,网上的帖子都是推荐使用一个hdtemp的软件,获取的信息非常少,远不如我帖子里的方案,而我这些方案虽然也是搜到的,但得到这些相当不容易。另外对于小白用户,命令行绝对不如界面方便。硬件直通等内容我后续会发。总之我不会单纯的发些网上很容易就找到的东西。

hoper2003 发表于 2023-2-20 10:23

lk_yeah 发表于 2023-2-20 01:17
我这些帖子是我折腾NAS的一个总结。这些内容看似网上很多,但实际上大多数帖子同质化相当严重,讲述的内 ...


确实这样碎片化太严重了


建议按需求 按习惯的步骤 自己写一个笔记,方便后期维护

etfgert 发表于 2023-2-20 11:22

牛逼就是牛逼

fboxster 发表于 2023-2-20 11:46

我记得好像有推荐使用pve tool这款工具的

wangluowl 发表于 2023-2-20 12:02


我是黑群晖 为什么只显示了CPU的参数啊,请教大佬

lk_yeah 发表于 2023-2-21 00:27

本帖最后由 lk_yeah 于 2023-2-21 00:37 编辑

wangluowl 发表于 2023-2-20 12:02
我是黑群晖 为什么只显示了CPU的参数啊,请教大佬

运行一遍sensors-detect,如果还是检测不出其他硬件,那么应该是没有加载相应驱动。群晖本身并不是个完整的Linux,缺少驱动也很正常吧。

jimmyjin 发表于 2023-2-21 13:44

我也是用的pvetools 这款软件(脚本) 装的传感器和vim, 不过只能显示CPU core的温度

nsis 发表于 2023-2-24 15:59

这个温度啥的显示的确是最麻烦的,需要按个人不同设置。不明白原理错一步都不行,这玩意真觉得pve应该内置[无奈]

mounan 发表于 2023-2-26 10:26

跟着大佬学了不少东西。自己也在组PVE的系统,非常有帮助。

oliverss 发表于 2023-7-27 09:48

牛逼就是牛逼

咖啡泡泡 发表于 2023-7-27 10:58

看不懂[狂笑]
页: [1]
查看完整版本: 自组2.5g NAS系统组建第二篇:添加温度监控篇