事情的起因是实验室的一台服务器重启之后起不来了,看了一下发现有快硬盘坏了。
顺便看了一下,另一块也差不多了。
按理说这种事情都有监控脚本盯着,本不该发生的。
结果跑去监控的机子上一看,原来那个机子的邮件系统坏了6个月了……
邮件系统坏掉的原因是Arch某次升级的时候貌似postfix要手动干点事情,否则就起不来。
所以光有监控系统是不够的,还需要
a. 监控监控系统的系统,这样下去貌似没完……
b. 在正常工作的时候也报告一把,这样挂了就能知道。
但是天天收到正常报告也会烦,如果都从收件箱过滤掉,那就没意义了……
所以好像也没啥好办法……
PS. 邮件队列里堆了94万封邮件…… 上次跑实验跑出来的,幸好没发出去……
再写一个检查监控报告的脚本,如果那天没有报告就报告……
那样就变成a.的情况了嘛 如果那个脚本挂了还是要完蛋