关于监控系统

事情的起因是实验室的一台服务器重启之后起不来了,看了一下发现有快硬盘坏了。 顺便看了一下,另一块也差不多了。 按理说这种事情都有监控脚本盯着,本不该发生的。 结果跑去监控的机子上一看,原来那个机子的邮件系统坏了6个月了…… 邮件系统坏掉的原因是Arch某次升级的时候貌似postfix要手动干点事情,否则就起不来。 所以光有监控系统是不够的,还需要 a. 监控监控系统的系统,这样下去貌似没完…… b. 在正常工作的时候也报告一把,这样挂了就能知道。 但是天天收到正常报告也会烦,如果都从收件箱过滤掉,那就没意义了…… 所以好像也没啥好办法…… PS. 邮件队列里堆了94万封邮件…… 上次跑实验跑出来的,幸好没发出去……