运维安全:远离故障的十大原则故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项:可用性。可用性高就是不出故障,各个公司对可用性和故障评级的标准都不相同,但是避免故障的方法却是殊途同归。我们怎么避免故障,沃趣科技简单列举了以下几条,与大家共勉!1、变更要有回滚,在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障,变更请谨慎7、搭建报警,及时获得出错信息。搭建性能监控,了解历史,获得趋势,预测未来8、自动切换需谨慎9、仔细一点,偏执一点,检查,检查,再检查10、简单即是美。第1条,变更要有回滚,在同样的环境测试过。也是运维最繁琐,最苦逼的地方,所有的变更都必须有回滚的办法,在同样的环境下测试过。没有做过的东西,总是会在你意想不到的地方给你一次痛击,在阿里巴巴的这么多年运维经验告诉我们,所有没有做过的变更,出错的概率最大。所以我们需要给变更以回滚的可能,在各个步骤可能出错的情况下,考虑回滚到最初状态。优秀的运维人员对不考虑回滚的的