我的Nagios安装配置笔记
部门里负责运维的只有我一个人,所以服务器出了任何问题都得由我来处理,为了及时处理各种无法预料的问题,就借Nagios搭建了一个服务器集群监控平台。
以前用的是一个php自己写的,不稳定,误报率非常高,考虑到以后集群规模会比较大,国内网络条件也不是很好,所以做了这个平台来管理,明显减少了误报,什么原因出现什么样的报警也一清二楚,很方面。总结了一下安装配置的过程,放博客上与大家分享。文中不正之处,欢迎留言指出!有任何问题也可以留言提问。
寻找大师, 跟随大师, 模仿大师, 洞察大师, 成为大师!
部门里负责运维的只有我一个人,所以服务器出了任何问题都得由我来处理,为了及时处理各种无法预料的问题,就借Nagios搭建了一个服务器集群监控平台。
以前用的是一个php自己写的,不稳定,误报率非常高,考虑到以后集群规模会比较大,国内网络条件也不是很好,所以做了这个平台来管理,明显减少了误报,什么原因出现什么样的报警也一清二楚,很方面。总结了一下安装配置的过程,放博客上与大家分享。文中不正之处,欢迎留言指出!有任何问题也可以留言提问。
上一回发布了服务器监控脚本,这是该脚本的新版。此次更新内容包括:
1、添加了PATH处理,防止crontab执行脚本失败
2、精简了部分变量
3、添加了NRPE进程的监控
有参考上一版本脚本的朋友如有需要,可参照更新一下。
最近有几台服务器有历史遗留问题,查日志,一个个查,查出问题,归根结底还是在apache性能方面。一开始对Apache的prefork和eorker模块不是很清楚,特地查了一下资料,调整之后果然好多了。特地整理了一下,记录在此,与君分享。
到现在做运维有三个月时间了,从不熟悉到熟悉,从什么都不清楚到清楚手里所有服务器状态,从什么都不会到独立运维十几台服务器,独立搭建监控平台,独立制定了完整的一套打包备份策略。部门的运维只有我一个人做,所以什么问题都由我处理,在累之外的好处就是我能接触的多,能学的多,这对个人能力的提升是有帮助的。日子也过得比较闷,随便做点总结吧,算是对三个月里技术之外自我提升的证明。
由于最近一直在弄服务器,所以一直没有带来Arch Linux的东西,这篇文章给出的脚本依旧是为服务器准备的。写shell多了,C都快忘了怎么写了,这样不好啊……
公司的服务器经常莫名其妙就挂,ssh上去又是好的,看看进程发现服务根本没打开,为什么呢?服务器被重启了!我的前任留下一个check.sh脚本,用来监测apache等进程,脚本在监测到进程过多时就重启服务器,结果有些服务器没有设置好开机启动那些apache之类的,就悲剧了。我就重新写了一个脚本,代替了crontab中原来的check.sh,在进程过多时不是重启服务器而是重启服务,这下服务器正常多了,网站那边负责的朝我喊“XXXX网站挂了,什么问题?”少了,哈哈。
最近做服务器运维,用rsync进行两机备份的话比较好,对数据保全比较好。因此写了这个脚本,加进crontab当中,定期对服务器备份数据库以及www目录下的网站。
脚本如下,使用前请先针对自己的服务器环境设置变量值,错误之处还请指出,谢谢!原创脚本,转载请保留原作者信息!