分类目录归档:故障解决

磁盘空间满引起的故障


记录本次由于磁盘空间满导致的故障:
本台主机共有如下五块磁盘:

/dev/vda1        40G  3.4G   34G  10% /
/dev/vdb         99G  3.0G   91G   4% /thirdparty
/dev/vdc        493G  232G  236G  50% /data
/dev/vdd        2.0T  2.0T  0  100% /dsp
/dev/vde        2.0T  999G  870G  54% /dsp_video

其中应用部署在/thirdparty,比如ActiveMQ和Redis集群,数据存在

Read more

Dubbo的cache引起的一次OutOfMemory问题解决


所有的Web应用全部报错“java.lang.OutOfMemoryError: Java heap space”,并且由于在启动脚本中添加了“-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/webapp/dumpfile/****.hprof” ,于是直接生产了大量的dump文件。
根据错误“Java heap space”,判断是堆的内存溢出了。但是奇怪的是所有的应用仍然运行正常,没有任何问题。难道是部分线程死了部分仍然在处理业务?
通过jvisualvm对相应的hprof文件进行分析,锁定问题在“DubboSaveRegistryCac

Read more

数据库的奇异事件


现象:
mysql数据库老用户o_nj_2016回收,应用采用新用户octopus_nc访问.把o_nj_2016的权限全部去掉后,报错如下:
Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: execute command denied to user 'o_nj_2016'@'%' for routine 'octopus.getChildList'
检查了应用中,并没有再使用"o_nj_2016"去连数据库。
1.添加了octopus的权限后,功能正常
2.修改o_nj_2016的密码为随机密码,功能正常

Read more

clamav病毒库无法更新之谜


freshclam报错:

Downloading daily-25636.cdiff [100%]
ERROR: Database load killed by signal 9
ERROR: Failed to load new database

经历yum重新安装、重新编译安装、系统重新初始化(阿里云)之后,依然报错。

手工进行下载病毒库:
在官网下载最新的三个病毒库文件
http://database.clamav.net/main.cvd
http://database.clamav.net/daily.cvd
http://database.clamav.net/byteco

Read more

记一次系统因带宽被占满导致无法访问的解决过程


接同事反馈禅道系统无法访问。通过ssh登录服务器后台,发现反应很慢,基本无法登录。访问云后台管理系统,发现带宽被占满,出网带宽达到100%。

解决步骤:

  1. 临时升级带宽到200Mbps;
    2、ssh登录到服务器上;
    3、"iftop -i eth1 -P" 发现占用带宽的最高的是“memcache”,而且访问地址为外网地址。怀疑被非法访问,大量访问导致;
    4、kill -9 临时“memcache”进程;
    5、修改iptables规则,禁止外网访问;
    6、重启memcache,搞定!

Read more

端口80不能使用的原因


目的:部署一个应用,使用nginx的80端口做代理进行转发,方便域名直接访问。
问题:发现域名如何都不能访问
排查:
1、firewall 的iptables规则,开放端口排查,不见效;
2、nginx代理转发策略排查,不见效;
3、域名解析排查,不见效;
解决:
不使用nginx的80端口转发,直接使用原应用的端口。原因是专线的IP禁止使用80和443端口,如果需要使用需要备案后申请。

Read more

记一次生产挖矿病毒处理过程


判断:webaap用户密码泄露、Jenkins/redis弱口令原因导致
1、监控到生产主机一直load告警
2、进服务器 top查看进程,发现挖矿病毒进程,此进程持续消耗cpu,kill掉还会自动启动。
```bash PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 10059 webapp 20 0 43612 9504 0 S 241.0 0.1 5:49.77 /tmp/kintegrityds

3查看crontab -l
```bash
*/1

Read more