最近的互联网线上事故发生比较频繁,20180919顺丰发生了一起线上删库事件,在这里就不介绍了。 在这里讲述一下最近发生在我公司的事故,以及如何避免,并且如何处理优化。 间接原因还有很多,技术跟不上业务的发展,由每日百万量到千万级是一个大的跨进,公司对于系统优化的处理优先级不高,技术开发人手的短缺 第一次宕机 20180913某个点,公司某服务化项目的RDS实例连接飙升,CPU升到100%,拒绝了其他应用的所有请求服务 整个过程如下: 1. 监控报警,显示RDS的CPU使用率达到80%以上,DBA介入,准备KILL…

2022年10月13日 275点热度 0人点赞 阅读全文