关于8月14日上午以及8月19日下午通途ERP系统故障报告

汪义松 发表于 2015年08月27日 23:55 最后修改于 2015年08月28日 09:21

事件回顾

  1. 8月14日清晨8点左右,通途其中一个数据库分区中的用户无法登陆系统。后经查为通途数据库服务器集群中其中一个数据库分区的磁盘出现故障,后历经2小时紧急切换到备份数据库服务器,并重新配置通途ERP应用系统,于上午11:00左右恢复通途ERP系统服务。

  2. 8月19日下午15:30左右,通途ERP系统全体当机,并影响到部分独立部署用户,后经查为通途线上SaaS服务的全体服务器全部关闭,后历经3.5小时左右全面恢复通途ERP服务器集群的服务响应。

事件原因

    在以上两次事件出现之时,通途全体团队成员为快速恢复系统服务,紧急投身于系统服务恢复工作当中,在事件出现当时并未深究事件的原因,也未很好的将事件情况反馈给各位尊敬的通途ERP用户。在此通途团队全体成员深表歉意。

事件过后,通途运维同事深入调查事件原因,于8月21召开长时间运维总结会议,对以上两次事件进行深刻总结,并提出下一步通途系统架构优化方案。

    在此特向各位尊敬的通途ERP用户汇报两次事件调查结果。

  1. 8月14日事件,经查为通途ERP线上SaaS服务的服务器托管机房,因电力中断关闭了机房的空调,导致一台数据库服务器的磁盘过热,直至磁盘损坏,并最终导致通途ERP部分用户无法登陆系统。

  2. 8月19日事件,经查同为通途ERP线上SaaS服务的服务器托管机房,因电力原因,有机房管理人员人工强行关闭所有通途ERP服务器,以降低机房电力负载,后经2个多小时的紧急电力抢修才全部重启通途ERP服务器群。

事件后续解决方案

以上两次事件原因经查均为机房稳定性保障出现问题,这也为通途团队敲响了警钟。为避免以上事件再次重现。我方提出以下方案:

  1. 在近期购置新的服务器资源,并寻找一个稳定的托管机房,部署起另一套通途服务器集群备份环境。考虑到梅林机房的不稳定因素较多,后续逐渐将主机房迁移到这套较为稳定的服务器集群上,并且还要再新建一套备用机房替换掉梅林机房。

  2. 后续将不断增加云服务器的使用,由于云服务器提供商(例如阿里云)已经提供了很好的服务保障,包括24小时服务高可用保障、数据备份保障等等,后期我们将会将部分服务器切换到云服务器上。

  3. 完善服务器实时监控工作,在近段时间内将所有服务器监控点整理清楚,并部署到各服务器上,以做好后续的服务器监控工作,防患于未然,争取在类似事件影响范围扩大之前发现问题,并及时给出处理。

  4. 不断优化通途应用本身,提高服务器资源利用效率,减少故障触发点。


最后,贴上两次事件梅林机房官方给予的故障报告,也恳请各位通途用户给出更多的支持和理解。希望各位能与通途团队一起保持现有的共同合作共同发展态势,并长期的保持双赢。

此致

敬礼

通途团队全体成员

2015-08-27

回复
您需要登录后才可以回复