关于2021年2月22日币币/币币杠杆系统故障的说明
1. 故障说明:
欧易OKX站 在2021年2月22日11:10:00 HKT~14:10:00 HKT期间,币币、币币杠杆的交易服务出现间歇性的访问异常,对WEB、APP、API端用户交易服务均有影响。
经调查: 在进行系统性能检测的过程中,触发了隐藏BUG,导致交易系统服务所依赖的内部服务停止工作,因此出现系统停机事件。
发生过程应对摘要:
截至2021-02-22 11:10:00 HKT,我们的检测系统发现系统出现异常,发出报警信息。
截至2021-02-22 11:10:00 HKT,API交易会返回 “30030”错误码,提示“Matching engine is being upgraded. Please try in about 1 minute”,币币、币币杠杆的交易服务暂停。
截至2021-02-22 11:11:00 HKT,相关开发人员立即启动紧急事件响应程序,排查系统故障问题点。
截至2021-02-22 11:15:00 HKT,问题点已经找到,原因是:交易系统所依赖的内部服务意外停止工作,导致币币、币币杠杆的交易系统停机。
截至2021-02-22 11:31:00 HKT,交易服务已经大部分恢复,由于有一台服务器重启失败,部分用户会间歇性遇到接口请求失败。
截至2021-02-22 14:10:00 HKT,交易服务器全部恢复。
2. 我们通过做哪些工作保证欧易OKX平台的稳定性?
欧易OKX提供7*24全天候的交易服务,我们致力于为所有用户提供一个稳定、不间断的交易服务平台。但是由于高性能交易系统非常复杂,各种异常情况非常多,与所有交易系统一样,我们无法保证系统100%稳定运行。但是我们一直在从各个方面努力,提升系统稳定性,最大程度的减少停机出现的概率,包括:
1). 加强工程质量保证,优化测试体系;新功能代码在模拟盘稳定运行一段时间后才能上线
2). 架构升级,正在实现多机和多地域高可用,减少硬件、软件造成的宕机时间
3). 实现热更新,无状态逻辑实现热更新,减少升级对用户交易的影响
3. 如何获取系统更新?
1).在发生故障之后,我们会在Status页面发布故障说明。
2).当有新的系统升级事件时,我们会在Status页面发布通知;并通过市场和社群的渠道(API用户社群+普通用户社群)及时通知广大用户;同时API用户可以通过订阅system/status频道来实时获取通知。