分布式系统Failover测试框架的实现
摘要
Failover是指系统处理故障并恢复的过程,目前大多数分布式系统都实现了自动Failover的机制,即使发生局部失败也能继续提供服务。Failover测试则是通过主动注入错误,模拟出各种软硬件故障,以此检验在失败和恢复时系统的健壮性。
我们内部的分布式系统已经部署在上千台普通服务器上,软硬件故障时有发生,进行Failover测试成了系统开发的必备环节。传统的测试方法需要人工参与,自动化程度低,我们亟需一个高效的Failover测试框架确保系统满足高可用的需求。于是我们实现了一个针对分布式系统的Failover测试框架,这个框架有错误注入功能,同时能够对系统进行数据验证,还有Web页面展示等功能。
本论文将会介绍这个分布式系统Failover测试框架的需求分析,讲述我们实现此测试框架的开发动机和调研成果;然后详细介绍这个测试系统的实现原理,了
2022-05-19 17:37:37
1.63MB
1