基于网络设备切换演练的主动运维服务能力探讨

zoޛ)j首工作制度、工作效率、工作能力和工作质量。

【关键词】网络设备 主动运维服务能力 双机切换演练 数据中心

1 网络设备切换演练的工作描述

1.1 工作方案制定

数据中心阶段性的开展信息系统切换演练,其中包括硬件、软件、基础设施,网络设备切换演练即是其中一项重要内容。由于网络设备属于基础设施范畴,是信息系统的数据传输的经脉,影响面广,因此,这项工作的开展准备工作成为重中之重,网络运维团队精心研究切换演练工作的具体内容、范围、方案以及具体实施步骤,严格把关每一个环节,做到切换演练工作开展时不慌、不乱、沉着、按部就班。

网络设备的切换演练,与网络架构、具体设备戚戚相关,针对不同的网络架构、不同的具体设备,设计出标准的基线方案,针对牵涉业务系统的不同,制定完善相关的演练方案及实施步骤。目前数据中心网络设备种类多、品牌杂,包括路由器、交换机、负载均衡器防火墙等,每一种类网络设备品牌多达数种。网络设备的切换演练可以划分为多次实施,划分区域、划分设备、划分业务系统。根据方案设计思路收集设备信息、理清网络拓扑、梳理业务、应急方案、备品备件以及厂家支持等,诸多准备工作保障切换演练工作顺利实施,同时运维流程、运维管理、运维技术、运维制度得到有力提升。

1.2 工作目标

通过网络设备切换演练工作检验信息系统的软硬件的稳定性、高可靠性、业务不中断性、健壮性以及冗余模式下系统有效性,运行环境潜在隐患无法藏匿,并对切换演练过程中出现的各类异常进行制定相应措施,对发现的问题及时整改,确保设备发生故障时双机冗余切实有效,达到主动演练、主动发现隐患、主动排查问题,为主动运维提升服务能力添砖加瓦。具体内容如下:

(1)确保实时业务访问连续性。切换演练时,达到业务透明无感知,使得业务连续性得到保证。

(2)确保服务器集群正常使用。服务器集群中不管是HA还是RAC,切换演练工作可使得各种切换机制正常工作,确保应用数据、后台数据正常传输,生产业务不受影响。

(3)确保灾备数据备份不中断。数据库、存储上存储的数据能实时同步到灾备中心,保障数据传输稳定可靠。为生产主中心数据提供有力支撑和保障。

2 网络设备切换演练工作内容

2.1 相关组织机构

数据中心阶段性的切换演练,不论是应用软件、主机存储、数据库集群,还是网络设备、电力基础设施相关切换演练,都具有严格的组织体系,任何一个层面切换演练,都需要其他相关专业组织进行配合支持,因此演练工作需要缜密的组织体系结构、完整的运维管理制度、详尽的实施方案以及强大的运维支持服务团队,以保证网络设备切换演练工作顺利进行。

2.2 切换演练相关流程

制定切换演练工作流程是切换演练工作开始之前的一项重要工作,不容忽视,对切换演练整个工作的开展具有总体把控指导作用。结合切换演练工作实施步骤、运维技术保障团队、业务验证以及应急措施。确保演练工作有序进行,确保演练工作结束后生产安全稳定运行。流程如图1所示。

2.3 切换演练具体内容

如前文所述,网络设备属于基础设施范畴,牵涉范围广,双机主备模式、虚拟化模式,原则上切换演练对生产不具有影响,演练的目的就是发现隐患,为了避免影响范围扩大,切换演练可以划分为多次实施,划分区域、划分设备、划分业务系统进行工作实施。网络架构可分为核心区、汇聚区、接入区、广域区,可以按照区域进行分批次进行切换演练,如按照边界路由器、局域网核心区、局域网汇聚接入区三个批次进行切换演练。网络设备种类品牌具有多种,按照网络品牌进行切换演练,有利于厂家支持协调,一些数量少的某种网络设备,可以集中进行切换演练。按照业务系统进行切换演练,有利于应用软件开发厂家运维支持协调,一些业务系统共用网络设备,可以安排在同一批次进行切换演练。上述几种切换演练策略都具有一定的合理性,前提是在可控范围内将切换演练工作有序顺利完成。

网络设备切换演练工作,网络运维管理员的角色影响至关重要,当冗余网络设备进行启停操作时,网络管理员需及时对网络状态、网络配置进行核查,如网络收敛状态、网络链路状态、网络路由状态等,还需要协调厂家支持、协调其他专业组进行配合验证业务是否正常。一旦发现切换过程发现诸如硬件损坏、网络中断、业务中断等问题,切换演练工作的首要任务是恢复生产,及时记录相关现象,便于事后进行详细分析并得出结果,进而找到问题所在以及进行问题整改工作。每一项操作均验证无误后方可进行下一步操作。

每一批次网络设备切换演练结束之后,将演练结果汇报给领导,对于发现的隐患进行整改,形成相关文档进行留存。至此,切换演练整个工作才完成。

3 网络设备切换演练的总结与改进

3.1 网络设备切换演练运维管理成效

通过网络设备切换演练工作加强巩固运维管理体制,结合实际操作演练,解决日常运维管理中存在的技术弱点和管理缺点,使得信息系统各个层面,包括应用软件层面、主机资源层面、基础设备层面、第三方技术支持层面有机统一协作,相互协调,共同提高运维保障能力以及运维技术团队的技能,确保银行信息系统平稳运行。

运维团队技术的提升。任何一个企业的运维工作只有运维制度没有运维技术支撑,犹如船无舵手。运维技术不仅体现在某种网络设备的熟悉程度,而且体现在运维态度。在整个切换演练过程中,每个环节都强调操作谨小慎微、双人复核。技术能力再过硬也抵不过一个粗心大意,对突发性问题的定位、分析以及解决,既不影响生产的稳定运行,也不影响整个切换演练的时长局限。演练过程中突发问题的发生,对运维团队技术以及抗压能力的考验极高,这也是运维团队技术的考验和提升的过程。

运维团队水平的提高。信息系统不仅仅只有软件应用的存在,从基础设施到上层软件应用,任何一个环节都不能出现问题,只有各个层面各个专业有机协调配合,才能将信息系统这个“人体”保持“精力充沛,健康成长”,特别是数据中心近年来发展迅速,成立两地三中心,一体化运维渗透到各专业之间,更是渗透到各专业内部。一旦信息系统出现故障或者问题,各中心各专业组积极配合,共同分析问题,解决问题。通过切换演练,使得各个层级的运维团队协作能力得到提高,在遇到故障后能及时解决问题。

信息系统隐患的发现。切换演练的目的即是发现信息系统的隐患,对发现的隐患制定相应措施,进行相应整改,解决安全隐患,确保双机设备在设备故障发生时,及时切换,提升信息系统运行水平。

3.2 网络设备切换演练中存在的问题及改进

演练方案需要进一步完善。在日常运维管理工作中,出现许多方案、实施步骤、应急方案,切换演练也针对性的形成演练方案、实施步骤、应急方案,如果使其更具有实用性,那么切换演练的方案结构、内容、策略以及验证方式需要进一步完善修订,使其成为切换演练工作中一个标准模板方案,亦可作为知识库,供日常运维查阅。

运维团队的技术素养需要进一步提升。阶段性的切换演练提高了运维团队的技术素养,但是处理分析问题的能力尚需要进一步提高,不仅包括团队专业知识,还包括协作能力、实战经验等。积极组织培训,培养主动运维意识和能力,面对信息系统运维工作中出现故障时,能尽快梳理故障,整理思路,发现故障点,且能在最短时间内解决问题。对发现的问题以及分析解决问题过程,进行积极的总结,得出一套经验知识库,提高主动运维服务能力。保障信息系统安全平稳运行。

作者单位

中国邮政储蓄银行数据中心 安徽省合肥市 230000