摘 要:本文主要分析一起瑞士施密德内话系统典型故障的排查处理,从设备原理及结构出发,对一次系统典型故障的故障现象、排故思路和流程进行简单分析,结合现场设备配置及运行案例,分享运行中的维护经验。
关键词:施密德ICS200/60;内话;语音交换系统;故障分析处理
目前,青海空管分局拥有一套13席位瑞士施密德(SCHMID)公司ICS200/60语音交换系统作为备用内话系统,一套25席位奥地利飞坤(FREQUENTIS)公司VCS3020X语音交换系统作为主用内话系统。青海分局2008年引进第一套ICS200/60内话系统作为主用内话系统使用,2014年引进第二套ICS200/60内话系统作为分局备用内话使用,2019年对两套内话系统整合,新ICS内话系统包括3个环路和13个席位,把原来两个系统合并为一个单一的备用系统。部分机框、系统及接口板卡、供电板卡使用超过13年,本文主要分析一起施密德内话系统典型故障的排查处理,从分局设备原理及系统结构、事发故障现象、排故思路和应急流程进行简单分析,结合此次故障案例,分享交流内话设备运行中的维护经验。
一、系统概述
施密德ICS200/60语音交换系统采用基于欧洲E1 2.048Mbp/sPCM标准数据线传输,由它的30个时隙的话音信道,经过同步时分复用提供持续稳定的传输方式,对管制话音和电话/无线电控制信令进行准确传送。施密德ICS200/60系统基于2M数字线路连接和物理分布式连接,有快速甚高频/超高频语音和信令通信、快速按键通话和拨号电话、操作席位及无线/有线接口板卡录音功能、系统互联功能、以及简单明了的人机交互操作界面和个性化的操作席位设置等功能,利用全数字化的系统设计和分布式的终端连接方式对通讯服务器组和操作席位间提供便捷迅速的通讯。
青海空管分局施密德ICS200/60内话系统主要由接口卡组件、操作席位、通信服务器组和监控终端组成,分别如下:
(1)服务器组件:分局服务器组件采用双布局冗余设置,A服务器组按顺序排列如:左PSU300W电源模块、1块controller控制板、2块server系统板、右PSU300W电源模块,B服务器组板卡布局相同,故主备服务器组相互冗余,服务器组通过双E1环路连接操作席位环路和接口卡组件,作为系统的核心部分处理和分配内话系统各部分的操作和需求。通讯服务器模块由基于摩托罗拉微型处理器的复合数字电路板组成,运行实时多任务操作系统。该处理系统包含数字网络交换硬件,数据通讯控制器和多个数字信号处理器。
(2)接口卡组件:包括模拟接口和数字接口,用来实现内话系统与外部信号之间的连接。模拟接口包括无线接口(VHF,UHF)和各种电话接口(LB,CB, PSTN等)。每个接口通过冗余方式主备共通的将两组2.048Mbp/sPCM E1链路与服务器相连。接口模块用于系统相互连接,分局接口板卡主要使用无线接口板(2*radio,4E&M)及电话接口板(quad 2 wire),数字接口板未使用。有6个接口卡组机框(C1、C2、C3、C4、C、C6)按E1冗余分为三组(C1C2组,C3C4组,C5C6组),每组有上下两块(例如C1C2组)E1/T1板互为冗余的连接方式有效地保障了电话及甚高频等外部接口模块和操作席位与系统服务器之间的可靠通信。
(3)系统管理终端:根据ICS?200/60 系统的配置,分局配备一个管理工作站(维护终端)对系统进行监管和设置。分局管理工作站以一台配有WINDOWS 10操作系统的监控电脑作为管理终端,利用施密德厂家JAVA语言汇编开发的系统监控软件,存储和转发系统记各子系统的配置数据及记录操作和告警日志。它通过专用的以太网和中央机柜的服务器(SERVER板)相连。系统管理终端的任务分为:监管、角色、统计、设置。
(4)操作席位:操作席位具有综合的语音交换、控制信令传输及部分状态信息显示功能,通过冗余的2Mbps E1环路与服务器连接,环路只中断一端对其他操作席位无影响。终端操作席位的人机交互界面由触控彩色液晶电阻屏提供,由OCU接线引出耳机插孔盒(需使用耳麦)及外放扬声器提供语音输出,由脚踏PPT、手持话筒或耳麦提供话音控制信号。2M环路接口与通信服务器系统采用同样的2Mbps E1环路。
二、系统结构
青海分局ICS内话系统主机柜中除通信服务器组外有6个接口卡组机框(C1、C2、C3、C4、C、C6)、4个E1环路、13个操作席位及2个系统管理终端。通信服务器组中包含A、B服务器组,A服务器组按顺序排列如:左PSU300W电源模块、1块controller控制板、2块server系统板、右PSU300W电源模块,B服务器组板卡布局相同(如图1)。席位可以通过双E1环形连接与服务器组server板连接,通过双E1总线与A、B服务器组server板之间通信。通信服务器组A、B之间通过直连线相互连通通信,且左、右两块PSU300W电源模块互为备份,为系统提供电源。
6个接口卡组机框(C1、C2、C3、C4、C、C6)按供电和E1冗余可分为三组(C1C2组,C3C4组,C5C6组),每组有上下两块(例如C1C2组)E1/T1板互为冗余的连接至系统服务器(如图2),此方式有效地保证了接口板卡机框中外部接口板卡和操作席位与系统服务器之间的可靠通信,且每组有上下两块(例如C1C2组)PSU 150W电源模块互为备份供电,双电源冗余连接方式有效地保障了外部接口模块的电源供应。在设备正常的情况下,故障任何一块PSU300W电源模块或PSU 150W电源模块对系统的运行无影响。
三、故障处理过程及分析
(一)故障现象
青海空管分局机务员日常值班时发现施密德ICS200/60内话系统监控管理终端中显示故障告警,告警现象为服务器机框及C1C2组接口子机框显示黄色告警,监控软件告警信息栏显示通信服务器组B组服务器controller B板卡故障,同时接口模块子机框显示第一排子机框与第二排子机框(C1C2组)E1/T1板卡异常来回切换告警,其余子机框正常。此故障前一日曾出现通信服务器组B组服务器controller B板卡故障情况,更换新controller板卡及刷新软件后恢复正常。特别注意的是,更换新controller板卡需要刷新软件后才能正常使用。
(二)设备排故过程
1.重新插更换controller B板卡
由于故障前一日出现通信服务器组B组服务器controller B板卡故障,更换新controller板卡后恢复正常,根据告警信息栏显示B组服务器controller B板卡故障现象,值班人员重新插拔controller B板卡,故障未消失,无效后更换新controller B板卡并刷软件,但系统重新加载完成故障依旧。重启监控后故障仍然存在,且监控告警现象与设备现场中B组服务器controller B板卡上故障灯提示相同。
2.主备系统切换测试
为进一步排除是否为controller B板方面的问题,值班员通过监控软件对A/B服务器组进行多次切换,切换至A组主用时,A、B组服务器均存在告警现象,C1C2子机框组E1/T1板卡异常来回切换告警也未消失。此时不难发现,A/B服务器组无论谁切换为主用时都存在相同的故障,暂排除controller B板方面的问题,怀疑此故障是由其他故障引起,随机着力查找系统其它硬件方面的故障点。
3.更换C1C2子机框组E1/T1板卡测试
考虑到内话系统监控终端提示接口模块机框C1C2子机框组内上下两块E1/T1板存在来回切换现象,暂将故障定位在C1C2子机框E1/T1板是否故障问题上。取用两块正常E1/T1板备件分别进行替换测试,待板件供电正常后,服务器机框及C1C2子机框依旧存在黄灯告警,并且C1C2子机框组E1/T1板卡异常来回切换现象任然存在。此时可以排除C1C2子机框组内上下两块E1/T1板存在故障的情况,应着力查找系统其它方面的故障点。
4.分别断开A/B组电源板测试
在与厂家工程师联系后,工程师建议检查所有电源板,电源供电异常也会导致显示其他板卡故障的情况,在排除C1C2子机框E1/T1板卡及controller B板卡故障的基础上,将故障范围引导向电源故障。系统通信服务器A组B组之间通过直连线相互连通实现双机同步热备,A组包含2块互为备份的PSU300W电源模块、1块controller控制板、2块server系统板组成,B组相同。在逐个断开A组两个互为备份的PSU300W电源模块的情况下,E1/T1板卡异常的故障仍然存在,待A组恢复后,逐个断开B组两个电源模块,单服务运行下除增加了相应电源告警故障外,原有的故障依旧。此时可以排除通信服务器组A、B服务器双边存PSU300W电源模块存在故障的情况,应着力查找系统其它方面的故障点。
5.分别断开C1C2子机框组PSU 150W电源模块测试
因为青海分局施密德ICS200/60内话系统C1C2子机框组双E1总线与A、B服务器组server板之间通信,每组子机框(C1C2组,C3C4组,C5C6组)中上下两块E1/T1板与A、B服务器组server板之间通信,双E1冗余连接方式有效地保障了外部接口模块和操作席位与系统服务器之间的可靠通信,且C1C2子机框组两块PSU 150W电源板互为备份,断开同组内任意一个电源另一个会提供电源保障,断开C1子机框PSU 150W电源板后,监控系统仅显示电源故障告警,无其它告警,插回电源板后,断开C2子机框PSU 150W电源板,除增加了电源板故障告警外,其它故障提示为最初全部故障现象,继而发现C1子机框PSU 150W电源板存在故障。
6.更换C1子机框PSU 150W电源板
更换C1子机框PSU 150W电源板后,系统监控所有故障消失,值班人员通过监控软件对A/B服务器组进行多次切换测试,测试均正常,值班人员前往塔台管制室、进近管制室、飞服室检查施密德内话系统终端并进行操作测试,测试使用正常。换下PSU 150W电源板后仔细观察故障电源板,发现其中有一块电容爆裂,电容内部物质存在渗出现象。由此判断,在C1子机框PSU 150W电源板故障后,导致供电异常,继而产生其供电的C1C2子机框组E1/T1板卡工作异常来回切换现象,且此异常导致产生通信服务器组B组服务器controller B板卡告警的情况。此次故障监控终端显示告警内容与实际存在故障不一致,具有一定特殊性。
四、经验分享
(一)积极与管制沟通
内话系统存在重大故障时,首先需要向管制指挥部门告知故障情况,并沟通协调使用应急措施,提前做好应急准备工作,做好信息通报后进行排故操作。
(二)排故思路
一般情况下,故障现象与监控告警内容一致,直接排查即可,但系统可能存在提示故障告警信息与实际故障不一致的情况,但与实际故障存在关联性。在无法排除表面显示故障时,需从系统整体性出发,从关联的节点排查,利用发散思维和对整体架构的了解来排除问题。
(三)设备备件储备、测试
在日常的维护工作中要注意进行零备件的动态储备和定期测试工作,在突发情况出现时,保证有正常可用的零备件,老旧设备的备件更应注重定期测试工作。日常维护工作中老旧设备备件可能未加载软件情况,空备件替换故障件后无法使用,应熟悉板卡或模块软件加载过程,否则有备件也无法使用。
(四)联系厂家工程师,加强业务学习
在重大故障发生时,值班人员需要与厂家工程师尽快取得联系,描描述故障现象时还应力求尽量做到详细准确,在有关工程师的建议或指导下进行操作;同时应加强业务学习,对系统原理、结构、连接等各方面进行细致学习,才能在出现故障时有更全面的分析思路。
参考文献
[1]《瑞士schmid公司ICS200/60内话系统性能分析》张杰;朱历刚;
[2]《ICS200/60内话系统典型故障处理分析》袁惠玲