摘要:连合银行数据中心建立项目,计划银行数据中心机房动力环境监控体系,分析银行数据中心机房监控对象、搭建体系监控架构,给出监控实现方法,*后针对运行一段时间出现的题目,提出优化步伐和发起,对同类工程建立具有肯定鉴戒意义。
关键词:数据中心;动环监控;体系架构;网络拓扑
0弁言
银行数据中心机房的供配电和精密空调等底子办法多,而装备维护人力资源少,因此增长了底子办法运维职员工作强度和难度。为及时发现装备故障并处理惩罚,本文计划了动力环境监控体系,并针对运行中出现的重要题目给出优化步伐。
1体系
监控对象银行数据中心机房动力环境监控体系(以下简称为动环监控体系)的监控对象可分为三大类:第一是对装备动力体系及时工作状态举行监控,如供配电体系开关状态、UPS和柴油发电机等装备的运转参数和状态等;第二是对机房内运行环境举行监测与控制,如温度、湿度、漏水、氢气浓度及消防等;第三是对职员装备收支举行监控,如门禁、摄像头、防入侵等安全类装备。而机柜内服务器、互换机、加密机等安全或网络类硬件装备运行状态并未纳入,不在本文探究范围。
2体系架构计划
2.1计划原则
银行机房动环监控体系计划应依照“会合化、一体化、智能化”的计划模式,采取高标准的监控体系计划原则,实现主动、高效、流程化的监控管理。
(1)稳固性。动环监控体系作为机房底子办法“管家”,要求24h不停止提供服务,这不但依靠动环监控装备供电的稳固性,还依靠网络通讯的可靠性。
(2)安全性。动环监控体系信号收罗回路应具备精良的掩护机制,不会因收罗回路故障而造成被监控底子装备误动作或故障,且体系应具备自检功能,在底子办法故障时能及时通过电话或短信等方式告知运维职员装备故障部位、故障性子等。
(3)开放性。动环监控体系应符合开放式计划标准,预留多种对外接口和兼容MODBUS-TCP、OPC、OD-BC、BACNET等标准通讯协议,以实现与第三方厂商装备数据的传输与互换。
(4)可扩展性。动环监控体系应可扩容及易维护,以顺应数据中心机房的扩容、监控装备增长等变动情况。
2.2体系架构
动环监控体系采取盘算机网络、当代通讯技能和控制技能,对机房动力装备及环境等举行及时监控,实现无人值守机房的当代化管理。硬件上采取三层架构:底层为现场装备层,由被监控装备、I/O收罗模块等构成;中心层为数据收罗处理惩罚层,由各串口服务器、动环服务器、互换机等构成;顶层为数据应用层,由监控平台或客户端等终端构成。软件上采取B/S布局,在机房中通过安装各种传感器及数据收罗装备举行底层数据收罗,将全部子体系集成在同一的用户界面下,对各个子体系举行同一监督、控制和和谐,从而构成同一的协同工作的团体。体系架构计划如图1所示。
图1动环监控体系架构计划
3体系实现
3.1工程概况
数据中心主机房设置在6F,按功能细分为服务器机房一、二、三,网络机房,配电间A、B;配电间紧张断路器或开关、电量仪、UPS及防雷,主机房内新风机、精密空调及漏水检测、机柜PDU、温湿度、防入侵(红外线检测)需纳入动环监控体系。UPS蓄电池室设置在-2F,柴油发电机间设置在-1F,三电源切换室设置在1F,运维室设置在7F,消防气瓶间设置在8F。动环监控体系的监控对象见表1。
表1监控对象
3.2硬件构成
动环监控体系由2台服务器(双机热备)、2台客户端PC机、监控大屏、核心互换机(A、B网)、视频汇聚互换机、门禁接入互换机、收罗箱及串口服务器等构成。
3.2.1数据收罗层核心装备
收罗箱负责开关量、温湿度等原始数据的收罗,是整个监控体系的核心,采取深圳计通机架式,巨细为2U,可安装在机柜内,箱内收罗模块通过端子排与被监控装备相连。串口服务器采取计通OAO-9000E嵌入式智能管理单位,该装备集数据收罗、分析、存储告警于一体,具备精确故障定位本领,可满意差别厂家装备数据信号的接入与“翻译”。
3.2.2现场装备层
现场装备层的装备分为需接协议转换器装备、需提供通讯协议装备、模仿量直集模块和开关量直集模块四类。
(1)需接协议转换器(串口服务器)的装备包罗精密空调、漏水绳、机柜PDU、电量仪、UPS电源、蓄电池、柴油发电机。这些装备需相应厂家提供通讯接口及其开放的通讯协议,以便对各装备运行参数或状态举行监测。
(2)需提供通讯协议的装备包罗视频监控和门禁子体系。这些装备需相应的厂家提供通讯协议,由动环监控体系举行集成和管理,能实如今动环监控端点击恣意摄像头调出相应摄像头的及时监控画面和实现对恣意门的开关控制。
(3)模仿量直集模块。
①温湿度监测:通过在机房内的紧张地区、冷热通道和机柜内部安装温湿度传感器,及时收罗温湿度的变革环境和热力分布环境。
②氢气监测:通过在电池间安装氢气收罗模块,可及时检测PPM值是否超标,及时发现氢气走漏的电池隐患;当氢气PPM到达设定的阈值时,体系发出报警。
(4)开关量直集模块。
①紧张开关监测:通过监测配电柜内紧张断路器的辅助触点状态,判定开关的通断状态;当监测的开关状态与设定默认状态不同等时,监控主体系发出报警。
②防雷监测:通过监测防雷器的遥信触点,及时监测防雷器状态;当监测的防雷器状态与设定默认状态不同等时,监控主体系发出报警。
③新风排烟监控:通过在新风和排烟管道中安装压差开关检测压差信号,监测机房内新风机和排烟机的运行状态,可长途控制新风机的启停。
④防入侵监测:通过在机房内安装红外探头以监测机房内职员移动状态;当红外探测器的状态非常时,体系发出报警。
⑤消防监测:通过收罗消防控制主机报警输出点的信号,及时监测机房内各分区的消防状态;一旦发生报警,体系就主动切换到相应的监控界面,火警状态图标变红且闪烁表现,同时产生报警变乱并记录存储。
3.2.3供电与组网动环监控体系硬件
装备的供电需双路UPS电源,以确保供电可靠性,满意24h不停止提供服务的要求;而且紧张的硬件装备要求主从设置,如动环服务用具备双机热备功能,利用“双监控体系+双数据库”模式,包管体系的不停止运行。
动环监控体系硬件装备的组网要求A、B双网运行装备逐级汇接模式,网络装备由POE互换机、接入互换机、汇聚互换机、核心互换机构成。POE互换机负责视频摄像机的供电和数据传输;接入互换机利用二层有VLAN功能的互换机,负责收罗单位中数据收敛;汇聚互换机利用三层互换机,用于汇聚POE互换机数据,克制二层网络过大导致环路,也减轻了核心互换机的数据负担。
动环监控体系的网络拓扑布局如图2所示
图2网络拓扑布局图
3.3软件平台
动力环境会合监控平台软件采取B/S布局,通过在机房中安装各种传感器及数据收罗装备举行底层数据收罗,外厂家装备需提供通讯接口及其开放的通讯协议,举行数据“翻译”处理惩罚,通过机房监控平台会合监控,全中文、图形化;界面布局条理清楚,及时反映数据状态。会合监控平台必要能运行于中文Windows操纵体系。动力环境会合监控平台软件采取模块化计划,可分别为收罗层、处理惩罚层、管理层及展示层,如图3所示。此中,个人工作平台能提供动环监控主界面、告警变乱列表、待服务项、告警品级统计、PUE及时曲线、底子办法分类饼状图等可自由选择的个性化定制界面。报表管理可根据机房管理原有报表格式天生具体的数据记录报表和数据分析报表,存储格式为Excel或PDF;数据存储时间需长于1年,且具有防窜改功能。软件交互界面中,动环监控模块可直观看到各个机房及时运行状态,设置机房名称、装备图标等超链接可直达各子界面,通过温湿度监测、门禁、视频监控、温度场、漏水监测、红外监测、消防监测等按钮可直达各分画面,并提供基于电子舆图、及时曲线、饼状图、折线图、直方图等多情势数据显现方式,便于运维职员分析装备汗青运行趋势,以判定装备状态。
图3动力环境会合监控平台软件架构图
体系告警采取短信、电话、现场语音三种报警连合的方式,报警品级分为告急、紧张、一样平常三个条理,差别级别的报警采取差别报警方式实现报警信息的发送。无论体系处于任何画面,都可主动提示告警,表现告警信息。当一个报警状态打扫时,体系可主动发送相应的规复短信,以便机房管理职员随时把握相干动态。
4体系运行中的题目及优化步伐
4.1常见题目
动环监控体系运行以来,出现过监控平台数据不革新,监控平台电脑“假死”,收罗数据禁绝确,体系告警漏报、误报、频发(告警信号抖动)及耽误报警题目。
(1)监控平台数据不革新。这种环境在实际运维工作中*常见,整个监控平台软件数据不革新或体系中某装备数据不革新,导致运维职员无法收到告警信息。
(2)收罗数据禁绝确。这种环境重要表现在监控画面表现的数据与现场装备实际运行数据不符,若画面表现的数据高出告警的阈值就有大概造成体系误告警或不告警,影响装备的运行安全。如智能仪表部分测点值与体系表现值不同等或单位差别,将导致该装备失去监控。在冷热通道温度检测过程中,监控软件表现的数值高出告警上限阈值引发告警,而运维职员现场查抄后并未超限,造成人力资源的浪费。
(3)及时告警题目。动环监控体系告警漏报、误报、频发、耽误报警及告警信号抖动等题目是困扰数据中心运维工作职员的严峻题目。数据中心运维值班职员7×24h应急值班,告警信息误报、频发将给职员造成很严峻的身材伤害;而告警信息的漏报与耽误将导致装备出现故障时未能及时关照从而导致更严峻的机房变乱。
①告警漏报:告警漏报重要缘故起因是告警级别设置过低或装备通讯停止或装备信息收罗故障等导致紧张告警信息缺失,未能及时上报运维职员,从而错失紧张告警信息,将导致严峻结果。
②告警误报:告警误报是衡量动环监控体系可用性的紧张指标,收罗装置受到电磁干扰或四周环境改变、协议分析有误、收罗装置故障、仪表故障、板卡端口故障等均会引起误报,如精密空调附近摆设的漏水绳因尘土或沙土等导致电阻增大从而引起误报。
③告警频发:告警频发雷同于“信息轰炸”,可分为两种环境:一是同一告警信息频仍多次报送给运维职员,缘故起因是当某一测点触发告警时,收罗值在告警阈值附迩来回颠簸;二是同一变乱触发机房多个动力装备同时告警,如机房停电或闪停后规复,各相应紧张开关、电量仪、UPS、机柜PDU等多装备引起的“电话短信轰炸”。④告警耽误:告警信息是否及时上报给运维职员是检验监控体系是否合格的紧张指标之一,而上报时间应设置为用户可选项,如电力闪断立即规复的情况,可设置肯定延时;而紧张信息应能在15s内完成上报。
4.2优化步伐
(1)监控平台数据不革新题目的办理。运维职员需熟知动环监控体系架构和网络拓扑,从单点装备故障到网络故障举行打扫,对紧张装备须要时可优化体系布局或网络拓扑,对收罗装备或装置举行冗余备份,或对紧张监控对象通讯采取A、B双网通讯。
(2)收罗数据正确性题目的办理。查抄智能仪表装置或第三方装备的通讯协议是否正确,与原厂家技能支持核实装备协议文本精确性,如更换智能仪表未查对通讯协议,将导致数据禁绝确或无法收罗。查抄通讯故障,起首查抄物理毗连是否存在题目,然后对通讯设置举行查抄,重点查抄波特率、校验位、串口的设置等是否存在题目。查抄收罗装置或收罗箱等装备、温湿度探测器等硬件自身是否存在故障,打扫装备硬件故障导致数据收罗禁绝确的题目。
(3)及时告警题目的优化。起首严格控制智能装备串接数量,克制串接装备数量过多引起数据上传迟钝,进而导致告警耽误。公道设置FSU扫描时间,通过调解动环装备扫描周期来收缩收罗装置对各个测点的问询时间,以进步收罗速率。其次公道选择装备测点,对紧张测点举行公道选择和优化,克制扫描过多的测点造成收罗器负担过重,进而影响收罗服从。别的,运维职员应克制非紧张数据的扫描占用过多资源,引起收罗过慢。再者通过软件本领控制告警频发和非公道数据引发的告警,可增长告警回差屏蔽功能,数据收罗值超出公道范围的,通过设置有效的阈值上下限,屏蔽此部分数据,消除误告警。电磁干扰在传输过程中产生的误告警,除在软件端举行有效门限屏蔽外,还可在传输线路上套装抗干扰磁环以镌汰干扰。*后采取人工智能等先辈本领增长告警逻辑关系分析和对告警信息举行公道分类。如增长告警溯源功能,分别主次告警,确定告警产生装备的主从关系,进而对告警信息举行有效优化,以镌汰告警“信息轰炸”,同时不遗漏紧张告警信息。
5动环监控体系办理方案
通过数据中心动环监控体系,实现了对数据中心的门禁状态、水浸状态,烟雾状态,视频状态,环境状态,高低压配电状态,装备运行状态举行及时监测,并举行及时报警,保障数据中心正常运行,克制运行环境的失控导致配电装备运行故障,包管维护职员安全,延伸装备利用寿命,镌汰配电室粗放式管理导致本钱过高。同时实现动环监控并对各用能耗能举行能效分析,资助用户实现用能服从的优化。
5.1体系功能
(1)展示当前数据中心总能耗,IT能耗,空调能耗,及其他能耗而且盘算出当前数据中心及时PUE值,通过仪表盘情势直观展示。
(2)选择查察数据中心的中低压配电体系主接线图,并在一次图表现配电体系当前遥测、遥信数据和状态。及时监测各配电柜的电压、电流等电力参数,变电站的温湿度、烟感、水浸、门禁等环境环境。
(3)电气接点温度及时监测,断路器触头、触臂、母排和线缆毗连等位置安装无线测温传感器监测接点温度,便于提前发现温度非常导致的变乱。
(4)监测各变压器各项参数,包罗负载率、频率、功率因数、三相不均衡度等,而且表现历时曲线图,数据及时变革。资助用户直
(5)电能质量在线监测,可以监测电流和电压谐波畸变率、电压暂升暂降暂停止等暂态变乱记录、ITIC容忍曲线等
(6)体系收罗UPS输入、输出端和旁路三相电压、电流、有功功率、功率因数频率,同时监测UPS温度、蓄电池电压、当前负载下的剩余时间等数据。
(7)展示单体电池电压、内阻和温度,猜测电池带载时剩余时间,每节电池数据均可以设置非常报警,及时发现蓄电池非常。
(8)展示精密配电柜内进线和馈线回路电气参数,包罗电流电压功率电能以及开关状态,并可以对数据举行报警设置和分级,数据取自精密配电柜丈量模块。
(9)展示智能小母线的始端箱和插接箱电气参数,包罗电流电压、开关状态、插接点温度,并对数据举行报警设置和分级。
(10)通过平面图表现数据中心能源分布,装备分布环境,并表现装备能耗数据,点击平面图上装备可以进入具体装备监控界面。
(11)及时表现当前数据中心PUE值以及汗青PUE曲线。而且表现各分项用能的用能环境及用能排行。监测各变压器运行及负载环境,给出本月变压器输出电能排行。
(12)表现电能斲丧日/月/年报表,并可对具体回路选择曲线图、饼图举行展示。对数据中心用电数据举行同比、环比分析比力,查察用电趋势。
(13)监测精密空调的回风温湿度,出回水温度,并可以设定精密空调的温湿度,到达更好的控制结果。
(14)监测数据中心温湿度、开关门、水浸、烟雾、噪声、气体浓度状态等参数。曲线图直观明白,同时支持汗青数据查询
(15)通过列表表现各类报警变乱数量,通过柱状图表现逐日报警数量,提供报警总数以及增长趋势。
维管理功能,可针对数据中心各重要装备举行巡检派工,消缺,抢修等维护工作。
5.2动环监控体系选型方案
6结语
动环监控体系在银行数据中心底子办法装备的运行维护中发挥紧张作用,在肯定程度上扮演了运维职员“眼耳鼻”的脚色。动环监控体系的正常运行在于7×24h不停止服务和紧张告警信息能及时关照相干运维职员。而动环监控体系稳固可靠精确运行的关键在于体系架构、供电及组网的计划。在运维过程中,体系不免会出现一些题目,需不绝总结履历、梳理出题目并举行优化改进。本文基于银行数据中心动环监控体系建立实际出发,对该体系举行计划并实现,同时对运行出现的题目举行公道优化,结果证明该战略的可行性。
安科瑞陈琪
我要评论