摘 要:結合銀行數據中心建設項目,設計銀行數據中心機房動力環境監控系統,分析銀行數據中心機房監控對象、搭建系統監控架構,給出監控實現方法,*后針對運行一段時間出現的問題,提出優化措施和建議,對同類工程建設具有一定借鑒意義。
關鍵詞:數據中心;動環監控;系統架構;網絡拓撲
0引言
銀行數據中心機房的供配電和精密空調等基礎設施多,而設備維護人力資源少,因此增加了基礎設施運維人員工作強度和難度。為及時發現設備故障并處理,本文設計了動力環境監控系統,并針對運行中出現的主要問題給出優化措施。
1系統
監控對象銀行數據中心機房動力環境監控系統(以下簡稱為動環監控系統)的監控對象可分為三大類:是對設備動力系統實時工作狀態進行監控,如供配電系統開關狀態、UPS和柴油發電機等設備的運轉參數和狀態等;第二是對機房內運行環境進行監測與控制,如溫度、濕度、漏水、氫氣濃度及消防等;第三是對人員設備進出進行監控,如門禁、攝像頭、防入侵等安全類設備。而機柜內服務器、交換機、加密機等安全或網絡類硬件設備運行狀態并未納入,不在本文探討范圍。
2系統架構設計
2.1設計原則
銀行機房動環監控系統設計應遵循“集中化、一體化、智能化"的設計模式,采用高標準的監控系統設計原則,實現主動、高效、流程化的監控管理。
(1)穩定性。動環監控系統作為機房基礎設施“管家",要求24h不間斷提供服務,這不僅依賴動環監控設備供電的穩定性,還依靠網絡通信的可靠性。
(2)安全性。動環監控系統信號采集回路應具備良好的保護機制,不會因采集回路故障而造成被監控基礎設備誤動作或故障,且系統應具備自檢功能,在基礎設施故障時能及時通過電話或短信等方式告知運維人員設備故障部位、故障性質等。
(3)開放性。動環監控系統應符合開放式設計標準,預留多種對外接口和兼容MODBUS-TCP、OPC、OD-BC、BACNET等標準通信協議,以實現與第三方廠商設備數據的傳輸與交換。
(4)可擴展性。動環監控系統應可擴容及易維護,以適應數據中心機房的擴容、監控設備增加等變動情形。
2.2系統架構
動環監控系統采用計算機網絡、現代通信技術和控制技術,對機房動力設備及環境等進行實時監控,實現無人值守機房的現代化管理。硬件上采用三層架構:底層為現場設備層,由被監控設備、I/O采集模塊等構成;中間層為數據采集處理層,由各串口服務器、動環服務器、交換機等構成;頂層為數據應用層,由監控平臺或客戶端等終端構成。軟件上采用B/S結構,在機房中通過安裝各種傳感器及數據采集設備進行底層數據采集,將所有子系統集成在統一的用戶界面下,對各個子系統進行統一監視、控制和協調,從而構成統一的協同工作的整體。系統架構設計如圖1所示。
圖1動環監控系統架構設計
3系統實現
3.1工程概況
數據中心主機房設置在6F,按功能細分為服務器機房一、二、三,網絡機房,配電間A、B;配電間重要斷路器或開關、電量儀、UPS及防雷,主機房內新風機、精密空調及漏水檢測、機柜PDU、溫濕度、防入侵(紅外線檢測)需納入動環監控系統。UPS蓄電池室設置在-2F,柴油發電機間設置在-1F,三電源切換室設置在1F,運維室設置在7F,消防氣瓶間設置在8F。動環監控系統的監控對象見表1。
表1監控對象
3.2硬件構成
動環監控系統由2臺服務器(雙機熱備)、2臺客戶端PC機、監控大屏、核心交換機(A、B網)、視頻匯聚交換機、門禁接入交換機、采集箱及串口服務器等構成。
3.2.1數據采集層核心設備
采集箱負責開關量、溫濕度等原始數據的采集,是整個監控系統的核心,采用深圳計通機架式,大小為2U,可安裝在機柜內,箱內采集模塊通過端子排與被監控設備相連。串口服務器采用計通OAO-9000E嵌入式智能管理單元,該設備集數據采集、解析、存儲告警于一體,具備正確故障定位能力,可滿足不同廠家設備數據信號的接入與“翻譯"。
3.2.2現場設備層
現場設備層的設備分為需接協議轉換器設備、需提供通信協議設備、模擬量直集模塊和開關量直集模塊四類。
(1)需接協議轉換器(串口服務器)的設備包括精密空調、漏水繩、機柜PDU、電量儀、UPS電源、蓄電池、柴油發電機。這些設備需相應廠家提供通信接口及其開放的通信協議,以便對各設備運行參數或狀態進行監測。
(2)需提供通信協議的設備包括視頻監控和門禁子系統。這些設備需相應的廠家提供通信協議,由動環監控系統進行集成和管理,能實現在動環監控端點擊任意攝像頭調出相應攝像頭的實時監控畫面和實現對任意門的開關控制。
(3)模擬量直集模塊。
①溫濕度監測:通過在機房內的重要區域、冷熱通道和機柜內部安裝溫濕度傳感器,實時采集溫濕度的變化情況和熱力分布情況。
②氫氣監測:通過在電池間安裝氫氣采集模塊,可實時檢測PPM值是否超標,及時發現氫氣泄漏的電池隱患;當氫氣PPM達到設定的閾值時,系統發出報警。
(4)開關量直集模塊。
①重要開關監測:通過監測配電柜內重要斷路器的輔助觸點狀態,判斷開關的通斷狀態;當監測的開關狀態與設定默認狀態不一致時,監控主系統發出報警。
②防雷監測:通過監測防雷器的遙信觸點,實時監測防雷器狀態;當監測的防雷器狀態與設定默認狀態不一致時,監控主系統發出報警。
③新風排煙監控:通過在新風和排煙管道中安裝壓差開關檢測壓差信號,監測機房內新風機和排煙機的運行狀態,可遠程控制新風機的啟停。
④防入侵監測:通過在機房內安裝紅外探頭以監測機房內人員移動狀態;當紅外探測器的狀態異常時,系統發出報警。
⑤消防監測:通過采集消防控制主機報警輸出點的信號,實時監測機房內各分區的消防狀態;一旦發生報警,系統就自動切換到相應的監控界面,火警狀態圖標變紅且閃爍顯示,同時產生報警事件并記錄存儲。
3.2.3供電與組網動環監控系統硬件
設備的供電需雙路UPS電源,以確保供電可靠性,滿足24h不間斷提供服務的要求;而且重要的硬件設備要求主從配置,如動環服務器具備雙機熱備功能,利用“雙監控系統+雙數據庫"模式,保證系統的不間斷運行。
動環監控系統硬件設備的組網要求A、B雙網運行設備逐級匯接模式,網絡設備由POE交換機、接入交換機、匯聚交換機、核心交換機組成。POE交換機負責視頻攝像機的供電和數據傳輸;接入交換機使用二層有VLAN功能的交換機,負責采集單元中數據收斂;匯聚交換機使用三層交換機,用于匯聚POE交換機數據,避免二層網絡過大導致環路,也減輕了核心交換機的數據負擔。
動環監控系統的網絡拓撲結構如圖2所示
圖2網絡拓撲結構圖
3.3軟件平臺
動力環境集中監控平臺軟件采用B/S結構,通過在機房中安裝各種傳感器及數據采集設備進行底層數據采集,外廠家設備需提供通信接口及其開放的通信協議,進行數據“翻譯"處理,通過機房監控平臺集中監控,全中文、圖形化;界面結構層次清晰,實時反映數據狀態。集中監控平臺需要能運 行于中文Windows操作系統。動力環境集中監控平臺軟件采用模塊化設計,可劃分為采集層、處理層、管理層及展示層,如圖3所示。其中,個人工作平臺能提供動環監控主界面、告警事件列表、待辦事項、告警等級統計、PUE實時曲線、基礎設施分類餅狀圖等可自由選擇的個性化定制界面。報表管理可根據機房管理原有報表格式生成詳細的數據記錄報表和數據分析報表,存儲格式為Excel或PDF;數據存儲時間需長于1年,且具有防篡改功能。軟件交互界面中,動環監控模塊可直觀看到各個機房實時運行狀態,設置機房名稱、設備圖標等超鏈接可直達各子界面,通過溫濕度監測、門禁、視頻監控、溫度場、漏水監測、紅外監測、消防監測等按鈕可直達各分畫面,并提供基于電子地圖、實時曲線、餅狀圖、折線圖、直方圖等多形式數據展現方式,便于運維人員分析設備歷史運行趨勢,以判斷設備狀況。
圖3動力環境集中監控平臺軟件架構圖
系統告警采取短信、電話、現場語音三種報警結合的方式,報警等級分為緊急、重要、一般三個層次,不同級別的報警采用不同報警方式實現報警信息的發送。無論系統處于任何畫面,都可自動提示告警,顯示告警信息。當一個報警狀態解除時,系統可自動發送相應的恢復短信,以便機房管理人員隨時掌握相關動態。
4系統運行中的問題及優化措施
4.1常見問題
動環監控系統運行以來,出現過監控平臺數據不刷新,監控平臺電腦“假死",采集數據不準確,系統告警漏報、誤報、頻發(告警信號抖動)及延遲報警問題。
(1)監控平臺數據不刷新。這種情況在實際運維工作中*常見,整個監控平臺軟件數據不刷新或系統中某設備數據不刷新,導致運維人員無法收到告警信息。
(2)采集數據不準確。這種情況主要體現在監控畫面顯示的數據與現場設備實際運行數據不符,若畫面顯示的數據超過告警的閾值就有可能造成系統誤告警或不告警,影響設備的運行安全。如智能儀表部分測點值與系統顯示值不一致或單位不同,將導致該設備失去監控。在冷熱通道溫度檢測過程中,監控軟件顯示的數值超過告警上限閾值引發告警,而運維人員現場檢查后并未超限,造成人力資源的浪費。
(3)實時告警問題。動環監控系統告警漏報、誤報、頻發、延遲報警及告警信號抖動等問題是困擾數據中心運維工作人員的嚴重問題。數據中心運維值班人員7×24h應急值班,告警信息誤報、頻發將給人員造成很嚴重的身體傷害;而告警信息的漏報與延遲將導致設備出現故障時未能及時通知從而導致更嚴重的機房事故。
①告警漏報:告警漏報主要原因是告警級別設置過低或設備通信中斷或設備信息采集故障等導致重要告警信息缺失,未能及時上報運維人員,從而錯失重要告警信息,將導致嚴重后果。
②告警誤報:告警誤報是衡量動環監控系統可用性的重要指標,采集裝置受到電磁干擾或周圍環境改變、協議解析有誤、采集裝置故障、儀表故障、板卡端口故障等均會引起誤報,如精密空調四周部署的漏水繩因灰塵或沙土等導致電阻增大從而引起誤報。
③告警頻發:告警頻發類似于“信息轟炸",可分為兩種情況:一是同一告警信息頻繁多次報送給運維人員,原因是當某一測點觸發告警時,采集值在告警閾值附近來回波動;二是同一事件觸發機房多個動力設備同時告警,如機房停電或閃停后恢復,各相應重要開關、電量儀、UPS、機柜PDU等多設備引起的“電話短信轟炸"。④告警延遲:告警信息是否及時上報給運維人員是考驗監控系統是否合格的重要指標之一,而上報時間應設置為用戶可選項,如電力閃斷立即恢復的情形,可設置一定延時;而重要信息應能在15s內完成上報。
4.2優化措施
(1)監控平臺數據不刷新問題的解決。運維人員需熟知動環監控系統架構和網絡拓撲,從單點設備故障到網絡故障進行排除,對重要設備必要時可優化系統結構或網絡拓撲,對采集設備或裝置進行冗余備份,或對重要監控對象通信采用A、B雙網通信。
(2)采集數據準確性問題的解決。檢查智能儀表裝置或第三方設備的通信協議是否準確,與原廠家技術支持核實設備協議文本正確性,如更換智能儀表未核對通信協議,將導致數據不準確或無法采集。檢查通信故障,首先檢查物理連接是否存在問題,然后對通信配置進行檢查,重點檢查波特率、校驗位、串口的設置等是否存在問題。檢查采集裝置或采集箱等設備、溫濕度探測器等硬件自身是否存在故障,排除設備硬件故障導致數據采集不準確的問題。
(3)實時告警問題的優化。首先嚴格控制智能設備串接數量,避免串接設備數量過多引起數據上傳緩慢,進而導致告警延遲。合理配置FSU掃描時間,通過調整動環設備掃描周期來縮短采集裝置對各個測點的問詢時間,以提高采集速度。其次合理選擇設備測點,對重要測點進行合理選擇和優化,避免掃描過多的測點造成采集器負擔過重,進而影響采集效率。另外,運維人員應避免非重要數據的掃描占用過多資源,引起采集過慢。再者通過軟件手段控制告警頻發和非合理數據引發的告警,可增加告警回差屏蔽功能,數據采集值超出合理范圍的,通過設置有效的閾值上下限,屏蔽此部分數據,消除誤告警。電磁干擾在傳輸過程中產生的誤告警,除在軟件端進行有效門限屏蔽外,還可在傳輸線路上套裝抗干擾磁環以減少干擾。*后采用人工智能等先進手段增加告警邏輯關系分析和對告警信息進行合理分類。如增加告警溯源功能,劃分主次告警,確定告警產生設備的主從關系,進而對告警信息進行有效優化,以減少告警“信息轟炸",同時不漏掉重要告警信息。
5動環監控系統解決方案
通過數據中心動環監控系統,實現了對數據中心的門禁狀態、水浸狀態,煙霧狀態,視頻狀態,環境狀態,高低壓配電狀態,設備運行狀態進行實時監測,并進行實時報警,保障數據中心正常運行,避免運行環境的失控導致配電設備運行故障,保證維護人員安全,延長設備使用壽命,減少配電室粗放式管理導致成本過高。同時實現動環監控并對各用能耗能進行能效分析,幫助用戶實現用能效率的優化。
5.1系統功能
(1)展示當前數據中心總能耗,IT能耗,空調能耗,及其他能耗并且計算出當前數據中心實時PUE值,通過儀表盤形式直觀展示。
(2)選擇查看數據中心的中低壓配電系統主接線圖,并在一次圖顯示配電系統當前遙測、遙信數據和狀態。實時監測各配電柜的電壓、電流等電力參數,變電站的溫濕度、煙感、水浸、門禁等環境情況。
(3)電氣接點溫度實時監測,斷路器觸頭、觸臂、母排和線纜連接等位置安裝無線測溫傳感器監測接點溫度,便于提前發現溫度異常導致的事故。
(4)監測各變壓器各項參數,包括負載率、頻率、功率因數、三相不平衡度等,并且顯示歷時曲線圖,數據實時變化。幫助用戶直
(5)電能質量在線監測,可以監測電流和電壓諧波畸變率、電壓暫升暫降暫中斷等暫態事件記錄、ITIC容忍曲線等
(6)系統采集UPS輸入、輸出端和旁路三相電壓、電流、有功功率、功率因數頻率,同時監測UPS溫度、蓄電池電壓、當前負載下的剩余時間等數據。
(7)展示單體電池電壓、內阻和溫度,預測電池帶載時剩余時間,每節電池數據均可以設置異常報警,及時發現蓄電池異常。
(8)展示精密配電柜內進線和饋線回路電氣參數,包括電流電壓功率電能以及開關狀態,并可以對數據進行報警設置和分級,數據取自精密配電柜測量模塊。
(9)展示智能小母線的始端箱和插接箱電氣參數,包括電流電壓、開關狀態、插接點溫度,并對數據進行報警設置和分級。
(10)通過平面圖顯示數據中心能源分布,設備分布情況,并顯示設備能耗數據,點擊平面圖上設備可以進入具體設備監控界面。
(11)實時顯示當前數據中心PUE值以及歷史PUE曲線。并且顯示各分項用能的用能情況及用能排行。監測各變壓器運行及負載情況,給出本月變壓器輸出電能排行。
(12)顯示電能消耗日/月/年報表,并可對具體回路選擇曲線圖、餅圖進行展示。對數據中心用電數據進行同比、環比分析比較,查看用電趨勢。
(13)監測精密空調的回風溫濕度,出回水溫度,并可以設定精密空調的溫濕度,達到更好的控制效果。
(14)監測數據中心溫濕度、開關門、水浸、煙霧、噪聲、氣體濃度狀態等參數。曲線圖直觀明了,同時支持歷史數據查詢
(15)通過列表顯示各類報警事件數量,通過柱狀圖顯示逐日報警數量,提供報警總數以及增長趨勢。
維管理功能,可針對數據中心各主要設備進行巡檢派工,消缺,搶修等維護工作。
5.2 動環監控系統選型方案
6結語
動環監控系統在銀行數據中心基礎設施設備的運行維護中發揮重要作用,在一定程度上扮演了運維人員“眼耳鼻"的角色。動環監控系統的正常運行在于7×24h不間斷服務和重要告警信息能及時通知相關運維人員。而動環監控系統穩定可靠正確運行的關鍵在于系統架構、供電及組網的設計。在運維過程中,系統難免會出現一些問題,需不斷總結經驗、梳理出問題并進行優化改進。本文基于銀行數據中心動環監控系統建設實際出發,對該系統進行設計并實現,同時對運行出現的問題進行合理優化,結果證明該策略的可行性。