隨著電子商務、云計算、大數(shù)據(jù)、人工智能、互聯(lián)網(wǎng)金融等應用的快速發(fā)展,數(shù)據(jù)中心單體規(guī)模越來越大、系統(tǒng)越來越復雜,應對的挑戰(zhàn)也越來越多。
一個好的數(shù)據(jù)中心需要通過科學的運維管理,充分利用技術和設備資源,將運行成本降到最低,同時能源利用率最大化。
京東在宿遷的自建數(shù)據(jù)中心,按照世界一流數(shù)據(jù)中心的理念設計和建設,也按照國際先進的運營管理模式投入運行。
作為數(shù)據(jù)中心生命周期中最重要的一環(huán),如何針對基礎設施,各種IT設備,信息與數(shù)據(jù),應用軟件等各方面展開數(shù)據(jù)中心的運維管理,為基礎設施和信息系統(tǒng)提供穩(wěn)定可靠的運行環(huán)境,確保他們安全,穩(wěn)定,可靠,持續(xù)并高效的運行。
京東IDC建設的技術專家們,設計并落地了一套先進的、可靠的智能化基礎設施運維管理體系,進行系統(tǒng)性的支撐。
接下來的內(nèi)容,我們將通過京東自建數(shù)據(jù)中心在運營維護中的人,制度,流程規(guī)范,監(jiān)控管理等各個方面,一窺這里是如何高效滿足京東不斷增長的業(yè)務需求。
1人
京東IDC建設部技術專家劉銘談到:人是數(shù)據(jù)中心IT設施運維管理的基礎,也是管理的核心,正所謂是三分靠技術,七分靠管理。京東在宿遷的自建數(shù)據(jù)中心,設施運維管理核心團隊組建于數(shù)據(jù)中心建設初期,主要的專業(yè)技術管理人員都深度參與了整個數(shù)據(jù)中心園區(qū)的工程建設以及測試驗證等重要環(huán)節(jié)。
在數(shù)據(jù)中心交付之前,他們就已經(jīng)充分的了解這個數(shù)據(jù)中心基礎設施系統(tǒng)的構成,掌握了數(shù)據(jù)中心設計、施工、變更、整改的技術文檔和測試數(shù)據(jù),哪些是今后運維工作的特別關注點,都熟記于心。
京東自建數(shù)據(jù)中心的實施運維團隊主要有兩大工作職能。第一個是實行7*24小時輪崗工作制的運維巡檢團隊,他們對基礎設備設施進行巡檢,第一時間發(fā)現(xiàn)故障或問題。
第二個是對數(shù)據(jù)中心基礎設施提供運維技術支持,解決技術問題的技術管理團隊,他們承擔數(shù)據(jù)中心場地基礎設施的優(yōu)化改造工程和項目管理工作,也是運維管理的核心團隊。
2制度
設備臺賬制度
給每個獨立的數(shù)據(jù)中心模塊建立完整并實時更新的設備臺賬。臺賬包括所有關鍵基礎設施設備的清單,并完整記錄這些設備設施的運行情況、事件情況、變更情況、維護保養(yǎng)頻次等信息。
對影響安全運行的關鍵設備,比如UPS、冷水機組、精密空調(diào)等的設定參數(shù)以及關鍵點的報警閥值制定了統(tǒng)一管理制度,結合數(shù)據(jù)中心實際運行情況與技術,討論后按統(tǒng)一參數(shù)值設定,運維巡檢人員不可以隨意修改。
預防性維護計劃
為了延長設備的使用壽命,減少設備故障的概率,必須對所有設備設施進行有計劃的維護。提前制定月度、季度、年度的預防性維護計劃。
運維人員會按照設備和系統(tǒng)的特性、維護流程及規(guī)范,及時、完整的落實維護工作,并形成客觀實際的記錄和報告存檔。
此外,運維團隊還定期對設備運行狀態(tài)的數(shù)據(jù)進行統(tǒng)計和趨勢量化分析,對于異常的趨勢,及時作出報警和相關預案。
通過定期檢查和保養(yǎng),使得設備設施的某些缺陷或隱患在變得更嚴重之前被發(fā)現(xiàn)。
維修工單制度
運維人員在接到工單時,能明確獲悉工作任務與注意事項,提前熟悉操作流程,做到心中有數(shù)。在維修操作過程中,工單也可以起到指導操作的作用;在維修工作結束交單、備案歸檔。如果在維修過程中遇到困難,也便于及時通過上溯的渠道,快速解決問題。
3監(jiān)控
京東在宿遷的自建數(shù)據(jù)中心園區(qū)中,包含有4個數(shù)據(jù)中心模塊,每個模塊都配置有一個獨立的監(jiān)控中心,整個園區(qū)中心位置設置了綜合監(jiān)控中心ECC。
ECC的綜合智能監(jiān)控管理平臺,可以實現(xiàn)對數(shù)據(jù)中心各設備和系統(tǒng)的統(tǒng)一監(jiān)控與管理,提高整個系統(tǒng)的運行可靠性、穩(wěn)定性和擴展性,實現(xiàn)機房的科學管理。
作為園區(qū)級的監(jiān)控平臺,ECC很好的實現(xiàn)了:
1、可視化展示各設備設施實時狀態(tài),實時掌握可用性狀況;
2、業(yè)務流程規(guī)范化管理,變更風險管控,降低變更帶給業(yè)務的影響;
3、復雜事件分析處理,準確定位故障;大數(shù)據(jù)分析,智能預警;
4、設備部署合理化,平衡各維度容量綜合利用率,避免單項容量短板;
5、可視化容量管理,直觀展示容量使用情況及趨勢分析,擴容決策及時準確;
6、提供多維度運行分析報告,為運營決策提供數(shù)據(jù)支持;
7、重大故障可實時準確提供數(shù)據(jù)中心應急預案;
模塊級的監(jiān)控系統(tǒng)對基礎設施的監(jiān)控包括電氣,動力,環(huán)境三部分,實時進行監(jiān)測和展示被監(jiān)控的設備。
系統(tǒng)的架構包含現(xiàn)場設備的數(shù)據(jù)采集層、現(xiàn)場設備監(jiān)控層和集中重慶監(jiān)控</a> http://www.gytedu.cn監(jiān)控層。
現(xiàn)場設備數(shù)據(jù)采集層:由各種I/O采集模塊組成,連接所有傳感器和被監(jiān)控設備,實現(xiàn)監(jiān)控平臺與被監(jiān)控對象的數(shù)據(jù)通訊。所有硬件采用模塊化架構,I/O模塊采集傳感器數(shù)據(jù)后,通過系統(tǒng)配置實現(xiàn)對所有傳感器的數(shù)據(jù)匹配對應,直接接入現(xiàn)場監(jiān)控層。
現(xiàn)場設備監(jiān)控層:由多臺嵌入式服務器或獨立網(wǎng)絡控制器組成,負責收集與處理由現(xiàn)場設備采集層發(fā)送過來的數(shù)據(jù)。
模塊集中監(jiān)控層:采集現(xiàn)場設備監(jiān)控層上傳的數(shù)據(jù),對模塊內(nèi)的現(xiàn)場監(jiān)控服務器進行集中管理,實時監(jiān)測組內(nèi)基礎設施的參數(shù)、狀態(tài),并提供遠程瀏覽。在這個模塊中的監(jiān)控數(shù)據(jù),可以直接上傳至園區(qū)綜合監(jiān)控中心ECC的綜合監(jiān)控層。
集中管理平臺配置了“雙服務器+雙數(shù)據(jù)庫”,實現(xiàn)容錯配置。也開發(fā)了移動終端操控平臺,可以對數(shù)據(jù)中心的基礎業(yè)務進行實時操控
京東IT資源服務部負責人呂科說:“京東自建數(shù)據(jù)中心的設施運維管理有一個非常重要的目標,那就是要“建立一套持續(xù)改進的機制”,這一點往往容易被行業(yè)從業(yè)人員所忽略。數(shù)據(jù)中心設施運維管理與數(shù)據(jù)中心設施系統(tǒng)建設階段的項目管理有很大的不同,項目管理是一次性的,必須保障“當前最佳”。而數(shù)據(jù)中心運維管理則是一個不斷迭代的過程,“一套持續(xù)改進的機制”可以保障數(shù)據(jù)中心運行效率不斷提高、重慶監(jiān)控</a> http://www.gytedu.cn運行成本不斷降低。數(shù)據(jù)中心的設施運維工作就是這樣一個不斷優(yōu)化的過程,這也是我們的目標:沒有最好,只有更好。”