中國(guó)的基礎(chǔ)網(wǎng)絡(luò)環(huán)境之復(fù)雜堪居世界各國(guó)之首,隨著視頻、直播、游戲、語(yǔ)音、電商等流量大、用戶體驗(yàn)要求高、用戶分布地域廣的互聯(lián)網(wǎng)應(yīng)用場(chǎng)景,以單點(diǎn)部署方式早已無(wú)法滿足業(yè)務(wù)的需求,分布式應(yīng)用部署方式已經(jīng)成為保障業(yè)務(wù)高可用的必然之選。隨之而來(lái)的可用性監(jiān)控成為分布式系統(tǒng)的一大難題。
以某頂級(jí)IDC服務(wù)商同時(shí)也是國(guó)內(nèi)最大的第三方獨(dú)立數(shù)據(jù)中心運(yùn)營(yíng)商為例,該服務(wù)商將全國(guó)的數(shù)據(jù)中心劃分為三個(gè)層次,即以北上廣等核心城市為核心層,以互聯(lián)網(wǎng)大省、骨干城市為骨干層,以二三級(jí)城市為邊緣層。其客戶根據(jù)應(yīng)用等級(jí)及用戶分布區(qū)域,通過在全國(guó)范圍的科學(xué)選點(diǎn),將應(yīng)用分別部署在不同層級(jí)的城市數(shù)據(jù)中心,以降低總部署成本,提升用戶體驗(yàn),同時(shí)在自身IT運(yùn)維和客戶服務(wù)保障過程中積累了豐富的分布式系統(tǒng)高可用監(jiān)控經(jīng)驗(yàn)。
簡(jiǎn)單易用的內(nèi)部應(yīng)用系統(tǒng)監(jiān)控
眾所周知,當(dāng)企業(yè)部署了分布式系統(tǒng),IT設(shè)備數(shù)量和系統(tǒng)規(guī)模就會(huì)呈幾何級(jí)數(shù)迅速增長(zhǎng),運(yùn)維部門規(guī)模往往落后于系統(tǒng)增速,而原有單點(diǎn)監(jiān)控系統(tǒng)的轉(zhuǎn)型并非易事。下面就以這家IDC服務(wù)商為例,從內(nèi)、外兩個(gè)維度探討一下高可用IT監(jiān)控系統(tǒng)的建設(shè)。
在內(nèi)網(wǎng)監(jiān)控方面,注重的是內(nèi)部IT設(shè)備的可用性。運(yùn)維部門陸續(xù)使用過Smokeping,Open-falcon,cacti之類監(jiān)控系統(tǒng),最終都不了了之:Smokeping依賴的包、組件過多,安裝搭建配置繁瑣,圖形參數(shù)較多,需要查閱大量文檔;Open-falcon部署測(cè)試了0.2.0版本,雖然機(jī)制不錯(cuò),但易用性有待提高;cacti主要用于收集歷史數(shù)據(jù)和畫圖,但在監(jiān)視大量服務(wù)器上跑的服務(wù)是否正常、告警方面,雖有插件支持,但效果很不理想。
之后,運(yùn)維部門選擇了入門容易、上手簡(jiǎn)單、開源免費(fèi)的Zabbix。Zabbix易于管理和配置,減輕日常管理的工作量,豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈活進(jìn)行數(shù)據(jù)采集,而分布式系統(tǒng)架構(gòu)可以支持監(jiān)控更多的IT設(shè)備。
通過Zabbix監(jiān)控大網(wǎng)出口對(duì)全國(guó)ping延遲的綜合匯總頁(yè)面:
用Grafana簡(jiǎn)單包裝一下,可以看到服務(wù)器的詳細(xì)運(yùn)行數(shù)據(jù):
內(nèi)外兼修的外網(wǎng)高可用監(jiān)控
云計(jì)算、虛擬化技術(shù)的廣泛應(yīng)用,分布式系統(tǒng)的后端IT設(shè)備和服務(wù)的穩(wěn)定性逐步提高,而復(fù)雜的用戶網(wǎng)絡(luò)接入環(huán)境、IDC機(jī)房鏈路、CDN加速等環(huán)節(jié)對(duì)業(yè)務(wù)質(zhì)量的影響越來(lái)越大。很多時(shí)候,造成用戶體驗(yàn)<a href="http://www.gytedu.cn">安防器材批發(fā)佳和服務(wù)不可用的原因都是外部的,而這是部署在IT系統(tǒng)內(nèi)部的Zabbix無(wú)法監(jiān)控的。
因此,運(yùn)維部門需要一套更準(zhǔn)確、更全面的入向監(jiān)控(外部監(jiān)控)來(lái)保障業(yè)務(wù)的高可用。監(jiān)控寶是享譽(yù)國(guó)內(nèi)運(yùn)維圈的IT性能監(jiān)控神器,通過覆蓋全國(guó)所有省份和世界主要國(guó)家的300多個(gè)分布式監(jiān)測(cè)節(jié)點(diǎn),對(duì)外部網(wǎng)絡(luò)鏈路進(jìn)行穩(wěn)定性和可用性的實(shí)時(shí)監(jiān)控和秒級(jí)告警服務(wù)。監(jiān)控寶支持http/https、ping、udp、tcp、smtp、traceroute等主流數(shù)據(jù)傳輸協(xié)議,能夠準(zhǔn)確測(cè)量鏈路質(zhì)量、CDN效果及DNS狀態(tài),為企業(yè)的互聯(lián)網(wǎng)業(yè)務(wù)進(jìn)行全網(wǎng)、全地域性能趨勢(shì)分析。
監(jiān)控寶除了網(wǎng)站監(jiān)控外,還包含服務(wù)器監(jiān)控、API監(jiān)控、中間件和數(shù)據(jù)庫(kù)監(jiān)控,無(wú)需部署,無(wú)任何侵入式插件,即可獲得第一手全面實(shí)時(shí)的監(jiān)控?cái)?shù)據(jù)。同時(shí),監(jiān)控寶覆蓋最全面的告警通知方式,包括郵件、短信、電話語(yǔ)音、App Push、URL回調(diào)等。而且,監(jiān)控寶根據(jù)每月監(jiān)測(cè)數(shù)據(jù),出具權(quán)威的第三方SLA證書,幫助企業(yè)對(duì)CDN質(zhì)量、云服務(wù)質(zhì)量和業(yè)務(wù)質(zhì)量進(jìn)行有效評(píng)估。
除此之外,監(jiān)控寶通過API實(shí)現(xiàn)Zabbix等監(jiān)控平臺(tái)的告警<a href="http://www.gytedu.cn">安防器材批發(fā)據(jù)的接入和聚合,并在定制化開發(fā)的可視化大屏上進(jìn)行統(tǒng)一監(jiān)控和統(tǒng)一告警,從而實(shí)現(xiàn)IT系統(tǒng)健康和業(yè)務(wù)監(jiān)控的統(tǒng)一管理。得益于監(jiān)控寶和Zabbix,這家中國(guó)最大的第三方獨(dú)立數(shù)據(jù)中心運(yùn)營(yíng)商實(shí)現(xiàn)了分布式系統(tǒng)高可用監(jiān)控的內(nèi)外兼修。