- 相關(guān)推薦
互聯(lián)網(wǎng)時(shí)代的網(wǎng)絡(luò )自動(dòng)化運維
互聯(lián)網(wǎng)上有兩大主要元素"內容和眼球","內容"是互聯(lián)網(wǎng)公司(或稱(chēng)ICP)提供的網(wǎng)絡(luò )服務(wù),如網(wǎng)頁(yè)、游戲、即時(shí)通信等,"眼球"則是借指海量的互聯(lián)網(wǎng)用戶(hù);ヂ(lián)網(wǎng)公司的內容往往分布在多個(gè)或大或小的IDC中,越來(lái)越多的"眼球"在盯著(zhù)ICP所提供的內容,互聯(lián)網(wǎng)公司進(jìn)行內容存儲的基礎設施也呈現出了爆發(fā)式的增長(cháng)。為了保障對內容的訪(fǎng)問(wèn)體驗,互聯(lián)網(wǎng)公司需要在不同的運營(yíng)商、不同的省份/城市批量部署業(yè)務(wù)服務(wù)器用以對外提供服務(wù),并為業(yè)務(wù)模塊間的通信建立IDC內部網(wǎng)絡(luò )、城域網(wǎng)和廣域網(wǎng),同時(shí)通過(guò)自建CDN或CDN專(zhuān)業(yè)服務(wù)公司對服務(wù)盲點(diǎn)進(jìn)行覆蓋。因此隨著(zhù)業(yè)務(wù)的增長(cháng),運維部門(mén)也顯得愈發(fā)重要。他們經(jīng)過(guò)這些年的積累,逐步形成了高效的運維體系。本文將結合國內互聯(lián)網(wǎng)公司的經(jīng)驗,重點(diǎn)針對IT基礎設施的新一代自動(dòng)化運維體系展開(kāi)討論。
一、運維的三個(gè)階段
● 第一個(gè)階段:人人皆運維
在早期,一個(gè)公司的IT基礎設施尚未達到一定的規模(通常在幾臺到幾十臺機器的規模),不一定有專(zhuān)門(mén)的運維人員或部門(mén),運維的工作分擔在各類(lèi)崗位中。研發(fā)人員擁有服務(wù)器權限,自己維護和管理線(xiàn)上代碼及業(yè)務(wù)。
● 第二個(gè)階段:縱向自動(dòng)化
隨著(zhù)業(yè)務(wù)量的增長(cháng),IT基礎設施發(fā)展到了另外一個(gè)量級(通常在上百臺至幾千臺機器的規模),開(kāi)始有專(zhuān)門(mén)的運維人員,從事日常的安裝維護工作,扮演"救火隊員",收告警,有運維規范,但運維主要還是為研發(fā)提供后置服務(wù)。
這個(gè)階段已經(jīng)開(kāi)始逐步向流程化處理進(jìn)行過(guò)渡,運維部門(mén)開(kāi)始輸出常見(jiàn)問(wèn)題處理的清單,有了自己業(yè)務(wù)范圍適用的自動(dòng)化腳本,開(kāi)始利用開(kāi)源軟件的拼裝完成大部分的工作。
具體表現為:各產(chǎn)品線(xiàn)有自己編寫(xiě)的腳本,利用如SVN+puppet或chef來(lái)完成服務(wù)器的上線(xiàn)和配置管理等工作。
● 第三階段:一切皆自動(dòng)
在互聯(lián)網(wǎng)化的大潮中,越來(lái)越多的黑馬團隊應運而生,都曾有過(guò)短時(shí)間內用戶(hù)訪(fǎng)問(wèn)量翻N倍的經(jīng)歷。在流量爆發(fā)的過(guò)程中,ICP的互聯(lián)網(wǎng)基礎服務(wù)設施是否能夠很好的跟進(jìn),直接決定了業(yè)務(wù)內容能否滿(mǎn)足海量用戶(hù)的并發(fā)訪(fǎng)問(wèn)。
與此同時(shí),運維系統需要足夠地完善、高效、流程化。谷歌、騰訊、百度和阿里等規模的公司內一般都有統一的運維團隊,有一套或多套自動(dòng)化運維系統可供參照,運維部門(mén)與開(kāi)發(fā)部門(mén)會(huì )是相互平行的視角。并且也開(kāi)始更加關(guān)注IT基礎設施在架構層面的優(yōu)化以及超大規模集群下的自動(dòng)化管理和切換(如圖1所示)。
圖1.大型互聯(lián)網(wǎng)公司IT基礎設施情況概覽
二、BAT(百度、阿里、騰訊)運維系統的分析
國內的互聯(lián)網(wǎng)公司百度、阿里、騰訊(以下簡(jiǎn)稱(chēng):BAT)所提供的主要業(yè)務(wù)內容不同,IT架構不同,運維系統在發(fā)展過(guò)程中有不同的關(guān)注點(diǎn)。
1.騰訊運維:基于ITIL的運維服務(wù)管理
預計到2015年騰訊在全國將擁有60萬(wàn)臺服務(wù)器。隨著(zhù)2012年自動(dòng)化部署實(shí)踐的成功,目前正在進(jìn)行自動(dòng)化驗收的工作。在網(wǎng)絡(luò )設備方面,后續將實(shí)現從需求端開(kāi)始的全自動(dòng)化工作:設備清單自動(dòng)生成->采購清單自動(dòng)下發(fā)->端口連接關(guān)系、拓撲關(guān)系自動(dòng)生成->配置自動(dòng)下發(fā)->自動(dòng)驗收。整個(gè)運維流程也已由初期的傳統IT管理演進(jìn)到基于ITIL的服務(wù)管理流程(如圖2所示)。
圖2.騰訊基于ITIL的運維服務(wù)管理
2.阿里運維系統:基于CMDB的基礎設施管理+邏輯分層建模
CMDB(Configuration Management Database) 配置管理數據庫(以下簡(jiǎn)稱(chēng):CMDB),將IT基礎架構的所有組件存儲為配置項,維護每個(gè)配置項的詳細數據,維護各配置項之間的關(guān)系數據以及事件、變更歷史等管理數據。通過(guò)將這些數據整合到中央存儲庫,CMDB可以為企業(yè)了解和管理數據類(lèi)型之間的因果關(guān)系提供保障。同時(shí),CMDB與所有服務(wù)支持和服務(wù)交付流程都緊密相聯(lián),支持這些流程的運轉、發(fā)揮配置信息的價(jià)值,同時(shí)依賴(lài)于相關(guān)流程保證數據的準確性?蓪(shí)現IT服務(wù)支持、IT運維以及IT資產(chǎn)管理內部及三者之間的流程整合與自動(dòng)化。在實(shí)際的項目中,CMDB常常被認為是構建其它ITIL流程的基礎而優(yōu)先考慮,ITIL項目的成敗與是否成功建立CMDB有非常大的關(guān)系。
3.百度自動(dòng)化運維:部署+監控+業(yè)務(wù)系統+關(guān)聯(lián)關(guān)系
百度主要面臨的運維挑戰包括:突發(fā)的流量變化、復雜環(huán)境的關(guān)聯(lián)影響、快速迭代的開(kāi)發(fā)模式以及運維效率、運維質(zhì)量、成本之間的平衡等等。百度的運維團隊認為,當服務(wù)器規模達到上萬(wàn)臺時(shí),運維視角需要轉為以服務(wù)為粒度。萬(wàn)臺并不等于"百臺*100";機器的運行狀態(tài),也不再代表業(yè)務(wù)的工作狀態(tài);運維部門(mén)為研發(fā)提供前置服務(wù),服務(wù)與服務(wù)之間關(guān)系也隨著(zhù)集群的擴大逐漸復雜起來(lái)。
圖3.百度自動(dòng)化運維技術(shù)框架
百度的自動(dòng)化運維技術(shù)框架,劃分為部署、監控、業(yè)務(wù)系統、關(guān)聯(lián)關(guān)系四大部分,整個(gè)框架更多突出了業(yè)務(wù)與IT基礎設施的融合,注重"關(guān)聯(lián)關(guān)系"的聯(lián)動(dòng)。所謂關(guān)聯(lián)關(guān)系,主要是指任務(wù)與任務(wù)之間的時(shí)序依賴(lài)關(guān)系、任務(wù)與任務(wù)之間的數據依賴(lài)關(guān)系、任務(wù)與資源之間的引用依賴(lài)關(guān)系,分別對應到任務(wù)調度、數據傳輸、資源定位的服務(wù)流程中,形成了多條服務(wù)鏈。
關(guān)聯(lián)關(guān)系的運維與業(yè)務(wù)較強相關(guān),需要有一套系統能夠理清楚關(guān)系的全貌,從而在復雜的服務(wù)鏈上,定位運行所在的環(huán)節,并在發(fā)生故障時(shí)預估影響范圍,及時(shí)定位并通知相應的部門(mén)。在這樣的一套系統中,自動(dòng)化監控系統非常重要。百度的技術(shù)監控框架,主要通過(guò)數據采集、服務(wù)探測、第三方進(jìn)行信息收集,進(jìn)行監控評估后交給數據處理和報警聯(lián)動(dòng)模塊處理,通過(guò)API接口進(jìn)行功能擴充(如圖4所示)。
圖4.百度自動(dòng)化技術(shù)監控框架
其實(shí)無(wú)論是BAT等互聯(lián)網(wǎng)企業(yè)還是其他行業(yè)的企業(yè),在IT建設中都會(huì )遵循IT基礎架構庫(ITIL)或ISO20000服務(wù)管理的最佳實(shí)踐,采用自動(dòng)化IT管理解決方案以實(shí)現重要的業(yè)務(wù)目標,如減少服務(wù)中斷、降低運營(yíng)成本、提高IT效率等等。隨著(zhù)ISO20000、ITIL v3.0的發(fā)布和推廣,兩者已經(jīng)成為事實(shí)上的某種標準。在當今企業(yè)IT管理領(lǐng)域,對兩個(gè)標準有著(zhù)很迫切的需求。特別是ISO20000的認證要求,已經(jīng)成為企業(yè)越來(lái)越普遍的需求 。ITIL v3.0包含了對IT運維從戰略、設計到轉換、運營(yíng)、改進(jìn)的服務(wù)全生命周期的管理,相關(guān)方案往往覆蓋了多個(gè)領(lǐng)域和多個(gè)產(chǎn)品,規劃實(shí)施和工具的選擇會(huì )比較糾結。如果選擇開(kāi)源的工具,從CMDB開(kāi)始就會(huì )遇到很多的開(kāi)發(fā)工作,對于很多注重成本收益比的企業(yè),可以參考,但由于無(wú)法保證性能與效果并不一定適用。因此,成熟的商業(yè)方案會(huì )是更好的選擇。
最新的iMC V7版本,圍繞資源、用戶(hù)、業(yè)務(wù)三個(gè)維度進(jìn)行創(chuàng )新,發(fā)布了SOM服務(wù)運維管理(基于ISO20000、ITIL標準)等組件,增加了對服務(wù)器的管理,能很好的滿(mǎn)足更多互聯(lián)網(wǎng)化的場(chǎng)景需求。
通常認為,一個(gè)高效、好用的配置管理數據庫一般需要滿(mǎn)足6條重要標準,即聯(lián)合、靈活的信息模型定義、標準合規、支持內置策略、自動(dòng)發(fā)現和嚴格的訪(fǎng)問(wèn)控制。企業(yè)IT基礎架構的元素類(lèi)型、管理數據的類(lèi)型往往有較多種,如網(wǎng)絡(luò )設備、服務(wù)器、虛擬機等,因此對于多種信息的存儲需要有合適的聯(lián)合的方法。雖然 iMC智能管理平臺在網(wǎng)絡(luò )設備、服務(wù)器設備等方面已經(jīng)能夠較好的的滿(mǎn)足,但是隨著(zhù)服務(wù)器虛擬化技術(shù)的發(fā)展,虛擬機正越來(lái)越多的成為IT基礎架構的一大元素。因此,針對這一需求華三通信基于CAS CVM虛擬化管理系統,對服務(wù)器CPU、內存、磁盤(pán)I/O、網(wǎng)絡(luò )I/O等更細節的重要資源以及虛擬機資源進(jìn)行全面的管理。與BAT不同,華三通信的網(wǎng)管軟件面向全行業(yè),目前雖然沒(méi)有對域名管理等特殊資源的管理,但是能夠通過(guò)API接口等方式與特有系統進(jìn)行聯(lián)動(dòng),進(jìn)而滿(mǎn)足定制化運維的需求,尤其是在互聯(lián)網(wǎng)化的場(chǎng)景中,針對不同的業(yè)務(wù)需求,可以實(shí)現很多定制化的對接需求,例如,iMC+WSM組件與國內某大互聯(lián)網(wǎng)公司自有Portal系統進(jìn)行了對接,打通了iMC工具與用戶(hù)自有運維平臺,很好的實(shí)現了架構融和。另外,與阿里的邏輯分層建模相似,H3C "iMC+CAS"軟件體系在上層也做了很多的邏輯抽象、分層,形成了諸多的模塊,也即是大家看到的各種組件。
三、網(wǎng)絡(luò )自動(dòng)化運維體系
"哪怕是一個(gè)只有基礎技術(shù)能力的陌生人,也能做專(zhuān)業(yè)的IT運維;哪怕是一個(gè)只有初中學(xué)歷的運維人員,也能夠帶隊完成中小型機房節點(diǎn)的建設,并負責數百至上千臺服務(wù)器的維護管理工作"--這是一些公司對自己IT運行維護水平的一個(gè)整體評價(jià)?此朴行┛浯蟮南右,但實(shí)際上依托于強大的IT運維系統,國內已經(jīng)有不少互聯(lián)網(wǎng)公司能夠達到或者接近這一標準。
這些企業(yè)都經(jīng)歷了運維發(fā)展過(guò)程中的各個(gè)階段,運維部門(mén)曾經(jīng)也是被動(dòng)的、孤立的、分散的"救火隊"式的團隊,在后來(lái)的發(fā)展過(guò)程中,IT系統架構逐漸走向標準化、模型化,運維部門(mén)建立了完整的設備、系統資源管理數據庫和知識庫,包括所有硬件的配置情況、所有軟件的參數配置,購買(mǎi)日期、維修記錄,運維風(fēng)險看板等等,通過(guò)網(wǎng)管軟件,進(jìn)行系統遠程自動(dòng)化監控。運維過(guò)程中系統會(huì )收集所有的問(wèn)題、事件、變更、服務(wù)級別等信息并錄入管理系統,不斷完善進(jìn)而形成一套趨向自動(dòng)化的運作支撐機制。按照云計算的體系架構,在這樣一套系統中,主要的IT資源包括計算、存儲、網(wǎng)絡(luò )資源,近些年隨著(zhù)網(wǎng)絡(luò )設備廠(chǎng)商的推動(dòng),網(wǎng)絡(luò )設備管理方面的自動(dòng)化技術(shù)也得到十足的發(fā)展。
總結來(lái)看,一個(gè)企業(yè)在進(jìn)行互聯(lián)網(wǎng)化的建設初期,就需要考慮到隨著(zhù)用戶(hù)訪(fǎng)問(wèn)量的增加,資源如何進(jìn)行擴展。具體可以細化為規劃、建設、管理、監控、運維五個(gè)方面。
1.規劃模型化
為了確保后續業(yè)務(wù)能夠平滑擴容,網(wǎng)管系統能夠順利跟進(jìn),互聯(lián)網(wǎng)企業(yè)一般在早期整體系統架構設計時(shí)便充分考慮到標準化、模型化,新增業(yè)務(wù)資源就好比點(diǎn)快餐,隨需隨取。
標準化:一是采用標準協(xié)議和技術(shù)搭建,擴展性好,使用的產(chǎn)品較統一,便于管理;二是采用數據中心級設備,保證可靠性、靈活性,充分考慮業(yè)務(wù)系統對低時(shí)延的要求。
模型化:基于業(yè)務(wù)需求設計網(wǎng)絡(luò )架構模型,驗證后形成基線(xiàn),可批量復制,統一管理,也適宜通過(guò)自動(dòng)化提高部署效率、網(wǎng)管效率。
圖5.常見(jiàn)互聯(lián)網(wǎng)IDC架構
2.建設自動(dòng)化
互聯(lián)網(wǎng)IT基礎設施具備批量復制能力之后,可以通過(guò)自動(dòng)化技術(shù),提高上線(xiàn)效率。在新節點(diǎn)建設過(guò)程中,3~5人的小型團隊即可完成機房上線(xiàn)工作。例如某互聯(lián)網(wǎng)公司某次針對海外緊急業(yè)務(wù)需求,一共派遣了2名工程師到現場(chǎng)進(jìn)行設備安裝部署和基本配置,而后通過(guò)互聯(lián)網(wǎng)鏈路,設備從總部管理系統中自動(dòng)獲取配置和設備版本,下載業(yè)務(wù)系統,完成設備安裝到機房上線(xiàn)不超過(guò)1周時(shí)間。
要達到自動(dòng)化運維的目標,建設過(guò)程中需要重點(diǎn)考慮批量復制和自動(dòng)化上線(xiàn)兩個(gè)方面(如圖6所示)。
批量復制:根據業(yè)務(wù)需要,梳理技術(shù)關(guān)注點(diǎn),設計網(wǎng)絡(luò )模型,進(jìn)行充分測試和試點(diǎn),輸出軟、硬件配置模板,進(jìn)而可進(jìn)行批量部署。
自動(dòng)化上線(xiàn):充分利用TR069、Autoconfig等技術(shù),采用零配置功能批量自動(dòng)化上線(xiàn)設備,效率能夠得到成倍提升。
圖6.批量配置與自動(dòng)化上線(xiàn)
○ Autoconfig與TR069的主要有三個(gè)區別:
○ Autoconfig適用于零配置部署,后續一般需要專(zhuān)門(mén)的網(wǎng)管系統;TR069是一套完整的管理方案,不僅在初始零配置時(shí)有用,后續還可以一直對設備進(jìn)行監控和配置管理、軟件升級等。
○ Autoconfig使用DHCP與TFTP--簡(jiǎn)單,TR069零配置使用DHCP與HTTP--復雜,需要專(zhuān)門(mén)的ACS服務(wù)器。
安全性:TR069更安全,可以基于HTTPS/SSL。
而H3C iMC BIMS實(shí)現了TR-069協(xié)議中的ACS(自動(dòng)配置服務(wù)器)功能,通過(guò)TR-069協(xié)議對CPE設備進(jìn)行遠程管理,BIMS具有零配置的能力和優(yōu)勢,有靈活的組網(wǎng)能力,可管理DHCP設備和NAT后的私網(wǎng)設備。BIMS的工作流程如圖7所示。
圖7.H3C iMC BIMS工作流程
3.管理智能化
對于網(wǎng)管團隊而言,需要向其他團隊提供便利的工具以進(jìn)行信息查詢(xún)、告警管理等操作。早期的網(wǎng)管工具,往往離不開(kāi)命令行操作,且對于批量處理的操作支持性并不好,如網(wǎng)絡(luò )設備的MIB庫相比新的智能化技術(shù)Netconf,好比C和C++,顯得笨拙許多。因此使用的角度考慮,圖形化、智能化的管理工具,往往是比較受歡迎。
智能化:使用新技術(shù),提升傳統MIB式管理方式的處理效率,引入嵌入式自動(dòng)化架構,實(shí)現智能終端APP化管理(如圖8所示)。
圖8.消息、事件處理智能化
● Netconf技術(shù)
目前網(wǎng)絡(luò )管理協(xié)議主要是SNMP和Netconf。SNMP采用UDP,實(shí)現簡(jiǎn)單,技術(shù)成熟,但是在安全可靠性、管理操作效率、交互操作和復雜操作實(shí)現上還不能滿(mǎn)足管理需求。Netconf采用XML作為配置數據和協(xié)議消息內容的數據編碼方式,采用基于TCP的SSHv2進(jìn)行傳送,以RPC方式實(shí)現操作和控制。XML可以表達復雜、具有內在邏輯、模型化的管理對象,如端口、協(xié)議、業(yè)務(wù)以及之間的關(guān)系等,提高了操作效率和對象標準化;采用SSHv2傳送方式,可靠性、安全性、交互性較好。二者主要對比差異如表1所示。
表1 網(wǎng)管技術(shù)的對比
● EAA嵌入式自動(dòng)化架構
EAA自動(dòng)化架構的執行包括如下三個(gè)步驟。
○ 定義感興趣的事件源,事件源是系統中的軟件或者硬件模塊,如:特定的命令、日志、TRAP告警等。
○ 定義EAA監控策略,比如保存設備配置、主備切換、重啟進(jìn)程等。
○ 當監控到定義的事件源發(fā)生后,觸發(fā)執行EAA監控策略。
4.監控平臺化
利用基本監控工具如Show、Display、SNMP、Syslog等,制作平臺化監控集成環(huán)境,實(shí)現全方位監控(如圖所示)。
【互聯(lián)網(wǎng)時(shí)代的網(wǎng)絡(luò )自動(dòng)化運維】相關(guān)文章:
運維項目管理流程06-08
企業(yè)IT運維管理選型建議03-20
下一代網(wǎng)絡(luò )運維管理技術(shù)的發(fā)展趨勢03-20
互聯(lián)網(wǎng)時(shí)代的營(yíng)銷(xiāo)銳問(wèn)03-19
互聯(lián)網(wǎng)+時(shí)代下電影該何去何從03-06
小品牌的互聯(lián)網(wǎng)大時(shí)代03-19
IT運維管理包含的六大趨勢03-20