- 相關(guān)推薦
網(wǎng)絡(luò )故障管理何去何從
網(wǎng)絡(luò )性能取決于連接用戶(hù)到應用的網(wǎng)絡(luò )的類(lèi)型和容量。本地用戶(hù)可能通過(guò)以太網(wǎng)或無(wú)線(xiàn)網(wǎng)絡(luò )連接,遠程用戶(hù)則通過(guò)各種WAN技術(shù)連接,包括公共互聯(lián)網(wǎng)或蜂窩網(wǎng)絡(luò )等。每種連接都需要專(zhuān)門(mén)的方法來(lái)維持所需的性能。任何這些位置(應用或網(wǎng)絡(luò ))的故障都可能降低客戶(hù)滿(mǎn)意度。
云故障檢測
很多拓撲結構和設計(其中包括虛擬化服務(wù)器、多個(gè)虛擬局域網(wǎng)和覆蓋網(wǎng)絡(luò ))讓云故障檢測和網(wǎng)絡(luò )故障管理變得更加復雜。一個(gè)租戶(hù)的應用出現性能問(wèn)題可能與影響另一個(gè)租戶(hù)的問(wèn)題并沒(méi)有什么關(guān)聯(lián),但它們可能來(lái)自同一來(lái)源。每個(gè)租戶(hù)的應用可能在相同超載或配置錯誤的服務(wù)器上執行,或者兩個(gè)租戶(hù)的覆蓋網(wǎng)絡(luò )通過(guò)相同超載或故障鏈接來(lái)路由。
海量的服務(wù)器、網(wǎng)絡(luò )組件和鏈接是故障的一大來(lái)源,F代硬件極為可靠,盡管每個(gè)組件有多年故障平均時(shí)間,但對于數千獨立的設備來(lái)說(shuō),依舊會(huì )有硬件故障發(fā)生。
配置錯誤是另一個(gè)問(wèn)題來(lái)源,該問(wèn)題可由網(wǎng)絡(luò )故障管理進(jìn)行跟蹤。服務(wù)器和網(wǎng)絡(luò )設備不斷添加、升級或取代。大型云計算通常包括來(lái)自不同供應商的組件,甚至來(lái)自同一供應商的相同組件也可能運行著(zhù)不同的軟件版本。在這種環(huán)境中,任何變更都可能導致錯誤的出現,同時(shí),對一個(gè)組件的改變還可能影響到其他組件。
簡(jiǎn)單地檢測和報告錯誤已經(jīng)不夠,每個(gè)錯誤可能導致幾十份錯誤報告。鏈路故障會(huì )在鏈路兩端的交換機生成硬件故障指示,并且每次鏈路故障和恢復時(shí)都會(huì )發(fā)出新報告。2層和3層網(wǎng)絡(luò )協(xié)議路由會(huì )改變,在備用路由流量水平接近最大數值時(shí)鏈路流量監控也會(huì )變化。同時(shí),應用性能監控器會(huì )從通過(guò)該鏈路路由流量的每個(gè)應用報告問(wèn)題。
故障相關(guān)性及其在網(wǎng)絡(luò )中的作用
沒(méi)有哪個(gè)網(wǎng)絡(luò )管理員能夠整理完單一故障生成的海量報告,并快速發(fā)現其根本原因。對此,故障相關(guān)性軟件很重要,這是每個(gè)主流系統供應商網(wǎng)絡(luò )管理產(chǎn)品的重要組成部分。
故障相關(guān)性產(chǎn)品利用各種機制來(lái)發(fā)現問(wèn)題,其中包括SNMP trap、TL1消息、應用日志和SYSLOG條目。SNMP和特定產(chǎn)品輪詢(xún)監控器運行在服務(wù)器、交換機和鏈路。相關(guān)性工具還可監控設備問(wèn)題、電源電壓和磁盤(pán)可用空間來(lái)預測未來(lái)的問(wèn)題。
網(wǎng)絡(luò )故障管理軟件必須提供對網(wǎng)絡(luò )準確的且最新的視圖。該軟件必須保持更新(無(wú)論是通過(guò)手動(dòng)或者通過(guò)網(wǎng)絡(luò )映射),以追蹤添加的、移除的或更新的組件。它必須維護每種組件的內部型號,介紹其配置和功能,并包含網(wǎng)絡(luò )運營(yíng)政策的描述。當添加應用時(shí),還必須更新服務(wù)水平協(xié)議(SLA)等信息。
此外,故障相關(guān)性軟件必須與云編排軟件來(lái)交互,追蹤正在運行的應用、它們在哪些服務(wù)器運行和VLAN以及與每個(gè)租戶(hù)相關(guān)的覆蓋網(wǎng)絡(luò )。網(wǎng)絡(luò )故障管理軟件還必須不斷根據SLAN監控應用性能水平。
當出現問(wèn)題時(shí),相關(guān)性軟件會(huì )獲取所有接收到的故障指示,并利用有關(guān)的網(wǎng)絡(luò )拓撲以及在故障出現前數據如何移動(dòng)的信息來(lái)確定根本原因,并為網(wǎng)絡(luò )管理人員提供簡(jiǎn)要的報告。
SDN網(wǎng)絡(luò )
云計算與SDN技術(shù)管理的數據中心面臨著(zhù)與依靠傳統技術(shù)的數據中心相同的潛在問(wèn)題。它們都需要故障相關(guān)性軟件,但SDN架構需要將相關(guān)性軟件內置到網(wǎng)絡(luò )控制器或與其緊密連接。
這種差異的原因是Spanning Tree和Open Shortest Path First等傳統協(xié)議在網(wǎng)絡(luò )設備內部部署。它們在鏈路或端口問(wèn)題阻止流量時(shí)根據需要重新路由流量。通過(guò)SDN,所有路由都由控制器來(lái)確定,故障相關(guān)性軟件必須告知控制器問(wèn)題的類(lèi)型,以便它能夠確定備用路由。
OpenFlow兼容的白盒交換機支持各種供應商的操作系統,每個(gè)都有自己的檢測和故障報告方法。Big Switch和Pica8的操作系統都支持SNMP,但Big Switch的控制器和交換機操作系統利用OpenFlow消息來(lái)與設備進(jìn)行通信。相關(guān)性軟件通過(guò)接口與控制器通信,從設備處接收消息,并輪詢(xún)其狀態(tài)。
無(wú)線(xiàn)網(wǎng)絡(luò )和廣域網(wǎng)
Wi-Fi依靠一組專(zhuān)門(mén)的工具來(lái)診斷問(wèn)題。Wi-Fi連接可受到很多問(wèn)題的影響,例如信號干擾、墻壁或阻止信號的固態(tài)物體,以及安全漏洞,F在有各種故障排除產(chǎn)品,包括免費軟件和專(zhuān)業(yè)的軟件產(chǎn)品。還需要專(zhuān)門(mén)的硬件產(chǎn)品來(lái)診斷某些類(lèi)型的問(wèn)題。
在網(wǎng)絡(luò )服務(wù)提供商擁有和管理的WAN連接的情況下,關(guān)鍵參數是吞吐量和往返時(shí)間,這方面也有免費和專(zhuān)業(yè)產(chǎn)品可供選擇。
滿(mǎn)足最終用戶(hù)性能要求需要應用性能的各方面都正常運行。在出現問(wèn)題時(shí),網(wǎng)絡(luò )故障管理和故障檢測產(chǎn)品必須能夠查明原因,使它們可快速被修復以及恢復正常運作。
【網(wǎng)絡(luò )故障管理何去何從】相關(guān)文章:
網(wǎng)卡引起的網(wǎng)絡(luò )故障01-05
常見(jiàn)的網(wǎng)絡(luò )故障原因08-20
VR電競該何去何從08-04
常見(jiàn)的網(wǎng)絡(luò )故障分析與處理01-07
Linux下網(wǎng)絡(luò )故障的診斷12-28
波音737告別中國將何去何從11-23