宇塵網(wǎng)絡工程師大大實在忙,這期小編就科普一篇機房運維人員如何著手運維工作。一來讓入行的小白們了解運維主要干什么,二來希望有志成為運維工程師的小伙伴吸收相關(guān)的技術(shù)經(jīng)驗,做好入行準備。
首先拜機柜,有問題不可怕,但是千萬不要總是出問題
閑話不說,讓我們?yōu)t瀟灑灑的長知識吧:
數(shù)據(jù)中心運維的工作主要是對數(shù)據(jù)中心各項管理對象進行系統(tǒng)的計劃、組織、協(xié)調(diào)與控制,是信息系統(tǒng)服務有關(guān)各項管理工作的總稱,具體包括對機房環(huán)境基礎(chǔ)設(shè)施部分的維護,系統(tǒng)與數(shù)據(jù)維護,管理工具的使用,人員的管理等方面。
一、善于做好工程文檔記錄
數(shù)據(jù)中心的主機安裝,配置優(yōu)化、組建網(wǎng)絡、設(shè)備互聯(lián)等都需要通過文檔的形式進行記錄,以便出現(xiàn)故障能夠快速排查。同時以記錄文檔的形式進行工作交接更謹慎。還有通過日積月累的文檔記錄對于工作經(jīng)驗來說也是一種沉淀,對優(yōu)化數(shù)據(jù)中心的運維能力也有了數(shù)據(jù)支撐。文檔主要分四類:一是數(shù)據(jù)中心內(nèi)部架構(gòu)文檔,比如:組網(wǎng)介紹、設(shè)備互連關(guān)系、IP分配情況、空調(diào)系統(tǒng)、機電系統(tǒng)、布線系統(tǒng)等的基本狀況;二是數(shù)據(jù)中心管理文檔,比如:機房管理制度、機房值班和交接制度、機房巡檢制度、設(shè)備操作規(guī)范制度,安全防護制度等等。三是數(shù)據(jù)中心改造,優(yōu)化工程文檔。比如:升級指導書、網(wǎng)絡變更計劃書、應急措施指導、軟件回退方案等等。四是數(shù)據(jù)中心運維的經(jīng)驗文檔。比如:網(wǎng)絡中斷問題分析、現(xiàn)有機房環(huán)境評估、如果進行業(yè)務不丟包切換等等。這些文檔可以給初入行業(yè)的新人一個可靠的參考指南,迅速上手。
二、業(yè)務備份判斷
數(shù)據(jù)中心需要24小時連續(xù)運行,除了一些外力因素,譬如惡意攻擊等行為導致的服務器故障外,還有數(shù)據(jù)中心內(nèi)部的一些不可抗因素,對數(shù)據(jù)業(yè)務的備份水平不僅是對企業(yè)用戶的一個保障,也是一個數(shù)據(jù)中心實力的體現(xiàn)。小到服務器、網(wǎng)絡到存儲,大到數(shù)據(jù)中心,都需要有備份,包含軟件的備份和硬件的備份。通過備份,可以在數(shù)據(jù)中心運行出問題時,及時做業(yè)務調(diào)整,確保業(yè)務無中斷或者短時中斷。如今的數(shù)據(jù)中心可以做到多數(shù)據(jù)中心相互備份,以防以數(shù)據(jù)中心為單位的整體故障出現(xiàn)時業(yè)務中斷。一般這種情況是基本不可能出現(xiàn)的。當然,數(shù)據(jù)的備份要消耗相當?shù)膬Υ婵臻g和增加管理難度。所以如何對業(yè)務備份進行判斷,使備份行為更加有序是每個運維工程師需要思考和提升的。
三、學習在線監(jiān)測數(shù)據(jù)
機房內(nèi)的各個關(guān)鍵設(shè)備和關(guān)鍵設(shè)備所需要的環(huán)境因素共同構(gòu)成了機房的整個生態(tài)系統(tǒng),各個系統(tǒng)的協(xié)同工作才能保障整個生態(tài)系統(tǒng)的穩(wěn)定、有序運轉(zhuǎn)。而傳統(tǒng)的數(shù)據(jù)中心會為各個設(shè)備配備專人進行值守,通過定期巡查和手抄記錄來對數(shù)據(jù)中心各設(shè)備的運轉(zhuǎn)情況進行監(jiān)控。如此的管理方式,一是加重了數(shù)據(jù)中心的管理成本。二是技術(shù)人員并不能做到百分百的精準管控,對出現(xiàn)故障的排查及時性沒有太大用處。同時機房重地,人員的頻繁流動,對機房生態(tài)環(huán)境的維護有害而無利。把UPS、配電柜、散熱空調(diào)、煙感、恒濕度、門禁系統(tǒng)通過數(shù)據(jù)可視化來實現(xiàn)集中監(jiān)控。在線監(jiān)測是確保數(shù)據(jù)中心無故障運行的保證,有效的在線監(jiān)測可以減少數(shù)據(jù)中心故障發(fā)生對業(yè)務造成影響。
四、周期性的機房巡檢
運維人員還需要進行周期巡檢,包括對各種設(shè)備的檢查,環(huán)境的檢查,電源、空調(diào)設(shè)備的檢查,填寫日常巡檢記錄表,檢修記錄,作業(yè)操作表等等。通過以往記錄的數(shù)據(jù)進行綜合分析,一旦某些數(shù)據(jù)有波動或者異常,應該及時采取有效措施,避免隱患引發(fā)故障。通過周期巡檢也可以對整個數(shù)據(jù)中心有個全面的了解,一旦要進行系統(tǒng)改造或者擴容等工作,有了前期這些巡檢數(shù)據(jù)參考,制定的改造或擴容方案才更有針對性。千萬不要以為周期巡檢只是記錄一些設(shè)備運行的基本參數(shù),通過這些參數(shù)可以看到整個數(shù)據(jù)中心的運行狀態(tài)。對于一個剛從事運維的新手來說,通過周期巡檢可以迅速了解到數(shù)據(jù)中心的各個環(huán)節(jié),獨立展開維護工作。
總的來說,以上四個方面是運維人員主要的工作內(nèi)容,一個數(shù)據(jù)中心長期穩(wěn)定運行也有賴于這四部分工作完成的水平。當然,數(shù)據(jù)中心運維好了,數(shù)據(jù)中心有了良性的收益成果。小編打賭,年終獎你最多。