宇塵網(wǎng)絡(luò)工程師大大實(shí)在忙,這期小編就科普一篇機(jī)房運(yùn)維人員如何著手運(yùn)維工作。一來讓入行的小白們了解運(yùn)維主要干什么,二來希望有志成為運(yùn)維工程師的小伙伴吸收相關(guān)的技術(shù)經(jīng)驗(yàn),做好入行準(zhǔn)備。
首先拜機(jī)柜,有問題不可怕,但是千萬不要總是出問題
閑話不說,讓我們?yōu)t瀟灑灑的長知識吧:
數(shù)據(jù)中心運(yùn)維的工作主要是對數(shù)據(jù)中心各項(xiàng)管理對象進(jìn)行系統(tǒng)的計(jì)劃、組織、協(xié)調(diào)與控制,是信息系統(tǒng)服務(wù)有關(guān)各項(xiàng)管理工作的總稱,具體包括對機(jī)房環(huán)境基礎(chǔ)設(shè)施部分的維護(hù),系統(tǒng)與數(shù)據(jù)維護(hù),管理工具的使用,人員的管理等方面。
一、善于做好工程文檔記錄
數(shù)據(jù)中心的主機(jī)安裝,配置優(yōu)化、組建網(wǎng)絡(luò)、設(shè)備互聯(lián)等都需要通過文檔的形式進(jìn)行記錄,以便出現(xiàn)故障能夠快速排查。同時以記錄文檔的形式進(jìn)行工作交接更謹(jǐn)慎。還有通過日積月累的文檔記錄對于工作經(jīng)驗(yàn)來說也是一種沉淀,對優(yōu)化數(shù)據(jù)中心的運(yùn)維能力也有了數(shù)據(jù)支撐。文檔主要分四類:一是數(shù)據(jù)中心內(nèi)部架構(gòu)文檔,比如:組網(wǎng)介紹、設(shè)備互連關(guān)系、IP分配情況、空調(diào)系統(tǒng)、機(jī)電系統(tǒng)、布線系統(tǒng)等的基本狀況;二是數(shù)據(jù)中心管理文檔,比如:機(jī)房管理制度、機(jī)房值班和交接制度、機(jī)房巡檢制度、設(shè)備操作規(guī)范制度,安全防護(hù)制度等等。三是數(shù)據(jù)中心改造,優(yōu)化工程文檔。比如:升級指導(dǎo)書、網(wǎng)絡(luò)變更計(jì)劃書、應(yīng)急措施指導(dǎo)、軟件回退方案等等。四是數(shù)據(jù)中心運(yùn)維的經(jīng)驗(yàn)文檔。比如:網(wǎng)絡(luò)中斷問題分析、現(xiàn)有機(jī)房環(huán)境評估、如果進(jìn)行業(yè)務(wù)不丟包切換等等。這些文檔可以給初入行業(yè)的新人一個可靠的參考指南,迅速上手。
二、業(yè)務(wù)備份判斷
數(shù)據(jù)中心需要24小時連續(xù)運(yùn)行,除了一些外力因素,譬如惡意攻擊等行為導(dǎo)致的服務(wù)器故障外,還有數(shù)據(jù)中心內(nèi)部的一些不可抗因素,對數(shù)據(jù)業(yè)務(wù)的備份水平不僅是對企業(yè)用戶的一個保障,也是一個數(shù)據(jù)中心實(shí)力的體現(xiàn)。小到服務(wù)器、網(wǎng)絡(luò)到存儲,大到數(shù)據(jù)中心,都需要有備份,包含軟件的備份和硬件的備份。通過備份,可以在數(shù)據(jù)中心運(yùn)行出問題時,及時做業(yè)務(wù)調(diào)整,確保業(yè)務(wù)無中斷或者短時中斷。如今的數(shù)據(jù)中心可以做到多數(shù)據(jù)中心相互備份,以防以數(shù)據(jù)中心為單位的整體故障出現(xiàn)時業(yè)務(wù)中斷。一般這種情況是基本不可能出現(xiàn)的。當(dāng)然,數(shù)據(jù)的備份要消耗相當(dāng)?shù)膬Υ婵臻g和增加管理難度。所以如何對業(yè)務(wù)備份進(jìn)行判斷,使備份行為更加有序是每個運(yùn)維工程師需要思考和提升的。
三、學(xué)習(xí)在線監(jiān)測數(shù)據(jù)
機(jī)房內(nèi)的各個關(guān)鍵設(shè)備和關(guān)鍵設(shè)備所需要的環(huán)境因素共同構(gòu)成了機(jī)房的整個生態(tài)系統(tǒng),各個系統(tǒng)的協(xié)同工作才能保障整個生態(tài)系統(tǒng)的穩(wěn)定、有序運(yùn)轉(zhuǎn)。而傳統(tǒng)的數(shù)據(jù)中心會為各個設(shè)備配備專人進(jìn)行值守,通過定期巡查和手抄記錄來對數(shù)據(jù)中心各設(shè)備的運(yùn)轉(zhuǎn)情況進(jìn)行監(jiān)控。如此的管理方式,一是加重了數(shù)據(jù)中心的管理成本。二是技術(shù)人員并不能做到百分百的精準(zhǔn)管控,對出現(xiàn)故障的排查及時性沒有太大用處。同時機(jī)房重地,人員的頻繁流動,對機(jī)房生態(tài)環(huán)境的維護(hù)有害而無利。把UPS、配電柜、散熱空調(diào)、煙感、恒濕度、門禁系統(tǒng)通過數(shù)據(jù)可視化來實(shí)現(xiàn)集中監(jiān)控。在線監(jiān)測是確保數(shù)據(jù)中心無故障運(yùn)行的保證,有效的在線監(jiān)測可以減少數(shù)據(jù)中心故障發(fā)生對業(yè)務(wù)造成影響。
四、周期性的機(jī)房巡檢
運(yùn)維人員還需要進(jìn)行周期巡檢,包括對各種設(shè)備的檢查,環(huán)境的檢查,電源、空調(diào)設(shè)備的檢查,填寫日常巡檢記錄表,檢修記錄,作業(yè)操作表等等。通過以往記錄的數(shù)據(jù)進(jìn)行綜合分析,一旦某些數(shù)據(jù)有波動或者異常,應(yīng)該及時采取有效措施,避免隱患引發(fā)故障。通過周期巡檢也可以對整個數(shù)據(jù)中心有個全面的了解,一旦要進(jìn)行系統(tǒng)改造或者擴(kuò)容等工作,有了前期這些巡檢數(shù)據(jù)參考,制定的改造或擴(kuò)容方案才更有針對性。千萬不要以為周期巡檢只是記錄一些設(shè)備運(yùn)行的基本參數(shù),通過這些參數(shù)可以看到整個數(shù)據(jù)中心的運(yùn)行狀態(tài)。對于一個剛從事運(yùn)維的新手來說,通過周期巡檢可以迅速了解到數(shù)據(jù)中心的各個環(huán)節(jié),獨(dú)立展開維護(hù)工作。
總的來說,以上四個方面是運(yùn)維人員主要的工作內(nèi)容,一個數(shù)據(jù)中心長期穩(wěn)定運(yùn)行也有賴于這四部分工作完成的水平。當(dāng)然,數(shù)據(jù)中心運(yùn)維好了,數(shù)據(jù)中心有了良性的收益成果。小編打賭,年終獎你最多。