IT運維(IT Ops)人員在組織中扮演著三個關(guān)鍵性角色。他們可以是建筑師、建設(shè)者以及出現(xiàn)問題時為你們挽救大局的英雄。他們設(shè)想和幫助規(guī)劃數(shù)字環(huán)境,建立這些環(huán)境運行的基礎(chǔ)設(shè)施,并在問題變?yōu)槲C之前(和之后)解決這些問題。
正如他們在Geico廣告中所說的那樣,這就是他們所做的。
今天,我想把重點放在IT運維工作的突破性/固性上,特別是預(yù)防IT網(wǎng)絡(luò)危機并在發(fā)生危機時應(yīng)對它們的一些瑣碎的事情。基于過去15年處理IT運維變更的經(jīng)驗,個人覺得IT專業(yè)人員需要注意以下重要事項,以避免網(wǎng)絡(luò)危機,或是在危機已經(jīng)到來時解決危機。
什么發(fā)生了變化?—— 很多的(甚至是大部分的)危機是由于環(huán)境的變化而產(chǎn)生的。在診斷問題時,了解一下最近發(fā)生的其他環(huán)境變化也許會對你有所幫助。如果你不能找到很明顯的直接原因,請花點時間來詢問: 最近發(fā)生的可能導(dǎo)致該問題的原因是什么?這在解決遠程問題時特別有用,因為你不可能看到發(fā)生的所有事情。
例如,如果服務(wù)器停止響應(yīng),首先要檢查服務(wù)器,確保服務(wù)器沒有掛起或宕機,硬盤空間足夠并已連接到網(wǎng)絡(luò)等。如果你無法在服務(wù)器本身找到原因,那么是時候擴大搜索范圍并查看其他在近期發(fā)生的變化了。
在故障期間,網(wǎng)絡(luò)連接往往會揭露自身問題。檢查你的項目管理系統(tǒng)或更改日志,以查看網(wǎng)絡(luò)上最近發(fā)生了哪些變化。可能是由于配置在錯誤的路由器、交換機或防火墻后面,導(dǎo)致你無法訪問服務(wù)器。也可能是有人意外地刪除了服務(wù)器的DNS記錄或更改了路由路徑。問題可能發(fā)生在其他地方,你看到的只是癥狀,而不是導(dǎo)致問題發(fā)生的根源。
有計劃地避免附帶損害 —— 當(dāng)你在一個地方進行變更時,卻在另一個地方發(fā)生了意想不到的問題,沒有比這更令人沮喪的了。一個附帶損害的例子可能是置換出一臺服務(wù)器,結(jié)果卻發(fā)現(xiàn)它敲出了一個夜間傳輸,因為傳輸?shù)陌踩院蜋C器的硬件認證相關(guān)聯(lián),改變硬件就改變了硬件鍵。避免附帶損害的關(guān)鍵是在作出變更之前做好功課并盡可能多地確定相關(guān)功能。深入了解并識別任一相關(guān)功能,并對你的計劃作出必要調(diào)整。
列一個變更清單 —— Atul Gawande在他的著作《清單宣言(Checklist Manifesto)》中談到如何運用清單來提高我們正確、安全和可靠地傳遞信息的能力。 IT 運維人員經(jīng)常會使用記憶、培訓(xùn)和直覺來進行關(guān)鍵性的工作。當(dāng)他們不按順序執(zhí)行或是跳過某些步驟執(zhí)行時往往會出現(xiàn)問題。我非常支持在進行網(wǎng)絡(luò)變更時使用清單,以確保成功并能避免危機。一個好的清單可以幫助你在變更過程中計劃并正確實施這些步驟。
預(yù)備步驟 - 在作出更改之前需要做些什么?哪些服務(wù)器或設(shè)備需要被down或調(diào)整?需要通知誰?
進程中的步驟 - 在更改過程中必須執(zhí)行哪些步驟?需要修改哪些配置?
驗證變更是否奏效 - 您如何確定變更是否奏效。你應(yīng)該檢查哪些項目?應(yīng)使用哪些數(shù)據(jù)來進行驗證?
應(yīng)急程序 - 如果形勢轉(zhuǎn)壞,應(yīng)該使用什么策略來緩解?你的應(yīng)急策略是什么?
恢復(fù)步驟 -如何才能撤銷為實施更改所做的預(yù)備步驟?(這一步必須得到重視,因為它往往可以避免引發(fā)另一個危機。)
清單不一定要很長,但是要深入、準(zhǔn)確和適用。個人覺得,使用清單是網(wǎng)絡(luò)變更成功的關(guān)鍵。如果你對此有興趣,可以查看我之前寫的文章《IT項目實施時使用清單的8個理由》。
“一次只做好一件事”原則 —— 我個人的原則是:一次只做一項主要的網(wǎng)絡(luò)更改。如果只做一處變更,那么即便出現(xiàn)問題,你也只面臨一個危機。如果兩個或兩個以上的變更同時出問題,那就是另外一回事了,就造成了多重危機。一次執(zhí)行數(shù)個更改,卻只有一部分網(wǎng)絡(luò)down掉,這聽起來很誘人,但是請不要這么做。這種冒險行為并不值得。
要清楚你所處的位置 —— 位置感知(position awareness) - 當(dāng)IT人員誤以為自己是在測試系統(tǒng)上工作,然后抹去了一個生產(chǎn)系統(tǒng),這絕對是最可怕的自我傷害。一個最好的例子就是IT經(jīng)理在刷新QA數(shù)據(jù)庫的時候,意外地清空了生產(chǎn)數(shù)據(jù)庫,因為他在錯誤的機器上。通常在使用遠程桌面程序時會出現(xiàn)這些錯誤,因為你可能在無意中連接到了錯誤的機器。在工作開始之前,一定要確保你在正確的機器上,即便只是執(zhí)行一個hostname命令那么簡單。在它首次制止你連接到錯誤的機器上的時候,你會感激你自己。
上述都是一些在變更管理指南中并未提及或僅是簡單提及的實用性步驟。這些步驟很簡單,但是可以幫助你應(yīng)對意外的IT運維危機或是防止產(chǎn)生危機。
Servicehot介紹:
永服科技有限公司(簡稱“Servicehot”或“永服科技”),提供Servicehot IT服務(wù)管理平臺(Servicehot ITSM)和Servicehot IT服務(wù)運營管理平臺(Servicehot ITSOM)產(chǎn)品,基于J2EE搭建的架構(gòu)平臺、可以適應(yīng)云計算部署環(huán)境,具有較好的易用性、擴展性以及配置功能,適用于公司目前IT服務(wù)過程不斷改進、提升,業(yè)務(wù)邏輯及流程復(fù)雜等環(huán)境的要求,并且在大型的國企、制造業(yè)、金融等企業(yè)完成了實際的應(yīng)用和推廣。
ServiceHot運用ITIL、ISO20000等最佳實踐方法,結(jié)合ServiceHot在國內(nèi)外眾多行業(yè)客戶的IT服務(wù)管理、信息安全管理方面的成功實施經(jīng)驗。協(xié)助客戶設(shè)計并通過ITSS、ITIL、ISO20000等國際認證,幫助客戶提升IT服務(wù)管理水平和競爭力,提高IT服務(wù)效率,強化人員考核,加強對供應(yīng)商考核,提升客戶滿意度。
永服科技是中國優(yōu)秀的 IT服務(wù)管理解決方案服務(wù)商和產(chǎn)品廠商,注冊資金5000萬,是國家IT服務(wù)標(biāo)準(zhǔn)ITSS工具組副組長單位,參與國家IT服務(wù)標(biāo)準(zhǔn)的編制和評審。其制造業(yè)和金融行業(yè)為主要客群,金融業(yè)案例包括:XX省農(nóng)信、國信證券、鄭州商品交易所、深圳證券信息、阜新銀行等多家省級和地市金融企業(yè);制造業(yè)客戶包含:四川長虹集團、中國移動、云天化集團、天原集團、華為等大型國企或制造業(yè)企業(yè)。其產(chǎn)品和同行業(yè)內(nèi)IT服務(wù)管理項目的實施經(jīng)驗有利于提升公司IT服務(wù)效力、降低IT運營風(fēng)險,為信息系統(tǒng)安全、可靠、高效地運行提供有力的保障。
