[原創(chuàng)]亡羊補(bǔ)牢，為時(shí)已晚

孫翊威

A集團(tuán)是全球知名的成衣制造商。一個(gè)偶然的機(jī)會(huì)，我應(yīng)聘進(jìn)入了其在廣東某地的分廠。分廠承擔(dān)著整個(gè)集團(tuán)的輔料生產(chǎn)。2000年當(dāng)下流行的ERP遠(yuǎn)未成熟，那是MIS一統(tǒng)天下的時(shí)代。但在信息化建設(shè)方面，集團(tuán)還是緊跟著時(shí)代的腳步。一套輔料生產(chǎn)MIS系統(tǒng)支撐著輔料廠的全部日常業(yè)務(wù)運(yùn)行。如果這個(gè)MIS系統(tǒng)停止一個(gè)小時(shí)，那么由此帶來的直接損失估計(jì)在200萬左右.。

MIS系統(tǒng)的服務(wù)器硬件采購(gòu)自一家全球知名的廠商。雙PIII XEON 1G和36GX5個(gè)1+5陣列，RAID1(鏡象)+RIAD5(3個(gè)磁盤)另加外置SCSI HP磁帶備份機(jī)，系統(tǒng) WINDOWS NT4.0和SQL7.0。購(gòu)買的服務(wù)是金牌服務(wù)。

我的任務(wù)重復(fù)而簡(jiǎn)單。每日早上9點(diǎn)到公司對(duì)磁帶機(jī)磁帶進(jìn)行更換。由于當(dāng)時(shí)我對(duì)服務(wù)器沒有管理權(quán)限，因此對(duì)服務(wù)器的檢查僅限于觀察各個(gè)信號(hào)燈（紅燈是故障，綠色燈是正常，黃色等正在讀寫操作或者初始化）是否正常。服務(wù)器維護(hù)由集團(tuán)系統(tǒng)維護(hù)人員每周一通過PC ANYWHERE遠(yuǎn)程連接檢查，包括磁帶機(jī)的備份。就這樣我的維護(hù)工作平淡無奇地持續(xù)了半年，直到有一天出了問題。

那天，當(dāng)我象往常一樣將目光掃向服務(wù)器時(shí)，紅色的燈光映入眼簾，而且一亮還是兩個(gè)。仔細(xì)看去紅燈亮在RAID5的位置，兩個(gè)紅燈代表三個(gè)磁盤中兩個(gè)出現(xiàn)了故障。平靜如水的心底泛起了點(diǎn)漣漪。按規(guī)定先打電話通知直接主管。畢竟昨天的數(shù)據(jù)還在，即使硬盤損壞采用手工補(bǔ)單的方式也可以找回丟失的數(shù)據(jù)。“還好我們有磁帶機(jī)備份，看來多一個(gè)備份，多一份心安吶。”我的心情并沒有因?yàn)檫@個(gè)故障受到什么影響。

我開始按步驟檢查服務(wù)器硬件是否屬于真的損壞。重新啟動(dòng)服務(wù)器確認(rèn)故障依舊。根據(jù)售后條款確認(rèn)服務(wù)器還處于硬件商提供的金牌服務(wù)周期內(nèi)，我馬上撥打了硬件提供商的800電話尋求技術(shù)支持。他們根據(jù)我的現(xiàn)象描述提供了電話遠(yuǎn)程支持。我按此進(jìn)行操作：

打開磁盤陣列柜，再次啟動(dòng)服務(wù)器自檢至陣列柜。進(jìn)入NetRaid管理程序查看陣列信息，發(fā)現(xiàn)硬盤ID0與硬盤ID2狀態(tài)為Failed，運(yùn)用修改配置將硬盤ID0強(qiáng)制OnLine，重新啟動(dòng)服務(wù)器，在進(jìn)入NT前的硬件自檢時(shí)，出現(xiàn)硬盤ID2，ID0依次閃紅燈，訪問D盤失敗。第一次嘗試失敗。

接著第二次嘗試。x,q),Wd2o8[W5A打開磁盤陣列柜，啟動(dòng)服務(wù)器。進(jìn)入NetRaid管理程序選擇磁盤陣列，將陣列配置信息清空，然后新建磁盤陣列信息（不作初始化），并將硬盤ID2與ID0強(qiáng)制OnLine后，重新啟動(dòng)服務(wù)器，在進(jìn)入NT前的硬件自檢時(shí)，問題依舊。嘗試訪問D盤再次以失敗結(jié)束。

事不過三，我打算做最后一次努力。關(guān)閉磁盤陣列柜，將磁盤陣列柜上的所有3塊硬盤全部拔除，啟動(dòng)服務(wù)器，正常進(jìn)入NT。打開磁盤陣列柜用NetRaid管理軟件，將硬盤ID0，ID1，ID2，進(jìn)行熱插拔，但在進(jìn)行至硬盤ID0，ID2時(shí)軟件檢測(cè)不到此硬盤。到這個(gè)時(shí)候我們意識(shí)到RAID5受到了最致命的情況，同時(shí)出現(xiàn)了2塊硬盤的故障。此時(shí)，惟一的選擇就是啟動(dòng)IT處理應(yīng)急方案。我立即啟用備用服務(wù)器。因?yàn)閭溆脵C(jī)的數(shù)據(jù)庫(kù)沒有數(shù)據(jù)，需要將磁帶機(jī)的備份數(shù)據(jù)導(dǎo)入。在場(chǎng)的同事都忙碌了起來，著手準(zhǔn)備恢復(fù)最近一次磁帶機(jī)的備份數(shù)據(jù)。

“不對(duì)啊！”負(fù)責(zé)將備份數(shù)據(jù)導(dǎo)入服務(wù)器的同事一聲驚呼讓大家的神經(jīng)緊張了起來。“怎么不對(duì)了？”“數(shù)據(jù)恢復(fù)過來的時(shí)間不對(duì)，怎么是一個(gè)半月前的數(shù)據(jù)？”幾個(gè)腦袋湊到了只有十幾寸的顯示器前。幾雙眼睛仔仔細(xì)細(xì)地把恢復(fù)好的數(shù)據(jù)察了一遍。的確是一個(gè)半月前的數(shù)據(jù)。“是不是你拿錯(cuò)了磁帶？”一個(gè)同事問我。“不會(huì)，就這么大點(diǎn)地方又沒放到其他地方我怎么會(huì)拿錯(cuò)。”我自己也在奇怪著。

現(xiàn)在大家已經(jīng)沒有心思去追究這個(gè)問題。我重新又復(fù)查了一遍，經(jīng)過詳細(xì)檢查15盒磁帶的內(nèi)容。發(fā)現(xiàn)最近有效數(shù)據(jù)的的確確是一個(gè)半月前的。隨后檢查服務(wù)器的備份機(jī)制，結(jié)果發(fā)現(xiàn)服務(wù)器的備份任務(wù)自一個(gè)半月前就停止工作了。汗，開始往外冒！

隨后，啟動(dòng)第二步IT應(yīng)急方案：恢復(fù)硬盤數(shù)據(jù)。

分廠領(lǐng)導(dǎo)和IT經(jīng)理帶上服務(wù)器驅(qū)車20多公里連夜趕到省城。聯(lián)系一家專業(yè)數(shù)據(jù)恢復(fù)公司。但是為時(shí)已晚。由于已經(jīng)按照800電話的技術(shù)指導(dǎo)做過REBUILD，硬盤上的數(shù)據(jù)無法再恢復(fù)。最后得到的結(jié)果是原先的數(shù)據(jù)區(qū)在NT4的系統(tǒng)里能看到所有文件名，但所有文件大小全為0K！知道這是一種什么感覺嗎？這就象一個(gè)即將被洪水沒頂?shù)娜耍蚩罩袕堉碾p手摸到了一根以為是“救命稻草”的真稻草。生的希望在瞬間又消逝了。想有感覺但來不及有感覺。

就在服務(wù)器送去搶救的第二天，廠里決定采用手工單輸入的方式恢復(fù)丟失的數(shù)據(jù)。一時(shí)間，全廠動(dòng)員通宵達(dá)旦，人人加班。這陣勢(shì)也是建廠以來少見的。加了三個(gè)周末我們才將丟失了一個(gè)半月的數(shù)據(jù)補(bǔ)全。

用“有驚無險(xiǎn)”四個(gè)字可以為這次事故畫上一個(gè)句號(hào)。畢竟數(shù)據(jù)最后毫發(fā)無損地恢復(fù)了。但是事后的責(zé)任追究并沒有因此結(jié)束。

1．服務(wù)器在1個(gè)半月前已經(jīng)陸續(xù)出現(xiàn)過系統(tǒng)日志報(bào)警，但作為負(fù)責(zé)這個(gè)維護(hù)任務(wù)的管理員因自身業(yè)務(wù)比較繁忙（他同時(shí)還負(fù)責(zé)EXCHANGE EMAIL系統(tǒng)及其他大小10個(gè)系統(tǒng)的日常備份維護(hù)），忽視了服務(wù)器的異常信息；

2．我廠MIS服務(wù)器本身的條件比較好（相比總廠用了2-3年的設(shè)備，我們的設(shè)備才投入使用半年多的時(shí)間）。平時(shí)這臺(tái)服務(wù)器的業(yè)務(wù)壓力并不大。維護(hù)人員在前半年的維護(hù)周期設(shè)定在每周隨機(jī)檢查一次。事實(shí)證明這樣的規(guī)定沒有充分考慮到服務(wù)器可能存在的風(fēng)險(xiǎn)；

3． RAID5磁盤在用3個(gè)磁盤做的時(shí)候磁盤的讀寫頻率非常高，由于公司是3班倒，系統(tǒng)是24小時(shí)運(yùn)行。導(dǎo)致其中2塊硬盤過早出現(xiàn)老化故障。

4．機(jī)房環(huán)境比較差，不是標(biāo)準(zhǔn)機(jī)房，尤其是地面是瓷磚地面減震效果差。機(jī)房平時(shí)人員走動(dòng)頻繁（分公司機(jī)房和IT員工辦公室是在一處）

以上幾點(diǎn)的疏忽導(dǎo)致分廠在這次事故中直接損失在130萬，間接損失估計(jì)在800萬左右。項(xiàng)目經(jīng)理無奈引咎辭職。雖然“亡羊補(bǔ)牢，為時(shí)已晚”，但從更長(zhǎng)遠(yuǎn)的角度看“亡羊補(bǔ)牢，未為晚也”?？倧S在調(diào)查了具體情況之后做了一些處理：

1．關(guān)鍵設(shè)備維護(hù)人員做了重新的分配，增加人手，把每項(xiàng)任務(wù)的責(zé)任落實(shí)到人；

2．增加一些網(wǎng)絡(luò)管理軟件的應(yīng)用（OPENVIEW）并規(guī)范系統(tǒng)維護(hù)方式；

3．考慮到RAID5的數(shù)據(jù)安全性不足問題，服務(wù)器建RAID盡量采用RAID0+1 或者RAID 1,RAID5+HOT SPACE的方案；

4．總公司所有的RAID5陣列作了一次系統(tǒng)大檢查（對(duì)所有磁盤進(jìn)行運(yùn)行年限，業(yè)務(wù)強(qiáng)度進(jìn)行風(fēng)險(xiǎn)評(píng)估）再此基礎(chǔ)上做一些業(yè)務(wù)的遷移和設(shè)備的更新；

5．機(jī)房獨(dú)立，不再和人員辦公放一處,減少外部干擾；

6．由于硬件提供商提供的服務(wù)器及其售后服務(wù)在此次事故中糟糕的表現(xiàn)，公司在今后幾年的硬件建設(shè)中逐步放棄該公司設(shè)備。那年下半年從另一家全球知名硬件提供商陸續(xù)采購(gòu)了50萬的服務(wù)器、終端等設(shè)備。

一個(gè)備份腳本的意外中止，帶來數(shù)以百萬的損失。一次事故讓我不再敢小看IT中任何小事。雖然事后做了相應(yīng)的彌補(bǔ)，但是亡羊補(bǔ)牢的事情還是越少越好。

發(fā)布：2025-09-18 12:06 編輯：泛普軟件 · xiaona [打印此頁(yè)] [關(guān)閉]

本站推薦

[原創(chuàng)]數(shù)據(jù)的準(zhǔn)確性和完整性是IT服務(wù)的命根子

2025-09-18 12:03:02

[原創(chuàng)]關(guān)于建設(shè)信息系統(tǒng)支撐體系的建議

2025-09-18 12:03:01

[原創(chuàng)]不堪重負(fù)的IT服務(wù)工程師背包

2025-09-18 12:03:00

[原創(chuàng)]IT服務(wù)管理總結(jié)3--對(duì)IT服務(wù)規(guī)劃的一點(diǎn)思考

2025-09-18 12:02:57

[原創(chuàng)]OGISM，我真需要嗎？

2025-09-18 12:02:54

[原創(chuàng)]“黑盒”還是“白盒”——企業(yè)信息部門的IT治理之路

2025-09-18 12:02:53

[原創(chuàng)]鎖好門的制度也許比設(shè)一個(gè)復(fù)雜密碼的要求更安全

2025-09-18 11:59:55

[原創(chuàng)]管“事”的ITIL Service Support

2025-09-18 11:59:54

相關(guān)文章：

1隧道緊急停車帶變截面段施工方案比選(原創(chuàng)論文)

2大橋工程樁基斷樁處理方案（原創(chuàng)）

3公路水泥混凝土路面計(jì)算程序（原創(chuàng) 分享）

4三跨(10m+14m+10m)空心板橋施工圖（原創(chuàng)）

5生態(tài)公園鋼吊橋施工圖（原創(chuàng)）

6[學(xué)士]簡(jiǎn)支轉(zhuǎn)連續(xù)預(yù)制小箱梁畢業(yè)設(shè)計(jì)（原創(chuàng)）

7公路改建工程路基檢測(cè)報(bào)告(原創(chuàng))

8項(xiàng)目開工施工調(diào)查報(bào)告(原創(chuàng))

9路橋工程施工中樁基技術(shù)要點(diǎn)（原創(chuàng)）

上一篇：如何落實(shí)ITIL理論

下一篇：[原創(chuàng)]IT服務(wù)總結(jié)2---誰在支撐我們的IT服務(wù)

相關(guān)推薦

[原創(chuàng)]ITIL到底是什么？
2025-09-18 11:56:58

[原創(chuàng)]ITIL咨詢心得
2025-09-18 11:56:57

[原創(chuàng)]使用IT平衡記分卡進(jìn)行IT服務(wù)績(jī)效考核實(shí)例探討（一）
2025-09-18 11:56:56

[原創(chuàng)]《做ITSM咨詢?cè)扞TIL》之四：IT組織框架對(duì)ITIL的影響
2025-09-18 11:56:55

[原創(chuàng)]從ITIL中看運(yùn)維，還是從運(yùn)維中看ITIL
2025-09-18 11:56:54

[原創(chuàng)]使用IT平衡記分卡進(jìn)行IT服務(wù)績(jī)效考核實(shí)例探討（二）
2025-09-18 11:54:01

最新文章

如何落實(shí)ITIL理論
2025-09-18 12:06:02

[原創(chuàng)]亡羊補(bǔ)牢，為時(shí)已晚
2025-09-18 12:06:01

[原創(chuàng)]數(shù)據(jù)的準(zhǔn)確性和完整性是IT服務(wù)的命根子
2025-09-18 12:03:02

[原創(chuàng)]關(guān)于建設(shè)信息系統(tǒng)支撐體系的建議
2025-09-18 12:03:01

[原創(chuàng)]不堪重負(fù)的IT服務(wù)工程師背包
2025-09-18 12:03:00

ITIL V3的出現(xiàn)改變了什么
2025-09-18 12:02:59

[原創(chuàng)]亡羊補(bǔ)牢，為時(shí)已晚

本站推薦

相關(guān)推薦

最新文章

泛普重慶OA行業(yè)資訊其他應(yīng)用