監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

[原創(chuàng)]亡羊補牢,為時已晚

申請免費試用、咨詢電話:400-8352-114

孫翊威

A集團是全球知名的成衣制造商。一個偶然的機會,我應聘進入了其在廣東某地的分廠。分廠承擔著整個集團的輔料生產(chǎn)。2000年當下流行的ERP遠未成熟,那是MIS一統(tǒng)天下的時代。但在信息化建設方面,集團還是緊跟著時代的腳步。一套輔料生產(chǎn)MIS系統(tǒng)支撐著輔料廠的全部日常業(yè)務運行。如果這個MIS系統(tǒng)停止一個小時,那么由此帶來的直接損失估計在200萬左右.。

MIS系統(tǒng)的服務器硬件采購自一家全球知名的廠商。雙PIII XEON 1G和36GX5個1+5陣列,RAID1(鏡象)+RIAD5(3個磁盤)另加外置SCSI HP磁帶備份機,系統(tǒng) WINDOWS NT4.0和SQL7.0。購買的服務是金牌服務。

我的任務重復而簡單。每日早上9點到公司對磁帶機磁帶進行更換。由于當時我對服務器沒有管理權(quán)限,因此對服務器的檢查僅限于觀察各個信號燈(紅燈是故障,綠色燈是正常,黃色等正在讀寫操作或者初始化)是否正常。服務器維護由集團系統(tǒng)維護人員每周一通過PC ANYWHERE遠程連接檢查,包括磁帶機的備份。就這樣我的維護工作平淡無奇地持續(xù)了半年,直到有一天出了問題。

那天,當我象往常一樣將目光掃向服務器時,紅色的燈光映入眼簾,而且一亮還是兩個。仔細看去紅燈亮在RAID5的位置,兩個紅燈代表三個磁盤中兩個出現(xiàn)了故障。平靜如水的心底泛起了點漣漪。按規(guī)定先打電話通知直接主管。畢竟昨天的數(shù)據(jù)還在,即使硬盤損壞采用手工補單的方式也可以找回丟失的數(shù)據(jù)。“還好我們有磁帶機備份,看來多一個備份,多一份心安吶。”我的心情并沒有因為這個故障受到什么影響。

我開始按步驟檢查服務器硬件是否屬于真的損壞。重新啟動服務器確認故障依舊。根據(jù)售后條款確認服務器還處于硬件商提供的金牌服務周期內(nèi),我馬上撥打了硬件提供商的800電話尋求技術(shù)支持。他們根據(jù)我的現(xiàn)象描述提供了電話遠程支持。我按此進行操作:

打開磁盤陣列柜,再次啟動服務器自檢至陣列柜。進入NetRaid管理程序查看陣列信息,發(fā)現(xiàn)硬盤ID0與硬盤ID2狀態(tài)為Failed,運用修改配置將硬盤ID0強制OnLine,重新啟動服務器,在進入NT前的硬件自檢時,出現(xiàn)硬盤ID2,ID0依次閃紅燈,訪問D盤失敗。第一次嘗試失敗。

接著第二次嘗試。x,q),Wd2o8[W5A打開磁盤陣列柜,啟動服務器。進入NetRaid管理程序選擇磁盤陣列,將陣列配置信息清空,然后新建磁盤陣列信息(不作初始化),并將硬盤ID2與ID0強制OnLine后,重新啟動服務器,在進入NT前的硬件自檢時,問題依舊。嘗試訪問D盤再次以失敗結(jié)束。

事不過三,我打算做最后一次努力。關(guān)閉磁盤陣列柜,將磁盤陣列柜上的所有3塊硬盤全部拔除,啟動服務器,正常進入NT。打開磁盤陣列柜用NetRaid管理軟件,將硬盤ID0,ID1,ID2,進行熱插拔,但在進行至硬盤ID0,ID2時軟件檢測不到此硬盤。到這個時候我們意識到RAID5受到了最致命的情況,同時出現(xiàn)了2塊硬盤的故障。此時,惟一的選擇就是啟動IT處理應急方案。我立即啟用備用服務器。因為備用機的數(shù)據(jù)庫沒有數(shù)據(jù),需要將磁帶機的備份數(shù)據(jù)導入。在場的同事都忙碌了起來,著手準備恢復最近一次磁帶機的備份數(shù)據(jù)。

“不對啊!”負責將備份數(shù)據(jù)導入服務器的同事一聲驚呼讓大家的神經(jīng)緊張了起來。“怎么不對了?”“數(shù)據(jù)恢復過來的時間不對,怎么是一個半月前的數(shù)據(jù)?”幾個腦袋湊到了只有十幾寸的顯示器前。幾雙眼睛仔仔細細地把恢復好的數(shù)據(jù)察了一遍。的確是一個半月前的數(shù)據(jù)。“是不是你拿錯了磁帶?”一個同事問我。“不會,就這么大點地方又沒放到其他地方我怎么會拿錯。”我自己也在奇怪著。

現(xiàn)在大家已經(jīng)沒有心思去追究這個問題。我重新又復查了一遍,經(jīng)過詳細檢查15盒磁帶的內(nèi)容。發(fā)現(xiàn)最近有效數(shù)據(jù)的的確確是一個半月前的。隨后檢查服務器的備份機制,結(jié)果發(fā)現(xiàn)服務器的備份任務自一個半月前就停止工作了。汗,開始往外冒!

隨后,啟動第二步IT應急方案:恢復硬盤數(shù)據(jù)。

分廠領(lǐng)導和IT經(jīng)理帶上服務器驅(qū)車20多公里連夜趕到省城。聯(lián)系一家專業(yè)數(shù)據(jù)恢復公司。但是為時已晚。由于已經(jīng)按照800電話的技術(shù)指導做過REBUILD,硬盤上的數(shù)據(jù)無法再恢復。最后得到的結(jié)果是原先的數(shù)據(jù)區(qū)在NT4的系統(tǒng)里能看到所有文件名,但所有文件大小全為0K!知道這是一種什么感覺嗎?這就象一個即將被洪水沒頂?shù)娜耍蚩罩袕堉碾p手摸到了一根以為是“救命稻草”的真稻草。生的希望在瞬間又消逝了。想有感覺但來不及有感覺。

就在服務器送去搶救的第二天,廠里決定采用手工單輸入的方式恢復丟失的數(shù)據(jù)。一時間,全廠動員通宵達旦,人人加班。這陣勢也是建廠以來少見的。加了三個周末我們才將丟失了一個半月的數(shù)據(jù)補全。

用“有驚無險”四個字可以為這次事故畫上一個句號。畢竟數(shù)據(jù)最后毫發(fā)無損地恢復了。但是事后的責任追究并沒有因此結(jié)束。

1. 服務器在1個半月前已經(jīng)陸續(xù)出現(xiàn)過系統(tǒng)日志報警,但作為負責這個維護任務的管理員因自身業(yè)務比較繁忙(他同時還負責EXCHANGE EMAIL系統(tǒng)及其他大小10個系統(tǒng)的日常備份維護), 忽視了服務器的異常信息;

2. 我廠MIS服務器本身的條件比較好(相比總廠用了2-3年的設備,我們的設備才投入使用半年多的時間)。平時這臺服務器的業(yè)務壓力并不大。維護人員在前半年的維護周期設定在每周隨機檢查一次。事實證明這樣的規(guī)定沒有充分考慮到服務器可能存在的風險;

3. RAID5磁盤在用3個磁盤做的時候磁盤的讀寫頻率非常高,由于公司是3班倒,系統(tǒng)是24小時運行。導致其中2塊硬盤過早出現(xiàn)老化故障。

4. 機房環(huán)境比較差,不是標準機房,尤其是地面是瓷磚地面減震效果差。機房平時人員走動頻繁(分公司機房和IT員工辦公室是在一處)

以上幾點的疏忽導致分廠在這次事故中直接損失在130萬,間接損失估計在800萬左右。項目經(jīng)理無奈引咎辭職。雖然“亡羊補牢,為時已晚”,但從更長遠的角度看“亡羊補牢,未為晚也”。總廠在調(diào)查了具體情況之后做了一些處理:

1. 關(guān)鍵設備維護人員做了重新的分配,增加人手,把每項任務的責任落實到人;

2. 增加一些網(wǎng)絡管理軟件的應用(OPENVIEW)并規(guī)范系統(tǒng)維護方式;

3. 考慮到RAID5的數(shù)據(jù)安全性不足問題,服務器建RAID盡量采用RAID0+1 或者RAID 1,RAID5+HOT SPACE的方案;

4. 總公司所有的RAID5陣列作了一次系統(tǒng)大檢查(對所有磁盤進行運行年限,業(yè)務強度進行風險評估)再此基礎(chǔ)上做一些業(yè)務的遷移和設備的更新;

5. 機房獨立,不再和人員辦公放一處,減少外部干擾;

6. 由于硬件提供商提供的服務器及其售后服務在此次事故中糟糕的表現(xiàn),公司在今后幾年的硬件建設中逐步放棄該公司設備。那年下半年從另一家全球知名硬件提供商陸續(xù)采購了50萬的服務器、終端等設備。

一個備份腳本的意外中止,帶來數(shù)以百萬的損失。一次事故讓我不再敢小看IT中任何小事。雖然事后做了相應的彌補,但是亡羊補牢的事情還是越少越好。

發(fā)布:2007-03-25 10:24    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章: