數據機房最怕的是什麼?除了火災、水災之外,最怕的應該是停電,一般的跳電,機房有UPS,不會受影響,可是遇到停電,年久不維護的UPS電池,早就拉垮了,就算有通訊卡監測電池狀態,伺服器還沒來得及關機,就被迫非法關機了。
一旦伺服器被迫非法關機,供電恢復的時候,還能不能起來就看運氣了,站在嘈雜的機房裡,那種糾結、緊張、彷徨的心情,真的是難以用語言文字來表達。
這不,今天又來一個:戴爾R710伺服器,連接不上磁碟櫃了,IT慌得很,關鍵還在報電源故障,沒停電的時候,電源正常工作,idrac也沒有報任何故障,就停一下電,電源還報故障了。
一把年紀的伺服器了,也沒配置雙電源,報錯就報錯吧,起碼還能開機,已經不錯了,電源先訂貨,沒那麼快到,還是得解決磁碟櫃的連接問題。
伺服器關機,磁碟櫃關機,切斷電源,打開伺服器機蓋,拔HBA卡,清理主板插槽,橡皮用力擦HBA卡金手指,清理灰塵,插回伺服器,磁碟櫃開機,伺服器開機,風聲大作中,焦急而忐忑地等待著。
好不容易連上磁碟櫃了,發現有硬碟顯示:「Predictive Fail」,意思是失效預警,直白點來講,就是有硬碟要壞了,得更換。
硬碟在正常的讀/寫過程中會發生錯誤,錯誤多了就稱為「壞塊」。每個硬碟都有壞塊的閾值,一旦達到此閾值,控制器會將硬碟的狀態更改為「Predictive Fail」。雖然硬碟暫時還能工作,但是隨時出故障的機率很高,強烈建議更換。
當然,更換硬碟是有講究的,不是拔出舊硬碟,插入新硬碟那麼簡單的,在更換之前必須將其從 RAID 卷中安全移除。
啟動MDSM。如果您有多個PowerVault陣列,請選擇對應的陣列。如果硬碟正常工作,則狀態顯示為「Optimal」;如果硬碟有預測性故障,則狀態將更改為"Need attention"
滑鼠右擊有問題的硬碟,並選擇 Advanced,然後選擇 Fail;
系統會彈出一個提示框,要求您確認操作,輸入「Yes」進行確認即可。
如果當前有備用磁碟,請保持複選框「Copy contents of physical disk before failing」處於選中狀態,即將發生故障的磁碟上的數據會被複製到備用磁碟,並在複製完成後下線該磁碟,此過程需要一段時間,根據數據量大小決定時間長短。
如果沒有備用磁碟,或者磁碟櫃滿插狀態,無法增加備用磁碟,那麼請取消選中「Copy contents of physical disk before failing」複選框,當該磁碟狀態被置為「Failed」,並標記紅色叉號時,就可以更換磁碟了。
類似操作,務必謹慎,切勿盲目動手,畢竟硬體有價,數據無價,其實更重要的是,平時多注意備份,那就不至於措手不及了,小心駛得萬年船,老話不會錯的。