2018/03/25 iZone 頂級、優質虛擬主機服務中斷事件說明與補償辦法

各位 iZone 虛擬主機服務用戶,您好:

於 2018 年 03 月 25 日凌晨一時起,本團隊所屬之台灣機房 (設有三台機組分別負責營運官方網站、帳務系統、iZone 頂級虛擬主機服務與 iZone 優質虛擬主機服務等業務項目) 之聯外線路疑似受到外力或施工因素影響而出現全面中斷的情況,對於本次服務中斷事件與延遲發佈相關公告等問題造成用戶的不便,我們在此向您致上最誠摯的歉意,關於此事件的發展與後續處理有更新資訊時,本團隊會第一時間將其發佈於此處。

受影響服務範圍

以下列出之各項服務均發生長時間服務中斷 (約 24 小時)。

  • iZone 官方網站
  • iZone 帳務系統
  • iZone 頂級虛擬主機服務 (PHOTON)
  • iZone 優質虛擬主機服務 (FUSION)

事件時間軸

為使用戶能夠更加清楚了解本次事件之發展與處理進程,在此將其整理為時間軸如下:

  • 2018 年 03 月 25 日上午一時
    台灣機房聯外網路中斷 (採計使用者首次提報出現持續性服務中斷報告的時間)
  • 2018 年 03 月 25 日上午三時至六時
    維運工程師持續嘗試遠端檢測伺服器與恢復伺服器運作,惟機房聯外線路始終出現斷斷續續的情況使得檢測與維修均無法順利進行。
  • 2018 年 03 月 25 日上午五時
    維運工程師向網路第三方廠商提報障礙申告,轉由網路第三方廠商處理。
  • 2018 年 03 月 25 日上午九時
    於 Facebook 粉絲專頁發佈服務中斷訊息。
  • 2018 年 03 月 25 日上午十至十二時
    內部會議討論事件原因、處理方針與持續連繫第三方廠商查修。
  • 2018 年 03 月 25 日上午十二時
    內部會議決議進行用戶網站異地還原,維運工程師開始準備自異地備份主機取回備份檔案。
  • 2018 年 03 月 25 日下午一時至九時
    陸續取回所有用戶於 2018 年 03 月 24 日上午九時附近生成之最近一份備份檔案並將備份檔案傳送至目標主機 (本次選定美國機房之 ELECTRON 做為還原目標主機)。
  • 2018 年 03 月 25 日下午七時
    於 Facebook 粉絲專頁公告將進行異地備份還原。
  • 2018 年 03 月 25 日晚間十時至十二時
    陸續進行用戶資料異地還原作業,用戶網站逐步恢復。
  • 2018 年 03 月 25 日晚間十一時
    於 Facebook 粉絲專頁公告異地備份還原作業已近尾聲。
  • 2018 年 03 月 26 日上午二時
    我們正在處理最後一個用戶網站之異地備份還原作業 (由於該用戶所使用的磁碟空間超過 120 GB 因此耗時較長)。
  • 2018 年 03 月 26 日上午四時
    所有用戶網站之異地備份還原作業已經辦理完竣。
  • 2018 年 03 月 27 日下午三時
    台灣機房之網路環境已經恢復正常,內部會議討論開放用戶索取台灣機房伺服器機組 2018/03/25 最新資料副本辦法等相關事宜。
  • 2018 年 03 月 27 日下午七時
    於 Facebook 粉絲專頁公告開放用戶索取台灣機房伺服器機組 2018/03/25 最新資料副本與申請辦法。

事件說明與檢討改善工作

  • 內部制定機房網路服務中斷標準處理流程
    本次的服務中斷據悉係肇因於台灣機房之聯外網路疑似受外力或施工問題而導致光纖線路斷裂而造成聯外網路全數中斷 (我們無法主動對聯外網路進行任何處理或修繕,故屬於非可歸咎於本團隊之不可抗力因素),此種情況確實是前所未見,因此在先前我們未有針對此類情況訂立標準處理流程,在本次事件後我們內部討論已確立重大服務中斷事件處理標準程序,授權直接進行資料異地還原處理。
    根據新的標準程序,在發生服務中斷後三小時內若無法恢復伺服器運作我們就會啟動異地還原機制,使用前一日生成之備份檔案將用戶之網站暫時移至正常運作之機組或備援機組以恢復網站運作,惟此種作法的缺點在於每日備份還原點生成的時間與服務中斷事件發生的時間之間經常有超過十小時以上的落差,因此有可能導致用戶在服務中斷發生當天對網站進行的修改因此遺失 (雖然資料實體並沒有受到任何損害,但一旦使用備份檔案還原之後兩台伺服器之間的資料就會產生時間段斷裂的問題,而對於大多數用戶來說要手動將兩個斷裂時間段的資料重新連結時會遇到諸多困難),這部分我們將在近期商討解決方案。
  • 關於用戶反映過晚宣佈進行異地資料還原造成用戶驚慌與無所適從問題
    我們在未來若不幸發生類似情形時將提前並密集在 Facebook 粉絲專頁等管道發佈相關消息與即時進度更新,本次於晚間七時許才宣佈進行異地資料還原的理由係本團隊直到該時間點才確認當日復原無望 (因本團隊的設備實際上並無出現任何問題,只要網路環境恢復就能立刻恢復網站的正常運作) 所致,實際上由於用戶資料龐大本團隊早在同日中午就已經開始自異地備援主機取回用戶的資料備份作為異地資料還原操作之前置作業。
  • 關於異地資料還原所需要的時間
    由於用戶的資料非常龐大 (數百 GB 至數 TB),受制於國際頻寬速度等問題的影響,在進行異地還原時我們也需要一定的準備時間 (通常在伺服器本身出問題時我們會使用本地備份還原,所需要的時間遠比異地備份還原還要來得短,但本次的情況不同,由於機房連外線路全數中斷因此造成無法使用近端本地備份快速還原,導致我們必須從位於他國的異地備份主機取回龐大的備份檔案用於還原用戶網站,完整流程為自異地備份主機取回備份檔案 → 將備份檔案移至臨時備用機組 → 系統進行還原操作,其中最費時的階段為自異地備份主機取回備份檔案,但異地備份還原仍然比勉強使用本地備份還原至美國機房快上許多,畢竟我國的網路架構均為非對稱型,即上傳頻寬遠低於下載頻寬),此為造成本日處理上時間差的主要原因 (相關的還原決策係於本日中午前後開始著手進行預備處理,以 300 Mbps 線路而言,在理想狀況下八個小時約僅能處理移動約 700 至 800 GB 的資料),在檢討後我們未來在處理類似問題時擬依據用戶使用空間大小排序依序進行還原,以盡可能在最短時間內復原最多用戶的帳戶 (現行做法為顧及公平性因此是在處理所有帳戶的備份檔案之後一次性同時開始進行還原),並且在處理過程中密集發佈相關的進度報告以充分揭露相關資訊給用戶。
  • 關於官方網站與帳務系統之服務中斷造成用戶恐慌
    先前我們曾考慮類似情況並記取過去經驗,因此在配置時已特別將官方網站與帳務系統設計為獨立系統,但全機房網路完全中斷確實是我們始料未及的情況,我們目前正在討論日後要如何改善此一問題。

關於補償處理與後續處理

在經內部討論後我們決定即便在本次問題並非肇因於本團隊或任何本團隊用於本服務之設備發生問題 (屬於 SLA 內的「機房端或配合之網際網路服務提供者 (ISP) 所造成的服務中斷」與「不可抗拒之外力所造成之服務中斷」之情況) 仍維持核發一個月服務月費之補償且不須用戶主動提出申請

後續我們將在台灣機房網路環境恢復正常且通過各項檢測,並完成台灣機房各伺服器機組之 2018 年度檢修作業之後再擇期公告時間將用戶網站移回台灣機房。

開放索取資料備份相關事宜 (2018/03/27 發佈,目前已截止受理)

由於我們用於進行異地資料備份還原的備份檔案為 2018/03/24 上午九時附近所生成,因此在異地復站之後用戶的網站將缺乏用戶在 2018/03/24 上午八時至 2018/03/25 凌晨二時之間對網站或資料庫等內容的所有變更 (即用戶網站被回溯至 2018/03/24 上午八時的狀態),然而實際上台灣機房的伺服器並未出現任何異常,用戶資料也妥善完整保存,因此我們將開放用戶申請索取目前位於台灣機房伺服器機組上的資料 (為 2018/03/25 凌晨二時的狀態)。

  • 受理期間:即日起至 2018/04/01 下午四時止。
  • 受理方式:請透過服務單系統提出申請,經受理後本團隊將陸續將台灣機房伺服器機組上的資料 (為 2018/03/25 凌晨二時的狀態) 打包並提供用戶下載。
  • 注意事項:直接使用該檔案還原會導致 2018/03/26 至今對網站的修改被覆蓋,因此請務必手動人工處理並小心資料回溯問題。

在申請期限截止之後我們將會清除台灣機房伺服器上的資料並擇期將您的網站從美國機房的臨時伺服器遷回台灣機房,並且以遷移當下您位於美國機房臨時伺服器的資料為準,如果您需要取回 2018/03/24 當天對網站進行的修改,請務必把握申請受理期間。