本記事は2018年6月19日に Josh Odgers 氏が投稿した記事の翻訳版です。
RF2についてはパート1で、RF3についてはパート3で説明したように、ADSFの回復力を議論する際の重要な要素は、ドライブやノードに障害が発生した場合に、設定されたレジリエンシーファクターに準拠した状態に回復する速度です。
それでは、第1回と第3回の内容を簡単に振り返ってから、RF3とイレイジャーコーディング(EC-X)を使用した場合のノード障害に対するADSFのパフォーマンスの例を見てみましょう。
リビルド処理は、設定されているレジリエンシーファクターやEC-Xなどのデータ削減にかかわらず、すべてのノードとドライブに完全に分散された処理(多対多の処理)であるため、非常に高速であると同時に、ノードごとの作業負荷が最小限に抑えられるため、ボトルネックを回避し、稼働中のワークロードへの影響を軽減することができます。
リビルドの性能は、クラスターの規模、ドライブの数や種類(NVMe、SATA-SSD、DAS-SATAなど)、さらにはCPUの世代やネットワークの接続性など、さまざまな要因に左右されることを忘れてはいけませんが、それを踏まえた上で、以下のハードウェアを使った例を紹介します。
テスト環境は15ノードのクラスターで、Ivy Bridge 2560プロセッサ(2013年第3四半期発売)を搭載したNX-6050およびNX-3050ノードなど、約5年前のハードウェアが混在しており、各ノードにはサイズの異なる6つのSATA-SSDと2つの10GbEネットワークインターフェースが搭載されています。
イレイジャーコーディングはRF2やRF3よりも多くの計算オーバーヘッドを必要とするため、より高速なプロセッサを使用することでリビルド速度に大きな差が出ます。レジリエンシーファクターは単にレプリカをコピーするだけです(つまり、パリティの計算は必要ありません)。
今回のテストでは、クラスターをRF3とイレイジャーコーディングで構成しました。
これまでのテストと同様に、IPMIインターフェースを使用し、以下のように「Power off server - immediate」オプションを使用してノード障害をシミュレートします。これは、物理的なサーバーの背面から電源を引き抜くことに相当します。
以下は、Nutanix PrismのAnalysisタブのスクリーンショットです。これは、シミュレーションされたノード障害後、リビルド中のストレージプールのスループットを示しています。
チャートを見ると、再構築が7.24GBpsのピークを示し、完了するまで5GBps以上のスループットを維持していることがわかります。タスク自体にかかった時間は、Chronosマスターのページ(http://CVM_IP:2011)に掲載されている以下のように、わずか47分でした。
この例では、EC-X(イレイジャーコーディング)を有効にしても、Nutanix ADSFは非常に速いペースで再構築でき、しかもRF3よりも大幅に容量を削減していることがわかります。
まとめ
- Nutanix RF3は、イレイジャーコーディングの有無にかかわらず、RAID6(またはN+2)スタイルのアーキテクチャよりもはるかに高い回復力を持っています。
- ADSFは継続的にディスクスクラビングを行い、データの整合性に問題が発生する前に、根本的な問題を検出して解決します。
- ドライブやノードの故障からのリビルドは、レジリエンシーファクターやデータ削減構成に関わらず、クラスター内のすべてのドライブやノードを使用した効率的な分散操作です。
- ノード障害(今回は6台のSSDの同時故障に相当)からのイレイジャーコーディングによるリカバリーでは、5年前のハードウェアでも5GBps以上を維持できます。