本記事は2021年2月11日にJosh Odgers氏が投稿した記事の翻訳版です。
このシリーズでは、ではNutanix AOSが回復力ファクタ(RFつまり2つのデータコピー)を利用した場合に3ノードクラスタの場合も含め、メンテナンスモード、再起動、および障害シナリオにおいて完全な仮想マシンの可用性とデータの整合性を維持できるということを見てきました。
そして、パート2では、Nutanix AOSとvSAN 7 Update 1とを比較し、vSANが再起動と電源サイクル(障害)シナリオの両方で、以下のようなあらゆるvSANにとって有利に働く状況を作ったとしてもI/O整合性のエラーに苦しんでいるという事実を確認しました:
- vSANが長い(SCSI)I/Oタイムアウト設定を利用している (180 秒 vs Nutanix 30 秒)
- vSANがデータの完全退避モードを利用している
- vSANのオブジェクトリビルドタイマーを60分の遅延から遅延なしに変更 (すなわち、これによってリビルドは即時開始される)
- より大きなクラスタ(8ノード)を利用し、その上で、テストはそのクラスタ内の最初の4ノードのみで実施する
パート7では、7ノードのクラスターでvSANの耐障害性(FTT)を2に設定した場合の動作について見ていきましたが、驚くことに、デュアルパリティのvSANを使用してもデータ整合性の問題に対処できないことがわかりました。
それでは、vSANをストレッチクラスター構成で使用する場合、仮想マシンの可用性とデータの整合性がどのように扱われるのかを確認していきます。
このテストは、8台のDell PowerEdge R740xd-24を使用し、VMware ESXi, 7.0.1, Build 17551050を用いて実施しました。
最初のテストでは、「4+4台構成のストレッチクラスタ|FTT1|I/Oタイムアウト180秒」を使用し、Active/Passiveスタイルのストレッチクラスタをシミュレートしました。ここでは、フォールトドメイン1では3つのVMを実行し、フォールトドメイン2ではVMを実行しませんでした。
簡単に言えば、このテストにおけるフォールト・ドメインとは、サイトやデータセンターを意味しますが、ノードはすべて同じ25Gbのネットワークに接続されており、レイテンシーは数ミリ秒です。
そのため、この環境はあらゆる面で最適であり、環境のパフォーマンスに影響を与えるWAN/レイテンシーに影響を受けません。
Test1の結果:
メンテナンスモードのフェーズ:
ローリングリブートのフェーズ:
電源サイクル(障害)のフェーズ:
これらの結果は、以前のテストと比較して回復力が向上していることを示していますが、vSANは、わずか3つのVMという比較的軽いワークロードでも電源サイクル(障害)のフェーズでI/Oエラーが発生しました。
2回目のテストでは、4+4台構成のストレッチクラスターを使用しました、Active/Activeスタイルのストレッチクラスターをシミュレートし、7つのVMが両方のフォールトドメイン(つまり両方のデータセンター)で動作するようにしました。
Test2の結果:
メンテナンスモードのフェーズ:
再起動のフェーズ:
電源サイクル(障害)のフェーズ:
テスト2の結果を見ると、4ノード(パート2)または8ノード(パート6)で実施した以前のテスト(FTT1クラスタ)と比較して、回復力の向上は見られませんでした。
サマリ:
vSANフォールトドメイン(ストレッチクラスタ)を使用し、最適な構成であるFTT1ストレッチクラスタ(4+4)であったとしても、vSANは依然として可用性と耐障害性(I/Oエラー)の両方で悩まされます。
このとき X-Rayテストでは、一度に1つのノードに対してのみテストを実行し、また、2つのフォールト・ドメインのうち1つのノードに対してのみ実行し、フォールト・ドメイン2はテスト中ずっと最適な状態のままでした。
また、これまでのvSAN 7 Update 1のテストでは、10%の稼働率でしかテストを行っておらず、より現実的な稼働率(N-1またはN-2程度)である50~75%を大きく下回っていることも重要なポイントです。
パート1に戻る。