HCIプラットフォームの可用性、復元力、そして整合性–パート3 – VMware vSAN / DellVxRAILの I/Oタイムアウト増加比較

  • 2 June 2021
  • 0 replies
  • 290 views

Userlevel 3

本記事は2021年1月14日にJosh Odgers氏が投稿した記事の翻訳版です。

原文はこちら。本シリーズの牽引はこちら

 

パート2では、Nutanix AOSがプラットフォームの可用性、復元力、そして整合性テストのすべてのフェーズでVMの可用性とI/Oの整合性を維持しているのに対し、vSAN 7 Update 1は再起動フェーズと電源オフフェーズでいずれも失敗し、何百ものI/Oエラーが検出されていたのを確認しました。

 

パート3では、I/Oタイムアウトをデフォルトの30秒から60秒、90秒、120秒、150秒、そして最終的には180秒に増やすことでどのような結果になるかを確認していきます。

 

I/Oエラーが検出される前に、SCSIスタックは180秒のタイムアウトで6回の再試行を行います。つまり、エラーが検出された場合、1080秒後にI/Oが失敗したことになります(X-Rayのタイムアウトを最大の180秒に設定した場合)。

 

それでは結果を見てみましょう。

 

メンテナンスモードフェーズ:

 

vSANは、すべてのタイムアウトレベルでVMの可用性を維持しています。

 

 

vSAN はメンテナンス モード フェーズで I/O エラーは発生しませんでした。

興味深いことに、稀にメンテナンス モード フェーズで vSAN が I/O エラーを起こすことがありましたが、これには正直驚きでした(少なくとも vSAN 7 Update 1 では)VMware が vSAN 7 Update 1 で次のように発表していたからです。

 

vSAN 7 Update 1では、データの高可用性を実現するために、ホストがメンテナンスモードの間の耐久性を強化し、Ensured Accessibilityモードを採用しました。

FTT=1の障害耐性を持つVMオブジェクトは、ホストをメンテナンス モードにすると、唯一のアクティブレプリカを含む 2 番目のホストが利用できなくなった場合のデータの可用性が強化されます。これにより、回復不能なノード障害が発生した場合、ホストがメンテナンスモードを終了すると、オブジェクトデータは保存された増分書き込みを使用して適宜更新されます。

出典:https//blogs.vmware.com/virtualblocks/2020/09/15/whats-new-in-vsan-7-update-1/

今回の X-Ray テストでは、vSAN 6.7とvSAN 7 Update 1でテストしたどのビルドでも、観測可能な違いはありませんでした。(ビルド16850804、17168206、17325551)

 

ローリングリブートフェーズ:

 

 

vSANは、このフェーズの間、VMの可用性を維持しました。 

 

 

vSAN は、これらのランダムに選択されたテストにおいて、180 秒を除くすべてのタイムアウト レベルで I/O エラーが発生しました。

 

180秒のI/Oタイムアウトでランダムに選択した別のテストでは、vSANに69のI/Oエラーが発生しました。

 

 

ここで特筆すべきは、vSAN が再起動または電源オフのいずれかのフェーズで合格することができるのを確認しましたが、典型的な結果では、I/O タイムアウトに関わらず、ローリング再起動フェーズと電源オフフェーズの両方でエラーが発生しています。

 

データの整合性は常に維持されなければならず、このような一貫性のない動作も懸念されます。

 

パワーサイクルフェーズ:

 

 

vSANは、このフェーズの間、VMの可用性を維持しました。

 

 

vSANは、これらのランダムに選択されたテスト実行において、180秒を含むすべてのタイムアウトレベルでI/Oエラーが発生しました。

 

タイムアウト時間を長くすると検出されるI/Oエラーの数は少なくなりますが、タイムアウト時間が180秒のテストでは150秒のテストよりも多くのエラーが発生したため、この比較は興味深いものでした。また、120秒のテストでは150秒のテストよりもエラーが多く発生しました。

 

以上のことから、I/Oタイムアウトを30秒からPVSCSIのデフォルトである180秒まで増加させることで、エラー数は減少しましたが、vSAN 7 Update 1で発生するI/Oエラーを防ぐことはできませんでした。

 

次のパート4では、vSANに 完全なデータ退避のオプションを使用するように設定し、結果が変わるかどうかを確認します。

 

パート1に戻る。


This topic has been closed for comments