Question

Nutanix CE ノード復旧時に仮想マシンが停止

  • 7 September 2021
  • 2 replies
  • 36 views

Nutanix CEの3ノードクラスタで1ノードに障害が発生し、再セットアップを実施している最中に仮想マシンが停止する事象が発生しました。

現在の状態から復旧可能か再構築が必要かお分かりになりましたら教えてください。

 

バージョンは2020.09.16を使用しております。

 

■経緯

1.3ノードの内、1ノード(2号機)で稼働している仮想マシンが全てパワーオフになっていることを確認。

 

2.ログを確認したところ、HAでfail overがかかった記録があり、リソース不足で仮想マシンがパワーオンできなかったことを確認。

 

3.パワーオフされている仮想マシンを1台手動でパワーオンすると以下のエラーが発生し、仮想マシンがパワーオンできないことを確認。

----------

NetworkError: OVS Error running: { "args":[ "br0","be616bfb-4c01-4ed1-8232-49c10a69aeda","50:6b:8d:e7:f5:fb",1500,0,true,[],false,null,null ], "cmd": "create_local_port", "kwargs":{}} Output: Error: /bin/bash: Input/Output error

----------

 

4.2号機のコンソールを確認したところ、AHV用のUSBメモリのエラーが発生し、コンソールログインできない状態だったため、2号機の電源を強制再起動。

 

5.再起動してもブートメディアが見つからないメッセージが表示されAHVが起動しなかったので、AHV用のUSBメモリをWindows機に差し替え、USBメモリの正常性を確認したところ、アクセスができない状態になっていたことを確認。

 

6.昨日日本語フォーラム向けにブートデバイス障害時の復旧方法について質問させていただき、本日新しいAHV用USBメモリを用意して2号機を4号機(新規ノード)として再インストールを実施。

昨日質問させていただいたフォーラムのURL

----------

https://next.nutanix.com/%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A9%E3%83%A0-70/nutanix-ce-%E3%83%96%E3%83%BC%E3%83%88%E3%83%A1%E3%83%87%E3%82%A3%E3%82%A2%E6%95%85%E9%9A%9C%E6%99%82%E3%81%AE%E5%AF%BE%E5%BF%9C%E6%96%B9%E6%B3%95%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6-39996

----------

 

7.旧2号機を4号機として再インストールを進めていたところ、正常だった1号機で稼働している仮想マシンがパワーオフされてしまったことを確認。

さらに、クラスタ用のIPアドレスへの疎通と、1号機のCVMのIPアドレスへの疎通ができなくなってしまったことを確認。

 

8.3号機のCVMにログインし、cluster statusコマンドを実施したところ、1号機と2号機(残骸ノード)のCVMがDown、3号機のCVMのみがUp、その他サービスは全てUpになっていることを確認。

この時点では3号機のCVMのIPアドレスに対してブラウザアクセスし、Prismの画面が表示できたことを確認。

 

9.4号機(旧2号機)の再インストールが終わったので、3号機のCVMのIPでPrismへアクセスし、クラスタ拡張を実施したところ、Pre expand-cluster tests startedのタスクが5%で停止したまま進まなくなったことを確認。

このタイミングで3号機で稼働している仮想マシンがパワーオフされてしまったことを確認。

 

10.仮想マシンのテーブルを確認したところ、1号機のCVMは表示されていますが、3号機のCVMが表示されておらず、3号機のCVMで稼働していた仮想マシンの電源状態が不明となり、パワーオンやWebコンソールの起動等の操作が行えなくなりました。

 

 

挙動的に多重障害が起きているような雰囲気もあるのですが、ここから仮想マシンを再度起動することが可能か切り分け方法がございましたらご教示いただきたく存じます。

 

長文で恐縮ですがご確認いただけますと幸いです。


2 replies

Userlevel 3
Badge +5

2号機が失われた状態で、仮想マシンの起動(をするための分散ストレージの動作)やクラスターの拡張を行うためには、分散アーキテクチャの仕組み上、1号機と3号機がともに稼働していることが必須要件となります。

1号機のCVMが停止した原因は不明ですが、8の時点でPrismが表示されていたとしても内部的には動作継続のための要件を満たしていないと考えられます。

よって、まずは1号機と3号機のCVMが起動しクラスターのサービスがデグレしつつも何とか動作する状態に持っていけるか、が復旧可否の分かれ目になります。

早速のご確認誠に感謝いたします。

まずは1号機のCVMが起動できるか(SSHアクセスできるか)を確認してみます。

Reply