Question

3ノードクラスタ障害からの回復構築中の問題

  • 13 April 2024
  • 1 reply
  • 135 views

こんにちは

3ノードで運用していましたが、1ノードが故障したため、4ノード目を追加したのち障害ノードを削除するつもりでした。

しかし、ノード追加してクラスタ拡張は完了と出たものの、4ノード目が正常は追加されていないように見えます。cluster statusを見ると4ノード目はMedusa以降がすべてDownとなっています。

4ノード目は、追加前にmanage_ovsで設定変更を実施した際にWARNINGが出ていて、これを解消しないままノード追加をしてしまったのが不味かったのかもしれないのですが、復旧できるでしょうか?

 

クラスタ拡張実施前に4ノード目で出ていたWARNINGは下記の通りです

※全NICがbr0にアサインされている状態から、2nicのみbr0にしようとしました

nutanix@NTNX-51e75960-A-CVM:192.168.0.114:~$ manage_ovs --bridge_name br0 --bond_name br0-up --interface eth4,eth5 update_uplinks
2024-04-13 12:40:07,181Z WARNING manage_ovs:1313 Failed to fetch gflags. Acropolis service might be down: HTTPConnectionPool(host='127.0.0.1', port=2030): Max retries exceeded with url: /h/gflags?show=hypervisor_username (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x7f2a15cfc4d0>: Failed to establish a new connection: [Errno 111] Connection refused',)).
2024-04-13 12:40:07,182Z WARNING manage_ovs:1313 Failed to fetch gflags. Acropolis service might be down: HTTPConnectionPool(host='127.0.0.1', port=2030): Max retries exceeded with url: /h/gflags?show=hypervisor_ahv_nonroot_support (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x7f2a15c45510>: Failed to establish a new connection: [Errno 111] Connection refused',)).
2024-04-13 12:40:09,463Z INFO cpdb.py:124 Failed to send RPC request. Retrying.
2024-04-13 12:40:19,137Z INFO cpdb.py:124 Failed to send RPC request. Retrying.
2024-04-13 12:40:20,802Z INFO manage_ovs:651 Error occurred: Failed to send RPC request
2024-04-13 12:40:20,804Z INFO manage_ovs:659 Node: 192.168.0.114 failed to connect to IDF while validating virtual switch configuration. Continuing further may result in inconsistency with the existing virtual switch configuration and require manual remediation once IDF is available.
Do you want to proceed? (Y/[N]):
n
2024-04-13 12:40:26,001Z CRITICAL manage_ovs:664 Operation aborted
nutanix@NTNX-51e75960-A-CVM:192.168.0.114:~$ 

 


This topic has been closed for comments

1 reply

Userlevel 2

こんにちは

こちらログからは仮想スイッチ設定の不整合のように見受けられますね。もし本番環境であれば速やかにNutanixサポートへ問い合わせて支援を受けてください。仮想スイッチの設定は、確かにノード追加前・またはノード追加後に設定を揃える必要があるのですが、エラーとなっているようですので、サポート問い合わせをお勧めします。