こんにちは
3ノードで運用していましたが、1ノードが故障したため、4ノード目を追加したのち障害ノードを削除するつもりでした。
しかし、ノード追加してクラスタ拡張は完了と出たものの、4ノード目が正常は追加されていないように見えます。cluster statusを見ると4ノード目はMedusa以降がすべてDownとなっています。
4ノード目は、追加前にmanage_ovsで設定変更を実施した際にWARNINGが出ていて、これを解消しないままノード追加をしてしまったのが不味かったのかもしれないのですが、復旧できるでしょうか?
クラスタ拡張実施前に4ノード目で出ていたWARNINGは下記の通りです
※全NICがbr0にアサインされている状態から、2nicのみbr0にしようとしました
nutanix@NTNX-51e75960-A-CVM:192.168.0.114:~$ manage_ovs --bridge_name br0 --bond_name br0-up --interface eth4,eth5 update_uplinks
2024-04-13 12:40:07,181Z WARNING manage_ovs:1313 Failed to fetch gflags. Acropolis service might be down: HTTPConnectionPool(host='127.0.0.1', port=2030): Max retries exceeded with url: /h/gflags?show=hypervisor_username (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x7f2a15cfc4d0>: Failed to establish a new connection: Errno 111] Connection refused',)).
2024-04-13 12:40:07,182Z WARNING manage_ovs:1313 Failed to fetch gflags. Acropolis service might be down: HTTPConnectionPool(host='127.0.0.1', port=2030): Max retries exceeded with url: /h/gflags?show=hypervisor_ahv_nonroot_support (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x7f2a15c45510>: Failed to establish a new connection: cErrno 111] Connection refused',)).
2024-04-13 12:40:09,463Z INFO cpdb.py:124 Failed to send RPC request. Retrying.
2024-04-13 12:40:19,137Z INFO cpdb.py:124 Failed to send RPC request. Retrying.
2024-04-13 12:40:20,802Z INFO manage_ovs:651 Error occurred: Failed to send RPC request
2024-04-13 12:40:20,804Z INFO manage_ovs:659 Node: 192.168.0.114 failed to connect to IDF while validating virtual switch configuration. Continuing further may result in inconsistency with the existing virtual switch configuration and require manual remediation once IDF is available.
Do you want to proceed? (Y/aN]):
n
2024-04-13 12:40:26,001Z CRITICAL manage_ovs:664 Operation aborted
nutanix@NTNX-51e75960-A-CVM:192.168.0.114:~$