5 Essential Tips for Maximizing Your Experience at Nutanix .NEXT for Bloggers
お世話になります。1点質問よろしいでしょうか。 Nutanix CEのクラスタからホストを削除するところで引っかかっております。 4ノードクラスタを構成し稼働させていました。VM用のVLANを設定したタイミングだと思うのですが、ホスト1台が見えなくなってしまいました。確認するとそのホストのCVMが起動不能になっていましたのでAHVのCLIからvirsh startで起動を試みましたがやはり起動しませんでした。今まで何度かホストの入れ替え(スペックを上げるために1台クラスタから削除して1台追加する、といった感じ)は行っておりましたので、同じように問題のあるホストを削除して、再セットアップしたホストをあらためて追加しようとしたのですが、該当ホスト上で稼働していた4つの仮想マシン(+Prism Centralの仮想マシン)がPrism Elementで見ると、On(緑)、Off(赤)のところがunknownという灰色のマークになっており、マイグレーションも起動もできない状態のため、クラスタから外すこともできません。「ハードウェア」-「ホスト」で該当ホストをポイントすると、リスト下のメニューは「Being Removed」の表示になっています。恐らく、この灰色の表示になったunknownのステータスのVMをどうにかできれば正常にホストを削除できると思うのですが、何か良い方法は無いでしょうか。なお問題が起きたホストは、現状USBメモリから再セットアップを行った状態です。 バージョン情報は以下のとおりです。AOS:2019.11.22AHV:20191030.415NCC:3.10.1Foundation:foundation-4.5.4.2-94510908 以上、よろしくお願いいたします。
smzksts 様 参考情報誠にありがとうございます。大変助かります。早速内容を確認して試してみたいと思います。 結果や状況に変化が出ましたら、あらためて報告させていただきます。
smzksts 様 大変お世話になっております。ご提示いただいた情報をもとに、まず故障したホストの削除を試みてみました。nutanix@cvm$ ncli host rm-start id=xxxxxx skip-space-check=trueHost removal successfully initiated※xxxxxxは、「ncli host list」で確認した値 その後、「ncli host get-remove-status」で確認しますと、 Host Id : xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Host Status : MARKED_FOR_REMOVAL_BUT_NOT_DETACHABLE Ring Changer Host Address : xx.xx.xx.xx Ring Changer Host Id : xxxxxxxxxxxxxxxxxxxxxこの状態のまま変化がない状態が続いており、PEで見ると依然ホストが削除されないまま残っているように見えます。念のため、タスクも「ncli progress-monitor list」で確認してみましたが、削除コマンド実行時の時間に近い(UTC表示でしたので、9時間足して確認しています)タスクは表示されませんでした。 追加:最初の書き込みで書き忘れがありましたので、追記しておきます。「ncli host list」の出力で、削除したいホストの「Metadata store status」は Metadata store status : Node is removed from metadata storeとなっております。 なおPrismCentralの接続解除は、ご提示いただいたKBの内容で正常に行えました。仮想マシンは残っていますが、とりあえず一歩前進した感じです。PEで見ても「Prism Central に登録されていません」となっているので、大丈夫だと思います。仮想マシンのテーブルに元のPCの仮想マシンが残っていることを気にしなければ、新規でPrismCentralをデプロイしても問題ないでしょうか。 ホストの削除は、時間がかかっているだけかもし
smzksts 様 大変お世話になっております。 Prism Centralを削除しなくても新規で接続するのは問題ないとのことで、また一つ前に進めそうです。※すぐに使えないといけない予定も無いので、あとからじっくりやってみようと思います。 acli vm.delete は実行してみましたが、PCの仮想マシンは削除できませんでした。試しに他の仮想マシンでもやってみましたが、以下のような結果でした。・「仮想マシン」ー「テーブル」でグレーになっている仮想マシンはタスクが0%のまま進まない・赤(停止中)で正常なホストにいる仮想マシンは何の問題もなく削除できる・緑(起動中)の仮想マシンでは試していません ホスト削除のncli host rm-start force=true も実行してみましたが、こちらもHost removal successfully initiatedと応答はあるものの、前回同様にタスクが出てくる気配がない状態です。 何度かトライしているので裏で処理が進んでないタスクが残っているのではと思い、https://next.nutanix.com/how-it-works-22/clear-out-stuck-tasks-31879?postid=39355#post39355ここの情報を参考にしてecli task.list include_completed=falseで表示されたタスクはすべて~/bin/ergon_update_task --task_uuid=xxxxxxxxxxxxxxxxx --task_status=abortedで中断してみましたが、ホストの削除もVMの削除も効果が無い状況です。 少しNutanixバイブル(日本語版)も見て確認してみたんですが、ncli vm.delete には force=trueのような強制するオプションは無いのですよね? あと試してみたことは、削除できない仮想マシンのディスクを acli vm.disk_delete で削除してからならできないかな?とも思ったのですが、これ自体も0%のままで進みませんでした。 きっと障害が発生したときに、あとからホスト削除→再構築して再度追加ではなく、ブートディスク(USBメモリ)の復旧をすればこんなことにはならなかったと深く反省している次第です。※何度もやっている手順
smzksts 様 他のホストは正常に動作していますので、グレー以外の仮想マシンの変更や新規作成には問題ありません。 ホスト(クラスタ)の再構築は最終手段としてある程度覚悟はしていました。スペックはかなり落ちるものの、一時的な受け皿とするための機材は何とかなりそうですので、最悪そうしないといけないね、と内輪では話をしていた感じです。仰るとおり、かなりいろいろなテストをしたりホストの差し替えを頻繁に行ったりで無茶している環境ではありますので、このあたりですっきりと整理しても良いかなと思っています。 まだご提示いただいたKBの内容は読み切れていませんが、なんとなく一致しそうな気がしています。Acropolisサービスのマスター再起動はまた後日試してみて、解決しなければ一時的に別のクラスタ作ってAsyncDRで逃がしてクラスタを1から再構成することを計画しようと思います。 CE版にも関わらず、いろいろアドバイスいただけてむしろ感謝しております。また少し間が空くと思いますが、結果などは報告させていただきますのでよろしくお願いします。
smzksts 様 だいぶ間が開いてしまい恐縮ですが、一部仮想マシンが削除できない&ホストも削除できないの件で、少し前進しました。 Acropolisのマスター再起動はまだ試していませんが、別のクラスタをシングルノードで構築してリモートDRでクラスタ跨いでスナップショットを取る、というのをやってみました。 結果としては、灰色になって起動も削除もできなかった仮想マシンを含め(少々驚きました)、スナップショットの取得に成功、別のクラスタ上で正常に起動することも確認できました。灰色になった仮想マシンの復旧方法としても使えそうです。 とりあえず必要そうな仮想マシンを新しいクラスタに一旦退避して、何が起きても大丈夫な状態でAcropolisのマスター再起動も試してみようと思います。 業務の合間で試しているのでなかなか進みませんが、また報告させていただきます。
smzksts 様 お世話になっております。また大分時間が開いてしまいましたが、破損ホストの削除不可、一部仮想マシンの操作不能(グレー表示)の件で結果報告いたします。 Acropolisのマスター再起動は、既に試していたようです。残してあった操作のメモ見たら、同じKBを参照して対応していました。残念ながらAcropolis再起動では解決しなかったようです。 仮のクラスタは問題なくリモートDRで仮想マシンの移動ができて動作確認もできましたので、すべてのホストを新規クラスタで作り直しました。現在は、仮クラスタの仮想マシンを戻し、すべて正常に動作するようになりました。ありがとうございました!※いろんなテストをしていたので、かえってこれでスッキリきれいな環境になってうれしい面もあります。 今回の一件で、NutanixCEでいろいろテストしていく上で結構リモートDRは良いなぁと感じました。最悪クラスタを破壊するようなことがあっても、あっさり戻せるのは安心感があります。※10GLANということもあるかもしれませんが、あまりに速くて逆に心配になったくらいです。NGTを入れていない仮想マシンも多かったので、今回は仮想マシンをシャットダウンしてからスナップショットを取るようにして移行しましたが、NGTを入れておけば活動中でも大丈夫そうです。このあたりはもう少しテストしてみようと思います。 さて、再構築したときに気付いたのですが、いつの間にか新しいバージョンがリリースされていたのですね。こまめにPrismでアップデートの確認していてもNCCとFoundation以外は出てきていなかったので、そのまま2019.11.22版で再構築したのですが、コミュニティ見ると2020.09.16版になっていて驚きました。Prismのアップデートでは検出されませんでしたが、「バイナリのアップロード」でアップデートしても問題は無いでしょうか?なんとなく順序としては、AOSのアップデート AHVのアップデート PrismCentralのアップデートこんな感じなのかなと思っていますが、合ってますでしょうか。
いつもお世話になっております。 以下リンク先の内容に沿って、アップグレードを実行してみました。https://blog.ntnx.jp/entry/2020/09/30/235747 4台ホストのクラスタ中、1台だけは普通にアップグレードが完了(タスク一覧で100%になりました)したように見えましたが、残り3台が73%のまま数日待っても変化無しという状態です。あまりに状況に変化が無いままでしたので、一旦クラスタを停止して、ホストの再起動を行ったところ、クラスタが起動しなくなってしまいました。 cluster start→WARNING genesis_utils.py:1199 Failed to reach a node where Genesis is up. Retrying... (Hit Ctrl-C to abort) ※24行くらい繰り返しWaiting on xx.xx.xx.xx (Up, ZeusLeader) to start: IkatProxy IkatControlPlane SSLTerminator SecureFileSync Medusa DynamicRingChanger Pithos Mantle Stargate InsightsDB InsightsDataTransfer Ergon Cerebro Chronos Curator Athena Prism CIM AlertManager Arithmos Catalog Acropolis Uhura Snmp SysStatCollector NutanixGuestTools MinervaCVM ClusterConfig Mercury Aequitas APLOSEngine APLOS Lazan Delphi Flow Anduril XTrim ClusterHealthWaiting on xx.xx.xx.xx(Up) to start: IkatProxy IkatControlPlane SSLTerminator SecureFileSync Medusa DynamicRingChanger Pithos Mantle Stargate InsightsDB InsightsDataTransfer Ergon Cerebro Chr
その後、クラスタのステータスなどを調べて、4台中3台のCVMでscavengerサービスが起動していないことがわかりました。起動しているのはアップデートが正常完了?したホストの1台だけです。また、ncliやacliを実行するとconnection refusedとなり、zookeeper.outにも同様にZOO_ERROR@handle_socket_error_msg@2185: Socket [xx.xx.xx.xx:9876] zk retcode=-4, errno=111(Connection refused): server refused to accept the clientが延々と記録されている状況です。 ここがクリアになれば先に進める気がするのですが、何か情報は無いでしょうか?
smzksts 様 上記の状態ですが、例えば途中で中断したアップグレードを再開させるコマンドなどは無いでしょうか?途中で再起動するようなことをしてしまっているのでうまく完了するとは限らないのですが、試してみる価値は無いでしょうか。
Already have an account? Login
Enter your username or e-mail address. We'll send you an e-mail with instructions to reset your password.
Sorry, we're still checking this file's contents to make sure it's safe to download. Please try again in a few minutes.
Sorry, our virus scanner detected that this file isn't safe to download.