Nutanix CE よろず相談所


Userlevel 2
Badge +5

Nutanix Community Edition(CE)に関する話題はこちらへどうぞ。


16 replies

Userlevel 2
Badge +5

このスレッドこそ最初に作るべきでした…:thinking:

NutanixCEについてご教示ください。

物理サーバー(RX1330 M4 ベアメタル)を購入し、 NutanixCEをUSBブートにて導入しようとしておりますが、 機器がUEFIブートしか対応しておりませんでした。 そのため、フォーマットがFAT32でしかブートの認識をしてくれないのですが、 4GBを超えるNutanixCEイメージをFAT32形式でUSBに保存できません。 何か解決方法があれば教えていただけないでしょうか。

Userlevel 2
Badge +5

@Takayuki Momose さん

ご質問ありがとうございます。

Nutanix CEのブートUSBを作成する際は、フォーマット済みのUSBメモリにファイルを放り込むのではなく、imgファイル自身がディスクイメージ(内部にパーティションやファイルシステムがある)なので、イメージ書込みツールやddコマンド等で書き込む必要があります。(USBメモリ自体を事前に何らかのファイルシステムでフォーマットする必要はありません)

下記の記事における手順4が当該の部分です。
一度こちらの方法をご確認いただけますでしょうか?

https://blog.ntnx.jp/entry/2020/02/24/152143

 

ご返信ありがとうございます。
USBWriterで書き込むと、BootOptionでUSBが選択肢に出てきません。
おそらくUEFI対応のみで、CSMの設定がない機種なので
FAT32形式でフォーマットし、imgファイルを配置しないと選択出来ないと思っております。
(NTFSやexFATだとブートの選択ができませんでした)
※Windowsの場合ですが下記記事などを参考にしています。
https://syobon.jp/blog/2017/07/24/melancholy-of-windows-server-manager-tips-01/

もし、無理なようであればESXiで仮想環境に導入したいと考えています。

Userlevel 2
Badge +5

すみません、問題点を読み違えておりました…:pray:

[4枚目]Nutanix Advent Calendar 2019 にご投稿いただいた記事に、まさにという情報がありました。こちらでいかがでしょうか?

UEFIネイティブな NutanixComunityEdition

ありがとうございます!

Linuxサーバー調達してやってみたいと思います。

@smzksts さん

ご案内いただいた手順でNutanixCEを起動できました。

ありがとうございました。

Userlevel 2
Badge +5

@Takayuki Momose さん

ご報告ありがとうございます!よかったです:thumbsup:

お世話になります。1点質問よろしいでしょうか。

 

Nutanix CEのクラスタからホストを削除するところで引っかかっております。

 

4ノードクラスタを構成し稼働させていました。VM用のVLANを設定したタイミングだと思うのですが、ホスト1台が見えなくなってしまいました。

確認するとそのホストのCVMが起動不能になっていましたのでAHVのCLIからvirsh startで起動を試みましたがやはり起動しませんでした。

今まで何度かホストの入れ替え(スペックを上げるために1台クラスタから削除して1台追加する、といった感じ)は行っておりましたので、同じように問題のあるホストを削除して、再セットアップしたホストをあらためて追加しようとしたのですが、該当ホスト上で稼働していた4つの仮想マシン(+Prism Centralの仮想マシン)がPrism Elementで見ると、On(緑)、Off(赤)のところがunknownという灰色のマークになっており、マイグレーションも起動もできない状態のため、クラスタから外すこともできません。

「ハードウェア」-「ホスト」で該当ホストをポイントすると、リスト下のメニューは「Being Removed」の表示になっています。

恐らく、この灰色の表示になったunknownのステータスのVMをどうにかできれば正常にホストを削除できると思うのですが、何か良い方法は無いでしょうか。

なお問題が起きたホストは、現状USBメモリから再セットアップを行った状態です。

 

バージョン情報は以下のとおりです。

AOS:2019.11.22

AHV:20191030.415

NCC:3.10.1

Foundation:foundation-4.5.4.2-94510908

 

以上、よろしくお願いいたします。

Userlevel 2
Badge +5

遅レスになってしまいましたが、疎通不能なノードの強制削除についてはこちらのKBがご参考になるかと思いますので貼らせて頂きます。

Removing Unreachable or Powered-off Nodes From Nutanix Clusters
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA032000000TSnZCAW

 

Prism Central VMもグレーアウトしてしまっているとのことなので、もしも仮にPrism Central配下からの強瀬離脱も必要となった場合のための情報として、こちらもご参考まで。

Unregister cluster from Prism Central and cleanup | Force unregister PE from PC after PC is deleted
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA00e000000XeZjCAK

How to delete a Prism Central VM
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA00e000000LKnuCAG

smzksts 様

 

参考情報誠にありがとうございます。大変助かります。

早速内容を確認して試してみたいと思います。

 

結果や状況に変化が出ましたら、あらためて報告させていただきます。

smzksts 様

 

大変お世話になっております。

ご提示いただいた情報をもとに、まず故障したホストの削除を試みてみました。

nutanix@cvm$ ncli host rm-start id=xxxxxx skip-space-check=trueHost removal successfully initiated

※xxxxxxは、「ncli host list」で確認した値

 

その後、「ncli host get-remove-status」で確認しますと、

    Host Id                   : xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    Host Status               : MARKED_FOR_REMOVAL_BUT_NOT_DETACHABLE
    Ring Changer Host Address : xx.xx.xx.xx
    Ring Changer Host Id      : xxxxxxxxxxxxxxxxxxxxx

この状態のまま変化がない状態が続いており、PEで見ると依然ホストが削除されないまま残っているように見えます。

念のため、タスクも「ncli progress-monitor list」で確認してみましたが、削除コマンド実行時の時間に近い(UTC表示でしたので、9時間足して確認しています)タスクは表示されませんでした。

 

追加:

最初の書き込みで書き忘れがありましたので、追記しておきます。

「ncli host list」の出力で、削除したいホストの「Metadata store status」は

    Metadata store status     : Node is removed from metadata store

となっております。

 

なおPrismCentralの接続解除は、ご提示いただいたKBの内容で正常に行えました。

仮想マシンは残っていますが、とりあえず一歩前進した感じです。PEで見ても「Prism Central に登録されていません」となっているので、大丈夫だと思います。

仮想マシンのテーブルに元のPCの仮想マシンが残っていることを気にしなければ、新規でPrismCentralをデプロイしても問題ないでしょうか。

 

ホストの削除は、時間がかかっているだけかもしれませんので、もう少し時間をおいて再度確認してみようと思います。

 

また進捗があればご報告させていただきます。

Userlevel 2
Badge +5

@Muneto さん

ご報告ありがとうございます。

どうやらノードが削除できていないようですね…。
ncli host rm-startコマンドに force=true というオプションを追加すると成功するかもしれません。

また、古いPCは、PrismのGUI操作では削除できませんが、CVMのコマンドラインで 
acli vm.delete <Prism Central VM name> で消せるのではないかと思います。
(私自身も過去何度か、この操作で削除しています)

ただ、古いPCが残っていてもディスク容量の消費以外、干渉したりすることは無いはずですので、新しいPCをデプロイし、接続して頂いても問題ないと思います。

smzksts 様

 

大変お世話になっております。

 

Prism Centralを削除しなくても新規で接続するのは問題ないとのことで、また一つ前に進めそうです。

※すぐに使えないといけない予定も無いので、あとからじっくりやってみようと思います。

 

acli vm.delete は実行してみましたが、PCの仮想マシンは削除できませんでした。

試しに他の仮想マシンでもやってみましたが、以下のような結果でした。

・「仮想マシン」ー「テーブル」でグレーになっている仮想マシンはタスクが0%のまま進まない

・赤(停止中)で正常なホストにいる仮想マシンは何の問題もなく削除できる

・緑(起動中)の仮想マシンでは試していません

 

ホスト削除のncli host rm-start force=true も実行してみましたが、こちらも

Host removal successfully initiated

と応答はあるものの、前回同様にタスクが出てくる気配がない状態です。

 

何度かトライしているので裏で処理が進んでないタスクが残っているのではと思い、

https://next.nutanix.com/how-it-works-22/clear-out-stuck-tasks-31879?postid=39355#post39355

ここの情報を参考にして

ecli task.list include_completed=false

で表示されたタスクはすべて

~/bin/ergon_update_task --task_uuid=xxxxxxxxxxxxxxxxx --task_status=aborted

で中断してみましたが、ホストの削除もVMの削除も効果が無い状況です。

 

少しNutanixバイブル(日本語版)も見て確認してみたんですが、ncli vm.delete には force=trueのような強制するオプションは無いのですよね?

 

あと試してみたことは、削除できない仮想マシンのディスクを acli vm.disk_delete で削除してからならできないかな?とも思ったのですが、これ自体も0%のままで進みませんでした。

 

きっと障害が発生したときに、あとからホスト削除→再構築して再度追加ではなく、ブートディスク(USBメモリ)の復旧をすればこんなことにはならなかったと深く反省している次第です。

※何度もやっている手順でもあったので、作業者に指示しやすかった面もあったのですが・・・。

 

とりあえず、3台構成でもテストや評価は進められる部分も多いので、気長に対応していこうと思います。

Userlevel 2
Badge +5

@Muneto さん

PCの削除もノードの削除もレスポンスが無いというのは気になりますね…。
他のVMの作成/削除には支障ない状態でしょうか?

ご認識のとおり、acli vm.delete にはforceオプションはありません。本来、デフォルトでforceな形で処理されるものです。

MARKED_FOR_REMOVAL_BUT_NOT_DETACHABLEをキーワードとして検索して、他に関連しそうな公開KBとしては下記のもの程度でした。

AHV | Node removal stuck after successfully entering maintenance mode
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA00e0000009D6CCAU

もしもこちらの状況に合致するようであれば、回避策として、Acropolisサービスのマスターを再起動する、という方法も考えられます。

  1. 任意のCVMのCLIにログインし
    links http://127.0.0.1:2030
    というコマンドを実行すると、テキストベースのウェブブラウザが実行されます。
  2. Acropolisサービスの詳細が表示されますので「Acropolis Master」という項目を確認します。「this node」または他のCVMのIPアドレスが表示されます。
  3. Acropolis Masterの項目に表示されたCVMにアクセスし。下記のコマンドでacropolisサービスを再起動します。
    genesis stop acropolis; cluster start
  4. もしも手順3でも変化がない場合には、メンテナンスモードの無効化と有効化を手動で行います。
    acli host.exit_maintenance_mode <host IP or uuid>
    acli host.enter_maintenance_mode <host IP or uuid>

他にもKBを探してみたのですが、あいにくInternal向け(非公開)なものに限られておりました…不安定な状態で様々な対応を試行するのもリスキーな気もしています(商用版ならサポート部門が解析した上でより的確な対応策をご案内するのですが、なにぶんCEのため…)。

もしも大事なGuest VMがある&CEをインストール可能な機材が他にもありましたらAsync DRでデータの退避した上で再インストールを行うなどの対応も視野に入れておいて頂くのがよろしいかもしれません。

smzksts 様

 

他のホストは正常に動作していますので、グレー以外の仮想マシンの変更や新規作成には問題ありません。

 

ホスト(クラスタ)の再構築は最終手段としてある程度覚悟はしていました。

スペックはかなり落ちるものの、一時的な受け皿とするための機材は何とかなりそうですので、最悪そうしないといけないね、と内輪では話をしていた感じです。

仰るとおり、かなりいろいろなテストをしたりホストの差し替えを頻繁に行ったりで無茶している環境ではありますので、このあたりですっきりと整理しても良いかなと思っています。

 

まだご提示いただいたKBの内容は読み切れていませんが、なんとなく一致しそうな気がしています。

Acropolisサービスのマスター再起動はまた後日試してみて、解決しなければ一時的に別のクラスタ作ってAsyncDRで逃がしてクラスタを1から再構成することを計画しようと思います。

 

CE版にも関わらず、いろいろアドバイスいただけてむしろ感謝しております。

また少し間が空くと思いますが、結果などは報告させていただきますのでよろしくお願いします。

 

Reply