Nutanix CE よろず相談所


Userlevel 3
Badge +5

Nutanix Community Edition(CE)に関する話題はこちらへどうぞ。


35 replies

@smzksts さん

ご案内いただいた手順でNutanixCEを起動できました。

ありがとうございました。

Userlevel 3
Badge +5

遅レスになってしまいましたが、疎通不能なノードの強制削除についてはこちらのKBがご参考になるかと思いますので貼らせて頂きます。

Removing Unreachable or Powered-off Nodes From Nutanix Clusters
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA032000000TSnZCAW

 

Prism Central VMもグレーアウトしてしまっているとのことなので、もしも仮にPrism Central配下からの強瀬離脱も必要となった場合のための情報として、こちらもご参考まで。

Unregister cluster from Prism Central and cleanup | Force unregister PE from PC after PC is deleted
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA00e000000XeZjCAK

How to delete a Prism Central VM
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA00e000000LKnuCAG

Userlevel 3
Badge +5

@Muneto さん

ご報告ありがとうございます。

どうやらノードが削除できていないようですね…。
ncli host rm-startコマンドに force=true というオプションを追加すると成功するかもしれません。

また、古いPCは、PrismのGUI操作では削除できませんが、CVMのコマンドラインで 
acli vm.delete <Prism Central VM name> で消せるのではないかと思います。
(私自身も過去何度か、この操作で削除しています)

ただ、古いPCが残っていてもディスク容量の消費以外、干渉したりすることは無いはずですので、新しいPCをデプロイし、接続して頂いても問題ないと思います。

smzksts 様

 

他のホストは正常に動作していますので、グレー以外の仮想マシンの変更や新規作成には問題ありません。

 

ホスト(クラスタ)の再構築は最終手段としてある程度覚悟はしていました。

スペックはかなり落ちるものの、一時的な受け皿とするための機材は何とかなりそうですので、最悪そうしないといけないね、と内輪では話をしていた感じです。

仰るとおり、かなりいろいろなテストをしたりホストの差し替えを頻繁に行ったりで無茶している環境ではありますので、このあたりですっきりと整理しても良いかなと思っています。

 

まだご提示いただいたKBの内容は読み切れていませんが、なんとなく一致しそうな気がしています。

Acropolisサービスのマスター再起動はまた後日試してみて、解決しなければ一時的に別のクラスタ作ってAsyncDRで逃がしてクラスタを1から再構成することを計画しようと思います。

 

CE版にも関わらず、いろいろアドバイスいただけてむしろ感謝しております。

また少し間が空くと思いますが、結果などは報告させていただきますのでよろしくお願いします。

 

こんにちは。

https://speakerdeck.com/smzksts/nutanix-ce-5-dot-18-deep-dive?slide=56

上記の56スライド目以降を拝見して、Nutanix CE 5.18にESXiをインストールするときに必要なLocal VMFS有効化を行おうとしましたが、インストール後リブート前に/dev/sdd5 をマウント時にdoes not exitと返されてしまい、/dev/sda5 の起動用のjsonファイルの該当箇所は元から

"user_vmfs?_datastore":"true"

となっているのですが、そのままrebootをかけるとFaild-Installになってしまいますが、
ssd5のパスは環境によってかわりますでしょうか。(ls /dev で確認したところssd1のみ確認できましたが/Nutanix以下のディレクトリはなし)

■試したESXiバージョン
7.0U2a-17867351
7.0-15843807
6.7-14320388

何卒宜しくお願い致します。

自己解決済み

7.0U2a-17867351
7.0-15843807

→VMFS参照不可


6.7-14320388

→VMFS参照可,CVMの起動に失敗していたので,スライド62以降の手順でpyスクリプトの修正・再実行・Clusterの手動作成にて無事Prsim起動いたしました。

smzksts 様

 

だいぶ間が開いてしまい恐縮ですが、一部仮想マシンが削除できない&ホストも削除できないの件で、少し前進しました。

 

Acropolisのマスター再起動はまだ試していませんが、別のクラスタをシングルノードで構築してリモートDRでクラスタ跨いでスナップショットを取る、というのをやってみました。

 

結果としては、灰色になって起動も削除もできなかった仮想マシンを含め(少々驚きました)、スナップショットの取得に成功、別のクラスタ上で正常に起動することも確認できました。

灰色になった仮想マシンの復旧方法としても使えそうです。

 

とりあえず必要そうな仮想マシンを新しいクラスタに一旦退避して、何が起きても大丈夫な状態でAcropolisのマスター再起動も試してみようと思います。

 

業務の合間で試しているのでなかなか進みませんが、また報告させていただきます。

お世話になります。

SSHクライアントの縦横の表示文字数(ウィンドウサイズ)を目一杯広げてからインストーラーを再実行してみてはいかがでしょうか?

 

ご推察・ご指摘の通りでした…。

SSH経由操作だけでスクリーンサイズ不足のエラーを回避できるものと思い込んでおり、

恥ずかしながら、エラーメッセージの文意通りの事を試しておりませんでした。

 

その後無事仮想マシン構築までたどり着けました。

実は今回、このためだけに環境を一式揃えたもので、

お陰様で10万円超の出費が無駄にならずに済みそうです。

本当にありがとうございました。

 

Userlevel 3
Badge +5

@Takayuki Momose さま
CE 202.09.16ですと仮想マシンのUEFIブートにいくつか問題があるようでして、
acli vm.nic_create <VM_NAME> model=e1000 network=<VM_NETWORK_NAME>
という感じでNICをVirtIOではなくe1000に妥協することで一応NIC付きでの起動まで行けるのですが、Windows Server 2019や2016では、その後OSのインストーラーで、ドライバーを読み込ませた後のステップにBSODになってしまいました。

私の方では有効な手立てを持ち合わせておらず、本バージョンではLegacy Bootでお使いいただくことをオススメしております…。

Nutanix Filesについてご教示ください。

CE(202009)にてサポートされたと聞き試行したところ、毎回タスクが下記メッセージにてエラー停止します。

「Cannot complete request in state InvalidVmState: Cannot complete request in state Paused」

確かにVMタブを見ていると、いったんFile Server VMがパワーオンし、その後ポーズ状態に遷移し削除されています。何か思い当たる解決策がありましたら、ご教示ください。

 

Userlevel 3
Badge +5

このスレッドこそ最初に作るべきでした…:thinking:

NutanixCEについてご教示ください。

物理サーバー(RX1330 M4 ベアメタル)を購入し、 NutanixCEをUSBブートにて導入しようとしておりますが、 機器がUEFIブートしか対応しておりませんでした。 そのため、フォーマットがFAT32でしかブートの認識をしてくれないのですが、 4GBを超えるNutanixCEイメージをFAT32形式でUSBに保存できません。 何か解決方法があれば教えていただけないでしょうか。

Userlevel 3
Badge +5

@Takayuki Momose さん

ご質問ありがとうございます。

Nutanix CEのブートUSBを作成する際は、フォーマット済みのUSBメモリにファイルを放り込むのではなく、imgファイル自身がディスクイメージ(内部にパーティションやファイルシステムがある)なので、イメージ書込みツールやddコマンド等で書き込む必要があります。(USBメモリ自体を事前に何らかのファイルシステムでフォーマットする必要はありません)

下記の記事における手順4が当該の部分です。
一度こちらの方法をご確認いただけますでしょうか?

https://blog.ntnx.jp/entry/2020/02/24/152143

 

ご返信ありがとうございます。
USBWriterで書き込むと、BootOptionでUSBが選択肢に出てきません。
おそらくUEFI対応のみで、CSMの設定がない機種なので
FAT32形式でフォーマットし、imgファイルを配置しないと選択出来ないと思っております。
(NTFSやexFATだとブートの選択ができませんでした)
※Windowsの場合ですが下記記事などを参考にしています。
https://syobon.jp/blog/2017/07/24/melancholy-of-windows-server-manager-tips-01/

もし、無理なようであればESXiで仮想環境に導入したいと考えています。

Userlevel 3
Badge +5

すみません、問題点を読み違えておりました…:pray:

[4枚目]Nutanix Advent Calendar 2019 にご投稿いただいた記事に、まさにという情報がありました。こちらでいかがでしょうか?

UEFIネイティブな NutanixComunityEdition

ありがとうございます!

Linuxサーバー調達してやってみたいと思います。

Userlevel 3
Badge +5

@Takayuki Momose さん

ご報告ありがとうございます!よかったです:thumbsup:

smzksts 様

 

参考情報誠にありがとうございます。大変助かります。

早速内容を確認して試してみたいと思います。

 

結果や状況に変化が出ましたら、あらためて報告させていただきます。

smzksts 様

 

大変お世話になっております。

ご提示いただいた情報をもとに、まず故障したホストの削除を試みてみました。

nutanix@cvm$ ncli host rm-start id=xxxxxx skip-space-check=trueHost removal successfully initiated

※xxxxxxは、「ncli host list」で確認した値

 

その後、「ncli host get-remove-status」で確認しますと、

    Host Id                   : xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    Host Status               : MARKED_FOR_REMOVAL_BUT_NOT_DETACHABLE
    Ring Changer Host Address : xx.xx.xx.xx
    Ring Changer Host Id      : xxxxxxxxxxxxxxxxxxxxx

この状態のまま変化がない状態が続いており、PEで見ると依然ホストが削除されないまま残っているように見えます。

念のため、タスクも「ncli progress-monitor list」で確認してみましたが、削除コマンド実行時の時間に近い(UTC表示でしたので、9時間足して確認しています)タスクは表示されませんでした。

 

追加:

最初の書き込みで書き忘れがありましたので、追記しておきます。

「ncli host list」の出力で、削除したいホストの「Metadata store status」は

    Metadata store status     : Node is removed from metadata store

となっております。

 

なおPrismCentralの接続解除は、ご提示いただいたKBの内容で正常に行えました。

仮想マシンは残っていますが、とりあえず一歩前進した感じです。PEで見ても「Prism Central に登録されていません」となっているので、大丈夫だと思います。

仮想マシンのテーブルに元のPCの仮想マシンが残っていることを気にしなければ、新規でPrismCentralをデプロイしても問題ないでしょうか。

 

ホストの削除は、時間がかかっているだけかもしれませんので、もう少し時間をおいて再度確認してみようと思います。

 

また進捗があればご報告させていただきます。

smzksts 様

 

大変お世話になっております。

 

Prism Centralを削除しなくても新規で接続するのは問題ないとのことで、また一つ前に進めそうです。

※すぐに使えないといけない予定も無いので、あとからじっくりやってみようと思います。

 

acli vm.delete は実行してみましたが、PCの仮想マシンは削除できませんでした。

試しに他の仮想マシンでもやってみましたが、以下のような結果でした。

・「仮想マシン」ー「テーブル」でグレーになっている仮想マシンはタスクが0%のまま進まない

・赤(停止中)で正常なホストにいる仮想マシンは何の問題もなく削除できる

・緑(起動中)の仮想マシンでは試していません

 

ホスト削除のncli host rm-start force=true も実行してみましたが、こちらも

Host removal successfully initiated

と応答はあるものの、前回同様にタスクが出てくる気配がない状態です。

 

何度かトライしているので裏で処理が進んでないタスクが残っているのではと思い、

https://next.nutanix.com/how-it-works-22/clear-out-stuck-tasks-31879?postid=39355#post39355

ここの情報を参考にして

ecli task.list include_completed=false

で表示されたタスクはすべて

~/bin/ergon_update_task --task_uuid=xxxxxxxxxxxxxxxxx --task_status=aborted

で中断してみましたが、ホストの削除もVMの削除も効果が無い状況です。

 

少しNutanixバイブル(日本語版)も見て確認してみたんですが、ncli vm.delete には force=trueのような強制するオプションは無いのですよね?

 

あと試してみたことは、削除できない仮想マシンのディスクを acli vm.disk_delete で削除してからならできないかな?とも思ったのですが、これ自体も0%のままで進みませんでした。

 

きっと障害が発生したときに、あとからホスト削除→再構築して再度追加ではなく、ブートディスク(USBメモリ)の復旧をすればこんなことにはならなかったと深く反省している次第です。

※何度もやっている手順でもあったので、作業者に指示しやすかった面もあったのですが・・・。

 

とりあえず、3台構成でもテストや評価は進められる部分も多いので、気長に対応していこうと思います。

Userlevel 3
Badge +5

@Muneto さん

PCの削除もノードの削除もレスポンスが無いというのは気になりますね…。
他のVMの作成/削除には支障ない状態でしょうか?

ご認識のとおり、acli vm.delete にはforceオプションはありません。本来、デフォルトでforceな形で処理されるものです。

MARKED_FOR_REMOVAL_BUT_NOT_DETACHABLEをキーワードとして検索して、他に関連しそうな公開KBとしては下記のもの程度でした。

AHV | Node removal stuck after successfully entering maintenance mode
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA00e0000009D6CCAU

もしもこちらの状況に合致するようであれば、回避策として、Acropolisサービスのマスターを再起動する、という方法も考えられます。

  1. 任意のCVMのCLIにログインし
    links http://127.0.0.1:2030
    というコマンドを実行すると、テキストベースのウェブブラウザが実行されます。
  2. Acropolisサービスの詳細が表示されますので「Acropolis Master」という項目を確認します。「this node」または他のCVMのIPアドレスが表示されます。
  3. Acropolis Masterの項目に表示されたCVMにアクセスし。下記のコマンドでacropolisサービスを再起動します。
    genesis stop acropolis; cluster start
  4. もしも手順3でも変化がない場合には、メンテナンスモードの無効化と有効化を手動で行います。
    acli host.exit_maintenance_mode <host IP or uuid>
    acli host.enter_maintenance_mode <host IP or uuid>

他にもKBを探してみたのですが、あいにくInternal向け(非公開)なものに限られておりました…不安定な状態で様々な対応を試行するのもリスキーな気もしています(商用版ならサポート部門が解析した上でより的確な対応策をご案内するのですが、なにぶんCEのため…)。

もしも大事なGuest VMがある&CEをインストール可能な機材が他にもありましたらAsync DRでデータの退避した上で再インストールを行うなどの対応も視野に入れておいて頂くのがよろしいかもしれません。

Userlevel 3
Badge +5

Twitter等では紹介していたのですが、CE関連の資料を作ったのでコチラにも載せておきます!

Nutanix CE 5.18のインストールに関する詳細解説資料です。
インストール周りで躓きがちなポイントとその回避方法をたくさん載せてますので、
上手くいかないときにまずはご一読くださいませ。

Nutanix Community Edition 5.18 徹底解説 (Speaker Deck)

こんにちは。

https://speakerdeck.com/smzksts/nutanix-ce-5-dot-18-deep-dive?slide=56

上記の56スライド目以降を拝見して、Nutanix CE 5.18にESXiをインストールするときに必要なLocal VMFS有効化を行おうとしましたが、インストール後リブート前に/dev/sdd5 をマウント時にdoes not exitと返されてしまい、/dev/sda5 の起動用のjsonファイルの該当箇所は元から

"user_vmfs?_datastore":"true"

となっているのですが、そのままrebootをかけるとFaild-Installになってしまいますが、
ssd5のパスは環境によってかわりますでしょうか。(ls /dev で確認したところssd1のみ確認できましたが/Nutanix以下のディレクトリはなし)

■試したESXiバージョン
7.0U2a-17867351
7.0-15843807
6.7-14320388

何卒宜しくお願い致します。

お世話になります。junk11と申します。

徹底解説のスライドを参照しCEの5.18インストールを試みているのですが20pの記載に従い

UEFI起動順を設定してもエラーになり、SSH経由でリトライしても[screen is terminating]となり

インストールに進めない事象となります。

https://speakerdeck.com/smzksts/nutanix-ce-5-dot-18-deep-dive?slide=20

 

H/W構成の概要は以下の通りです。

Lenovo ThinkCentre M75s Small Gen2

Ryzen7 PRO 4750G 32GB

samsung 970 EVO Plus 2TB(Hot Tier:nvme0n1)

Seagate ST8000DM004 8TB(Cold Tier:sdb)

intel SSDSA2M080G2GC 120GB(HV起動用:sda)

KIOXIA USB3.2 Gen1 32GB(iso起動用:sdc)

[root@phoenix ~]# lsblk
NAME    MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
nvme0n1 259:0    0   1.8T  0 disk
sdb       8:16   0   7.3T  0 disk
sr0      11:0    1  1024M  0 rom
loop0     7:0    0   194M  0 loop
sdc       8:32   1  28.9G  0 disk
└─sdc1    8:33   1  28.9G  0 part /mnt/iso
sda       8:0    0 111.8G  0 disk
└─sda1    8:1    0 111.8G  0 part

 

事前の情報収集にてできるだけ実績のある(ありそうな)ものを

チョイスしたつもりですが、行き詰り、困り果てております。

何のどこから確認したものか、ヒントだけでもいただければ幸いです。

以上、よろしくお願いいたします。

UEFI起動順を設定してもエラーになり、SSH経由でリトライしても[screen is terminating]となり

インストールに進めない事象となります。

上記続報、自己レスです。

ストレージの接続や構成をいろいろと変更して試していたところ、起動用USBを含め、物理ストレージが4台以上となると上記の事象となる様です。

4台すべてUSB経由⇒NG

USBBoot+3台SATA接続⇒NG

SATABoot+2台SATA+1台nvme⇒NG

SATABoot+2台SATA⇒TUI起動するが、NextPageを選択で同様のスクリーンサイズ不足エラー発生。

(そもそもBoot imageを保持するディスクに対しH/C/Dを選択せざるを得ない構成)

SATAorUSB Boot+1台SATA+1台nvme⇒同上

今回利用しているLenovo M75s Gen2はSpeaker Deckのスライドp18にも言及があり、

インストールの実績があるものと思いますが成功された方はどのようなストレージ構成だったのでしょうか?

BIOS(UEFI)の設定変更やインストールスクリプトの変更などが必要なのでしょうか。

ご存じの方がいらっしゃいましたらぜひ情報提供をお願いします。

 

 

 

Userlevel 3
Badge +5

junk01さん、すみません返信遅くなりました。

M75sでインストール成功しているのは私の自宅環境ですね。

このマシンだとブートデバイス優先度の変更では成功しなかったため、SSH経由でインストールしました。

また、ディスク構成は下記のとおりです。記載いただいている環境と大きな違いはないように思います…。

AHV→NVMe SSD(120GB)

CVM→SATA-SSD(2TB)

Data→SATA-SSD(2TB)


Screen is terminatingとなってしまう場合、Teraterm等のログ機能を使って、Terminatingの表示になる直前にどのようなエラーが表示されていたのかを確認すると解決のヒントになるかもしれません。

Reply