2016年頃に3ノードで導入したNutanix(vSphere)がノード障害を起こしてしまいました。
調べてみると、ハードウェア障害でした。
現在、障害の出ているノードはvSphere上では、該当のノードに”!”マークが表示されている状態です。
iDRACでは、アクセスできており、メモリエラーが出ていました。
(ソフトウェア・ハードウェア共にサポートが切れている状態です。
Error:Correctable memory error rate exceeded for DIMM_B1.
障害からの復旧方法をご教示いただけませんでしょうか。
疑問点は以下の通りです。
・障害の出ているノードをシャットダウンしても良いかどうか。
・ハードウェアエラー復旧後のノード再登録方法。
以上となります。よろしくお願いいたします。
iDRACということはXCシリーズなので、関連ドキュメントはこのあたりかと思います。
サポート切れの状態とのことでお手伝いできず恐れ入りますが、サポートポータル内のDocumentationやKBなどの公開情報をご活用ください。
こちらはコミュニティとなりますので、障害に対する復旧等の情報はベストエフォートとなり、お伝えした内容によって、何らかの不具合や業務支障があっても保証できませんので、原則サポートにお伺いしていただきたく思います。
という前置きを置いた上で、解決方法に向けて役に立つか分りませんが、何らかのヒントだけでもお出しできればと思ってはおります。
まず、故障したノードというのは現在ハイパーバイザーやCVMは起動している状態でしょうか?
こちらの状態を教えてください。
Prism画面から、!マークが出ているとのことですので、他のノードのCVMから、該当ノードのCVMに対して疎通が出来なくなっているのではないかと思います。
CVMが起動しておらず仮想マシンが起動している状態であれば、仮想マシンを他のノードのvMotion等で移動を行った後、そのホストをシャットダウンして故障部分を修理を行ってください。
故障したノードのCVMがまだ稼働中の場合、他のノードから故障したノードのCVMに対してPING等疎通が出来るかと、CVMにSSH等でログインし、「cluster status」コマンドを実行し、故障したノードのステータス情報を確認する必要があります。(CVMがメンテナンスモードになっているのかサービスがダウンしているのかを判断する必要があります)
故障したノードのCVMが、稼動していてメンテナンスモードになっている場合は、故障したノードのCVMにSSH等でCVMにログイン後、「cvm_shutdown -P now」でシャットダウンを実行後、CVMのシャットダウンが完了したらハイパーバイザーのシャットダウンを行い、故障箇所を修理してください。
修理完了後、故障していたノードをパワーオンするとCVM含め起動が行われますので、起動後、故障していたノードのCVMにログインし、「cluster status」で再度状態を確認します。メンテナンスモードになったままであればメンテナンスモードを解除する必要があります。
このステータス状態によって復旧方法は異なりますが、通常ノードが起動して30分以上経つと自動的に元のクラスターメンバーに復帰するのですが、メタデーターの情報が異常に古い場合は、別途メタデーターの同期処理をPrism画面から行う必要があります。
ちなみに、ご利用頂いているAOSとハイパーバイザーのバージョンは何をお使いでしょうか?
現在サポート契約がないとのことですが、AOSが古いバージョンですと一部動作や画面が異なる事があります。また、AOS自体のバグも新しいバージョンで修正されていることが多くありますので、可能であればサポート契約をいただきたくAOSも最新版にバージョンアップして頂くことをおすすめいたします。
皆さま、ご返答いただきありがとうございます。
リンクありがとうございます。
確認してみようと思います。
詳細ありがとうございます。
CVMは停止状態で、vSphere上からみて、ノードも停止している状態です。
AOSは、5.0.4.1、ハイパーバイザは vmware 6.0.0 となります。
実際に作業するかどうかは、こちらの判断となるところであることは承知しております。
その上で、ノード復旧後の再登録方法は、今回記載いただいた内容でいいますと下記の作業をおこなうということでよろしいのでしょうか。
修理完了後、故障していたノードをパワーオンするとCVM含め起動が行われますので、起動後、故障していたノードのCVMにログインし、「cluster status」で再度状態を確認します。メンテナンスモードになったままであればメンテナンスモードを解除する必要があります。
また、メタデータに関してですが、
復旧までにかなり時間がかかってしまう予定です。1週間空いてしまう場合は、同期処理をおこなう必要はありますでしょうか。
AOSは、5.0系なんですね...。一応杓子定規にいうとサポートが既に終わっているバージョンとなりますので、可能であればバージョンは今のサポートされるバージョンにあげて頂くことをおすすめいたします。
現行が、CVMが停止していればそのノードのストレージやNutanixクラスターの役割としては稼動していませんので、故障したノードで稼働している仮想マシンがあればその仮想マシンを他の正常なノードにvMoptionしていただき、故障したノードはシャットダウン後修理をして頂いて問題ありません。
修理完了後、故障ノードを起動し、CVMにSSHでログインし「cluster status」で状態を確認し、各サービスが起動していることを確認し、しばらく待っておけば自動的にCassandra Ringに復活するはずなのですが、メタデーターの同期が必要な場合は、Prism側で障害が起きたホストを選択するとMetaDataの修復のメニュー「enable-metadata-store」が表示されるはずで,コレをクリックすると自動でMetaDataの復旧が完了します。
※enable-metadata-storeのメニューがAOS5.0.xのPrismで表示されるのがこちらでは確認ができておりません。
Prism上に表示されない場合、以下のKBを参考にMetaDataを同期させることが可能です。
https://portal.nutanix.com/page/documents/kbs/details?targetId=kA00e000000Cs4gCAC
Reply
Enter your E-mail address. We'll send you an e-mail with instructions to reset your password.