Skip to main content

こんにちは。 CEの2020 09版について相談させていただきたく。

 

インストールは完了するのですが、CVMが起動しません。起動後virshで確認すると

しばらくpausedの状態になり、shut offになります。

 

構成は

SATA DOM → hyper visor用

NVMe M2 SSD → CVM用

SAS x4(RAID Card(EP400i)でRAID0 x4を構成) → Data用

としてインストールしています。

 

ドライブの種類があまり多いのは推奨されない、とどこかで見た覚えがあるのでそういうものか

と、思ったりもするのですがSASが大分余っているので有効活用したくもあり、解決方法があれば

教えて頂きたく。

 

なお、前のバージョンでは

SATA DOM → ddでimgを書き込んで起動、インストール実行

SATA SSD

SAS x4(RAID Card(EP400i)でRAID0 x4を構成)

の構成で動作していました。

 

また、2020 09でも

SATA DOM → hyper visor用

NVMe M2 SSD → CVM用

SATA Disk (or SATA SSD) → Data用

とした場合も問題はありませんでした。

AHVの/var/log/libvirt/qemu/NTNX-*-A-CVM.log に何かエラーメッセージは出力されていますでしょうか?

当該のバージョンからインストーラーの仕組みが根本的に変わっていて、HW認識の処理のされ方が異なっているため、上手く動かないケースもあるようです。旧バージョンで動くのであれば、一旦旧バージョンでインストールしてから最新版にアップデート、という方法も取れるかもしれません。


ワーニング、エラーと思われるものは下記が記録されていました。

2021-03-18T15:54:54.419875Z qemu-kvm: -drive file=/dev/disk/by-id/scsi-360030057026f2aa027e62eb306298c40,format=raw,if=none,id=drive-scsi0-0-0-0,serial=00408c2906b32ee6,cache=none,aio=native: 'serial' is deprecated
, please use the corresponding option of '-device' instead

2021-03-18T15:54:54.421145Z qemu-kvm: -drive file=/dev/disk/by-id/scsi-360030057026f2aa027e62ed908780937,format=raw,if=none,id=drive-scsi0-0-0-1,serial=0037097808d92ee6,cache=none,aio=native: 'serial' is deprecated
, please use the corresponding option of '-device' instead

2021-03-18T15:54:54.435069Z qemu-kvm: -drive file=/dev/disk/by-id/ata-Samsung_SSD_860_QVO_1TB_S4CZNF0M579762M,format=raw,if=none,id=drive-scsi0-0-0-2,serial=S4CZNF0M579762M,cache=none,aio=native: 'serial' is deprec
ated, please use the corresponding option of '-device' instead

2021-03-18T15:54:54.439108Z qemu-kvm: warning: Large machine and max_ram_below_4g (536870912) not a multiple of 1G; possible bad performance.

2021-03-18T15:54:55.366057Z qemu-kvm: -device vfio-pci,host=02:00.0,id=hostdev0,bus=pci.0,addr=0x7,rombar=0: vfio error: 0000:02:00.0: group 1 is not viable
Please ensure all devices within the iommu_group are bound to their vfio bus driver.


エラーメッセージのご確認ありがとうございます!
気になった点としては以下の2つです。

1つは、SATA接続のSSDがCVMに(おそらく自動で)アタッチされている点です。

2021-03-18T15:54:54.435069Z qemu-kvm: -drive file=/dev/disk/by-id/ata-Samsung_SSD_860_QVO_1TB_S4CZNF0M579762M,format=raw,if=none,id=drive-scsi0-0-0-2,serial=S4CZNF0M579762M,cache=none,aio=native: 'serial' is deprec
ated, please use the corresponding option of '-device' instead

最初の投稿に書かれていた今回の使用機材には含まれていなかったので、本来使用されないはずのものであれば、物理的に外してインストールし直した確度は上がると思います。

もう1つは、PCIパススルーに失敗している点です。(おそらくNVMe M.2 SSD?)

2021-03-18T15:54:55.366057Z qemu-kvm: -device vfio-pci,host=02:00.0,id=hostdev0,bus=pci.0,addr=0x7,rombar=0: vfio error: 0000:02:00.0: group 1 is not viable
Please ensure all devices within the iommu_group are bound to their vfio bus driver.

PCIパススルーに失敗している原因の切り分けができていませんが(※検索するとKVMユーザーのフォーラムがたくさんヒットする)、前述のSATA SSDが使えるのであれば、M.2 SSDは外してしまって、CVMのインストール先をSATA SSDにする、という構成の方が成功しやすいかと思います。


UEFIからBIOSに変えたところログの内容が少し変わりました。

 

2021-03-26 14:06:40.006+0000: starting up libvirt version: 4.5.0, package: 23.20190916.0.30357.el7 (Unknown, 2020-08-22-04:27:46, c3bf5f303e52), qemu version: 2.12.0qemu-kvm-2.12.0-18.20190916.5.61504.el7, kernel: 4.19.84-2.el7.nutanix.20190916.276.x86_64, hostname: NTNX-8d4323f7-A
LC_ALL=C PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin QEMU_AUDIO_DRV=none /usr/libexec/qemu-kvm -name guest=NTNX-8d4323f7-A-CVM,debug-threads=on -S -object secret,id=masterKey0,format=raw,file=/var/lib/libvirt/qemu/domain-b1bc784e-2a75-4100-ace6-ed777904e673/master-key.aes -enable-fips -machine pc-i440fx-rhel7.6.0,accel=kvm,usb=off,dump-guest-core=off,mem-merge=off,max-ram-below-4g=536870912 -cpu host,spec-ctrl=off,+kvm_pv_eoi -m 20480 -mem-prealloc -mem-path /dev/hugepages/libvirt/qemu/b1bc784e-2a75-4100-ace6-ed777904e673 -realtime mlock=off -smp 2,sockets=2,cores=1,threads=1 -uuid b1bc784e-2a75-4100-ace6-ed777904e673 -no-user-config -nodefaults -chardev socket,id=charmonitor,path=/var/lib/libvirt/qemu/domain-b1bc784e-2a75-4100-ace6-ed777904e673/monitor.sock,server,nowait -mon chardev=charmonitor,id=monitor,mode=control -rtc base=utc -no-shutdown -boot menu=off,strict=on -device virtio-scsi-pci,id=scsi0,bus=pci.0,addr=0x6 -drive file=/var/lib/libvirt/NTNX-CVM/svmboot.iso,format=raw,if=none,id=drive-ide0-1-0,readonly=on -device ide-cd,bus=ide.1,unit=0,drive=drive-ide0-1-0,id=ide0-1-0,bootindex=1 -drive file=/dev/disk/by-id/scsi-360030057026f2aa027e763cd05be8dab,format=raw,if=none,id=drive-scsi0-0-0-0,serial=00ab8dbe05cd63e7,cache=none,aio=native -device 'scsi-hd,bus=scsi0.0,channel=0,scsi-id=0,lun=0,drive=drive-scsi0-0-0-0,id=scsi0-0-0-0,wwn=0x60030057026f2aa0,vendor=ATA,product=PRAID EP400i,write-cache=on' -netdev tap,fds=29:30:31:32,id=hostnet0,vhost=on,vhostfds=33:34:35:36 -device virtio-net-pci,mq=on,vectors=10,netdev=hostnet0,id=net0,mac=50:6b:8d:1a:c0:b8,bus=pci.0,addr=0x3 -netdev tap,fds=37:38:39:40,id=hostnet1,vhost=on,vhostfds=43:44:45:46 -device virtio-net-pci,mq=on,vectors=10,netdev=hostnet1,id=net1,mac=50:6b:8d:62:1a:f0,bus=pci.0,addr=0x4 -netdev tap,fds=47:48:49:50,id=hostnet2,vhost=on,vhostfds=41:42:51:53 -device virtio-net-pci,mq=on,vectors=10,netdev=hostnet2,id=net2,mac=50:6b:8d:b0:f1:cc,bus=pci.0,addr=0x5 -chardev file,id=charserial0,path=/var/log/NTNX.serial.out.0,append=on -device isa-serial,chardev=charserial0,id=serial0 -vnc 127.0.0.1:0 -device cirrus-vga,id=video0,bus=pci.0,addr=0x2 -device vfio-pci,host=02:00.0,id=hostdev0,bus=pci.0,addr=0x7,rombar=0 -sandbox on,obsolete=deny,elevateprivileges=deny,spawn=deny,resourcecontrol=deny -msg timestamp=on
2021-03-26 14:06:40.006+0000: Domain id=5 is tainted: host-cpu
2021-03-26T14:06:40.158793Z qemu-kvm: -drive file=/dev/disk/by-id/scsi-360030057026f2aa027e763cd05be8dab,format=raw,if=none,id=drive-scsi0-0-0-0,serial=00ab8dbe05cd63e7,cache=none,aio=native: 'serial' is deprecated, please use the corresponding option of '-device' instead
2021-03-26T14:06:40.169136Z qemu-kvm: warning: Large machine and max_ram_below_4g (536870912) not a multiple of 1G; possible bad performance.
2021-03-26T14:06:41.035247Z qemu-kvm: -device vfio-pci,host=02:00.0,id=hostdev0,bus=pci.0,addr=0x7,rombar=0: vfio error: 0000:02:00.0: group 1 is not viable
Please ensure all devices within the iommu_group are bound to their vfio bus driver.
2021-03-26 14:06:41.157+0000: shutting down, reason=failed


「LC_ALL=C」から「msg timestamp=on」まで数行に渡ってオプションが連なる長いコマンドは、QEMUに対して仮想マシンの起動指示をしているもので、エラーではありませんので今回の件では気にしないで頂いて大丈夫です。

やはりCVMの起動を阻害している直接的な理由は同じ部分で

2021-03-26T14:06:41.035247Z qemu-kvm: -device vfio-pci,host=02:00.0,id=hostdev0,bus=pci.0,addr=0x7,rombar=0: vfio error: 0000:02:00.0: group 1 is not viable
Please ensure all devices within the iommu_group are bound to their vfio bus driver.

の部分だと考えられます。キーワード “vfio error group 1 is not viable” あたりで検索を掛けてみると、Intel Skylake世代のCPUハードウェア側に起因する問題であるというやり取りが出てきました。

https://www.reddit.com/r/VFIO/comments/aqipht/virtman_install_fails_with_group_1_not_viable/

ご利用中のマシンのCPU世代はSkylakeでしょうか?もしも該当する場合、可能であれば、NVMeを取り外してSATA等のディスクに替えた状態で挙動をご確認頂けますと幸いです。


Reply