Categories: OS

vSphere VMWare Esxiのパープルパニックとは?原因・ログの確認方法・対処法を徹底解説

vSphere環境を運用していると、稀に「パープルパニック(Purple Screen of Death, PSOD)」という致命的なエラーに遭遇することがあります。これは、ESXiホストがカーネルレベルのクラッシュを起こし、紫色の画面にエラーメッセージを表示する状態を指します。パープルパニックは、ハードウェアの問題やドライバの不具合、メモリ破損などさまざまな要因によって引き起こされます。

本記事では、

  • パープルパニックの発生原因
  • エラーログの確認方法
  • 適切な対応策

について詳しく解説していきます。特に、ログを適切に取得・解析することが、迅速な復旧と再発防止に役立ちますので、ぜひ最後までご覧ください。


vSphereのパープルパニック(PSOD)とは?

パープルパニックの概要

「パープルパニック(Purple Screen of Death, PSOD)」とは、VMware ESXiホストがカーネルレベルでクラッシュし、制御不能に陥る現象です。Windowsの「ブルースクリーン」に相当するもので、クラッシュした際に紫色の背景に白い文字でエラーメッセージが表示されます。

この状態になると、ESXiホストは応答不能になり、仮想マシン(VM)も停止します。管理者は手動でホストをリブートし、問題の原因を特定して再発防止策を講じる必要があります。


パープルパニックの主な発生原因

パープルパニックが発生する原因は多岐にわたりますが、代表的なものを以下に挙げます。

1. ハードウェアの不具合

  • メモリエラー(ECCエラーの蓄積など)
  • CPUの障害(温度上昇、故障)
  • ディスクやストレージコントローラの障害

2. デバイスドライバやファームウェアの不具合

  • サードパーティ製ドライバの不適合
  • ハードウェアのファームウェアとESXiのバージョン不整合
  • ネットワークアダプタやストレージアダプタのドライババグ

3. ソフトウェアや設定の問題

  • カーネルモジュールのバグ
  • 過負荷によるリソース不足
  • メモリリークやスケジューラの問題

4. サードパーティ製のカーネルモジュールの影響

  • サードパーティ製の監視ツールやアンチウイルスソフトがESXiのカーネルと競合することがあります。
  • vSphereと互換性のない拡張モジュールがクラッシュの原因になることがあります。

パープルパニック発生時のログの確認方法

PSODが発生した際、原因を特定するために以下の方法でログを取得・解析します。

1. パープルスクリーンのスクリーンショットを取得する

PSODが発生すると、画面上にエラーメッセージが表示されます。この情報は、VMwareサポートや社内でのトラブルシューティングに役立ちます。

  • 画面全体のスクリーンショットを撮影する。
  • 特に「Exception Type」「Error Code」「PCIPool」「ESXi build番号」を確認。

2. コアダンプを取得する

ESXiホストはクラッシュ時にコアダンプを作成し、ログを保持します。
取得方法:

esxcli system coredump file list

上記コマンドでダンプファイルの保存場所を確認し、必要に応じてサポートに送信します。

3. vmkernel.logの確認

ログファイル「vmkernel.log」には、クラッシュ直前のエラー情報が記録されています。
ログの場所:

/var/log/vmkernel.log

以下のコマンドでエラーログを確認:

cat /var/log/vmkernel.log | grep -i "error"

または、リアルタイムにログを監視する場合は:

tail -f /var/log/vmkernel.log

4. ホストのログをリモートサーバーへ保存

クラッシュ後にログが失われないよう、syslogサーバーに送信する設定を推奨します。
設定方法:

esxcli system syslog config set --loghost='tcp://syslogserver:514'
esxcli system syslog reload

パープルパニック発生時の対応方法

1. ホストの再起動

クラッシュしたESXiホストは通常、手動で再起動が必要です。

  • 再起動前にログを収集しておくことが重要。
  • 再起動後はESXiの健全性を確認。

2. ハードウェアの診断を実施

  • メモリやCPUに問題がないか、ベンダー提供の診断ツールを実行する。
  • ECCエラーが多発している場合は、メモリの交換を検討する。

3. ESXiのパッチ適用とファームウェア更新

  • VMwareのKBサイトを確認し、該当するパッチがないか調査する。
  • ハードウェアのファームウェアを最新バージョンに更新する。

4. サードパーティ製ドライバの見直し

  • 最新のVMware互換リスト(HCL)に準拠したドライバを使用しているか確認。
  • 互換性のないドライバが原因の場合、公式のものに入れ替える。

5. リソースの最適化と監視強化

  • 過負荷が原因の場合は、CPUやメモリの割り当てを見直す。
  • vCenter Serverやサードパーティ製監視ツールでESXiの状態を定期的に監視。

まとめ

vSphereのパープルパニック(PSOD)は、ESXiホストがクラッシュした際に発生する深刻なエラーです。発生した際には、

  1. スクリーンショットを取得し、エラーメッセージを記録する
  2. ログ(vmkernel.log、コアダンプ)を取得し、原因を特定する
  3. ホストを再起動し、ハードウェアやドライバを点検する
  4. 必要なパッチを適用し、リソースの最適化を図る

といった対応を迅速に行うことが重要です。事前にsyslogサーバーの設定や監視ツールを活用することで、障害発生時の対応をスムーズに進めることができます。

もしパープルパニックが頻発する場合は、VMwareサポートに問い合わせ、適切な対処方法を確認することをおすすめします。

upandup

Web制作の記事を中心に、暮らし、ビジネスに役立つ情報を発信します。 アフィリエイトにも参加しています。よろしくお願いいたします。