vSphere環境を運用していると、稀に「パープルパニック(Purple Screen of Death, PSOD)」という致命的なエラーに遭遇することがあります。これは、ESXiホストがカーネルレベルのクラッシュを起こし、紫色の画面にエラーメッセージを表示する状態を指します。パープルパニックは、ハードウェアの問題やドライバの不具合、メモリ破損などさまざまな要因によって引き起こされます。
本記事では、
- パープルパニックの発生原因
- エラーログの確認方法
- 適切な対応策
について詳しく解説していきます。特に、ログを適切に取得・解析することが、迅速な復旧と再発防止に役立ちますので、ぜひ最後までご覧ください。
vSphereのパープルパニック(PSOD)とは?
パープルパニックの概要
「パープルパニック(Purple Screen of Death, PSOD)」とは、VMware ESXiホストがカーネルレベルでクラッシュし、制御不能に陥る現象です。Windowsの「ブルースクリーン」に相当するもので、クラッシュした際に紫色の背景に白い文字でエラーメッセージが表示されます。
この状態になると、ESXiホストは応答不能になり、仮想マシン(VM)も停止します。管理者は手動でホストをリブートし、問題の原因を特定して再発防止策を講じる必要があります。
パープルパニックの主な発生原因
パープルパニックが発生する原因は多岐にわたりますが、代表的なものを以下に挙げます。
1. ハードウェアの不具合
- メモリエラー(ECCエラーの蓄積など)
- CPUの障害(温度上昇、故障)
- ディスクやストレージコントローラの障害
2. デバイスドライバやファームウェアの不具合
- サードパーティ製ドライバの不適合
- ハードウェアのファームウェアとESXiのバージョン不整合
- ネットワークアダプタやストレージアダプタのドライババグ
3. ソフトウェアや設定の問題
- カーネルモジュールのバグ
- 過負荷によるリソース不足
- メモリリークやスケジューラの問題
4. サードパーティ製のカーネルモジュールの影響
- サードパーティ製の監視ツールやアンチウイルスソフトがESXiのカーネルと競合することがあります。
- vSphereと互換性のない拡張モジュールがクラッシュの原因になることがあります。
パープルパニック発生時のログの確認方法
PSODが発生した際、原因を特定するために以下の方法でログを取得・解析します。
1. パープルスクリーンのスクリーンショットを取得する
PSODが発生すると、画面上にエラーメッセージが表示されます。この情報は、VMwareサポートや社内でのトラブルシューティングに役立ちます。
- 画面全体のスクリーンショットを撮影する。
- 特に「Exception Type」「Error Code」「PCIPool」「ESXi build番号」を確認。
2. コアダンプを取得する
ESXiホストはクラッシュ時にコアダンプを作成し、ログを保持します。
取得方法:
esxcli system coredump file list
上記コマンドでダンプファイルの保存場所を確認し、必要に応じてサポートに送信します。
3. vmkernel.logの確認
ログファイル「vmkernel.log」には、クラッシュ直前のエラー情報が記録されています。
ログの場所:
/var/log/vmkernel.log
以下のコマンドでエラーログを確認:
cat /var/log/vmkernel.log | grep -i "error"
または、リアルタイムにログを監視する場合は:
tail -f /var/log/vmkernel.log
4. ホストのログをリモートサーバーへ保存
クラッシュ後にログが失われないよう、syslogサーバーに送信する設定を推奨します。
設定方法:
esxcli system syslog config set --loghost='tcp://syslogserver:514'
esxcli system syslog reload
パープルパニック発生時の対応方法
1. ホストの再起動
クラッシュしたESXiホストは通常、手動で再起動が必要です。
- 再起動前にログを収集しておくことが重要。
- 再起動後はESXiの健全性を確認。
2. ハードウェアの診断を実施
- メモリやCPUに問題がないか、ベンダー提供の診断ツールを実行する。
- ECCエラーが多発している場合は、メモリの交換を検討する。
3. ESXiのパッチ適用とファームウェア更新
- VMwareのKBサイトを確認し、該当するパッチがないか調査する。
- ハードウェアのファームウェアを最新バージョンに更新する。
4. サードパーティ製ドライバの見直し
- 最新のVMware互換リスト(HCL)に準拠したドライバを使用しているか確認。
- 互換性のないドライバが原因の場合、公式のものに入れ替える。
5. リソースの最適化と監視強化
- 過負荷が原因の場合は、CPUやメモリの割り当てを見直す。
- vCenter Serverやサードパーティ製監視ツールでESXiの状態を定期的に監視。
まとめ
vSphereのパープルパニック(PSOD)は、ESXiホストがクラッシュした際に発生する深刻なエラーです。発生した際には、
- スクリーンショットを取得し、エラーメッセージを記録する
- ログ(vmkernel.log、コアダンプ)を取得し、原因を特定する
- ホストを再起動し、ハードウェアやドライバを点検する
- 必要なパッチを適用し、リソースの最適化を図る
といった対応を迅速に行うことが重要です。事前にsyslogサーバーの設定や監視ツールを活用することで、障害発生時の対応をスムーズに進めることができます。
もしパープルパニックが頻発する場合は、VMwareサポートに問い合わせ、適切な対処方法を確認することをおすすめします。