企業内のITインフラを安定して使える状態に保つことは、システム運用において欠かせないポイントです。同時に、万が一に障害が発生した際に素早く原因を見つけ出し、取るべき対策を行って正常な状態に復旧させることも、また大切なポイントです。
つまり、下記2点が重要という事になります。
MTBF(平均故障間隔) | ある故障が発生してから次の故障までの時間を長くするこ |
---|---|
MTTR(平均修理時間) | 障害が発生してから復旧するまでにかかった時間を短縮すること |
OSやアプリケーションのログには“システムが問題なく稼働しているかどうか”、そして障害が発生しているのであれば“いつからどういう問題が起こっているのか”といったことが書かれています。言うなれば、システム上で起こったすべてのことはログに記録されているのです。
筆者も新人エンジニアの頃、障害が起こるたびに先輩から「ログは見たか?」「問題が起こった時は、まずログを確認しろ」とよく言われましたが、ログを確認することはシステム運用にとってそれくらい重要なものなのです。
ITインフラ全体を包括的に監視・管理するIBMのTivoliや日立のJP1などシステム監視ソリューションには、プロセス監視などと併せて必ずログ監視の機能がついています。ログを監視することは以下のようなメリットがあります。
ログ監視をする2つのメリット
- システムが問題を抱えているかどうかを知ることができる
- 障害が発生した際に、原因の解明と復旧を早めることができる
筆者も数々のサーバ運用に携わってきましたが、現在の企業の業務システムは主にWindowsかLinuxのどちらかです。これらはOSとしての見た目や仕組みも大きく違いますが、ログ監視の方法も違います。
WindowsとLinuxのログ監視の特徴
では、両者はいったいどう違うのでしょうか。まず、WindowsとLinuxのログ監視の特徴から見ていきましょう。
Windows |
|
---|---|
Linux |
|
これらを簡単にまとめると、
- Windowsログの監視は、設定は簡単にできるがカスタマイズが難しい。
- 逆にLinuxのログ監視は、設定は難しいがいろいろなカスタマイズが出来る
といった特徴があると言えます。
ログ監視において重要なポイント
ログ監視で重要なポイントは2点あります。
- 必要な項目やサービス・プロセスなどを過不足なく監視すること
- 何か異常が発生した時に、すぐに検知できるようにすること
「必要な項目やサービス、プロセスを過不足なく」ということが重要なのは、下記の理由からです。
- 必要でない項目まで監視することで運用業務が煩雑になり、本来であれば迅速に対応すべき異常が発生しても大量の情報の中に埋もれてしまって気づかないままになる恐れがあること
- 監視システムと監視対象システム両方の負荷を軽くするため
システムの監視、とくにリアルタイムでログの監視をすることは、システムに負荷を与えます。ここで多くの項目を不用意に監視することは、パフォーマンスの低下を招く恐れもあります。したがって、監視項目を必要十分なものとして、余計な負荷を与えないようにすることも大切です。
おわりに
今回紹介したように企業システムで現在多く使われているLinuxとWindowsでは、ログの監視方法にいくつか違いがあります。監視を行う際は、両者のポイントをしっかりと把握して適切な設定で運用しましょう。