InfrabbitのMonitoring Systemでは有償オプションとなっておりますが、月次レポートを発行しております。
サーバの障害は、大きく分けると、スパイクアクセスなどに代表されるような瞬間的に大きく変化する要素と、非常に長期の稼働にわたって、少しずつ変化し、顕在化する問題の二種類に分けられます。
もう一つ、まったく顕在化しないまま問題を起こし続ける、というある種のクラッキングの問題がありますが、これは検出が非常に困難といえるものになります。
前者は誰の目にも明らかで、明確な障害として発生時刻とサーバに記録される情報の時刻に乖離が少なく、追跡がしやすい問題といえます。
後者は、長期にわたって少しずつ変化していくため、ログなども直近のものしか残っていないような場合、この問題の追跡と原因の究明には困難が伴う場合がございます。
当モニタリングシステムでは、標準で一年間をトレンドデータ(傾向データ)として記録し、直近90日間を詳細なメトリクスとして保持しています。
長期モニタリングサポートでは、2年分のトレンドデータを保持するようになっています。
これにより、長期にわたって変化している潜在的障害要因をいち早く検知し、注意喚起を起こすことを目的としています。
また、これらの潜在的問題の認知は、経験則による部分も大きなものとなります。
Infrabbitでは毎月の変化をレポーティングし、エンジニアの目でサーバの変化、変化傾向を読み取りながら、お客様に注意喚起を行っております。
以下はその発行される月次のレポーティングの一例です。
------------------------------------------------------------------------------
サーバー保守報告 2018年 7月度 (作成日 2018-08-01)
対象サーバー:monitoring_infrabbit_a0000a9
■CPU利用率 :月平均 2.65 %(最大: 90.17 %)/前月平均: 3.93 %
■ロードアベレージ :月平均 0.05 (最大: 0.96 )/前月平均: 0.09
■メモリ使用率 :月平均 52.11 %(最大: 58.03 %)/前月平均: 55.77 %
■SWAP領域使用率 :月平均 0.31 %(最大: 0.63 %)/前月平均: 0.09 %
■ディスク容量 :現在の状況
使用量 :10.33 GBytes (使用率: 53.09 %)
空き容量 : 9.23 GBytes
総容量 :19.56 GBytes
■iinode :現在の状況
空き割合 : 95.45 %
■ネットワーク(eth0)
受信トラフィック :月平均 123.74 Kbps(最大: 5.05 Mbps)/前月平均: 134.89 Kbps
送信トラフィック :月平均 71.32 Kbps(最大: 1.03 Mbps)/前月平均: 74.53 Kbps
■システムアップデート
アップデートパッケージ数: 0件
■発生したイベント履歴
発生時刻: 18/07/19 02:18:30 PM : [軽微の障害] monitoring_infrabbit_a0000a9:crond サービスダウンを検知
解消時刻: 18/07/19 02:19:00 PM
■概略
■所定外作業
■特記事項
------------------------------------------------------------------------------
当システムのホストの一つをレポートした内容になります。
概略、特記事項などはこれらのレポートから読み取れる現状、および将来的な問題に対する注意喚起となり、所定外作業にはいわゆる障害対応を中心とした対応作業が行われた場合に、それらを記載していきます。
当システムでは自動再起動も組み込まれており、上記レポート中のイベントも、システムが障害を検知し、自動的に回復させた処理となります。
当システムは特定のクラウドサービスなどを対象として限定したものではございませんので、監視用のエージェントの組み込み、およびそのエージェントとの通信手段が確保されれば、オンプレミス環境や様々なクラウドサービス、VPS、専有サーバのようなものにもご対応可能です。
当システムご利用時には、可視化サービスとしてGrafanaを利用したダッシュボードも併せてご提供いたしております。
デモンストレーションも可能ですので、お気軽にお問い合わせください。