SRE 関連の
第11章に、
監視アセスメントとは
監視アセスメントとは
- 何を監視すべきか、
なぜ 監視すべきかを、 システマチックに 判断する 方法。 - 何が問題で
何が 問題でないのかを、 考える 出発点となる。
監視アセスメントの 流れ
書籍の
- KPI、
技術指標設定フェーズ - 監視項目設定フェーズ
- アラート設定フェーズ
個人的に
1. KPI、 技術指標設定フェーズ
KPI、
ビジネスKPIの 定義に ついて
書籍では、Tater.ly
と
- 参考書籍
ビジネスKPIと 技術指標の 中間指標作成
個人的な
サービスの
- 例
企業としては、 契約数を KPIと 置いているが、 支援部門向けの 社内システムの 保守メンテナンスを している。
例のような
また、
ビジネスKPIと 技術指標の 結び 付け
中間指標の
結び
2. 監視項目設定フェーズ
監視項目設定フェーズの
書籍を
技術指標設定後は、
フロントエンド監視
RUM の
書籍内で、
アクセス数などの
- Google Analytics の
関連文書リンク
個人的に
この
インフラアーキテクチャ図の 作成
フロントエンド監視以外の、
アプリケーション開発チームだと、
アプリケーションと サーバーの 監視
メトリクスと
個人的な
メトリクス
計測された数値項目、 大抵時系列データベースに 保存される。 ログ
プログラムから出力される 何が 起きたかを 示す テキスト出力。
ログデータの収集基盤で 保持される ことも あるし、 ログファイルに 出力されて 終わりの ケースも ある。
アプリケーションと
- 参考
ネットワーク監視
書籍11章には
9章で
ネットワークフロー監視とを
ネットワークフロー監視
キャパシティプランニング
Githubの
関連しそうなTopic
セキュリティ監視
書籍には
- SSHログインの
試行と 失敗 - syslogの
ログ - auditdの
ログ
実業務だと、
書籍には
- 参考
3. アラート設定フェーズ
監視項目の アラートレベル設定
各監視項目に
書籍の
誰かを
叩き起こすための アラート
緊急の対応を 求められる アラートです。 参考情報(FYI)と
しての アラート
すぐに対応は 必要は ないですが、 アラートが 来た ことは 誰かが 確認すべきものです。
個人的な
No | 大カテゴリ | 小カテゴリ | log4jのエラーレベル | 運用時の対応 |
---|---|---|---|---|
1-1 | 誰かを叩き起こすためのアラート | システムエラー | FATAL、又は出力されない | 即時対応 |
1-2 | 誰かを叩き起こすためのアラート | アプリケーションエラー | FATAL | 即時対応 |
2-1 | 参考情報(FYI)としてのアラート | 重要度(高) | ERROR | 営業時間内のみ対応 |
2-2 | 参考情報(FYI)としてのアラート | 重要度(小) | WARN | 頻発する場合は要確認 |
- 説明
- 1-1 は、
リクエストが 到達しない ケースです。 例)Webサーバーの トラブルで APサーバーに リクエストが 送信されない。 - 1-2 は、
アプリケーションエラーで 特に 重要度の 高い もの。 例)使用している ユーザーが、 エラーで オペレーションを 進められない。 - 2-2 よりも、
重要度が 低い エラーは アラートと いう 形式ではなく、 定期的な レポート出力での 閲覧に なるかと 思われました。
- 1-1 は、
アラート設定
アラートレベルに
レベルは、
監視アセスメントを まとめて 思った こと
- 監視と
効果測定は、 アウトプットの 行動が 違うだけで、 インプットに する データは 同じ ケースが ありそう。 監視項目を 考える ことは 効果測定の 項目を 考える ことにもなる。 - 3章の
アラート、 オンコール、 インシデント管理は 再読する。 - セキュリティ監視項目は、
セキュリティ要件から 決まる 部分が ある。 後は 監視項目ではない、 トレーサビリティの ための データ記録は 必要そうに 思った。
参考
以下、
以上です。
コメント