PlatformでSLO運用はじめました。- Platform Engineerring初めの一歩 -

本稿はJCB Advent Calendar 2023の１２月１日の記事です。

PFチームの平松です。

本ブログを執筆するメンバーはJCB Digital Enablement Platform (JDEP)と名付けたプラットフォーム上に、マルチテナント方式で各種アプリをデプロイして運用しています。

前身のビジネス構築の高速化プロジェクトが発足して以来構築を進めたJDEPですが、2023年12月現在2桁を超えるアプリケーションの開発・運用が行われており、我々PFチームも拡大する組織に合わせてAPLチームが動きやすい環境構築に携わってきました。

各アプリケーションはそれぞれ独自にCritical User Journey (CUJ)およびService Level Indicator (SLI)を設定し、SLIの目標値としてService Level Objective (SLO)を定義してきました。

今回、我々PFチームが提供するサービスについても徐々にではありますがSLOを定義し、SLOで定めたエラーバジェットの残存率に従ってサポート体制を整えるような仕組みを整え始めたので、その取り組みを紹介したいと思います。

Platform SLO Dashboardの一例

こちらのイメージは、Datadog上で作成したPFチームが適用しているサービスのSLO Dashboardです。過去30日間・90日間のSLOが一目でわかるので、非常に使い勝手の良いものとなっています。

今回は、PFチーム提供機能の中で過去の私の記事で紹介したリモートログ参照機能にフォーカスしていきます。

CUJ, SLIの決定

SLOを定めるためのCUJ, SLIについてですが、本機能では以下構成図で示した通り、複数のGCPマネージドサービスを組み合わせて実現しています。 GCF等の各コンポーネントが正しく動作することが必須となることから、以下の通りにまとめました。

SLIが決定したことで、SLOの検討に入ります。本サービスで利用しているGCPマネージドサービスのSLAは2023年11月現在、以下のようになっています。

本機能は運用補助機能であって直接価値を生むものではないため構成要素のSLAを超えた設定は過剰と判断し、利用サービスを見直すことはしませんでした。よって、SLOの値は最大でも上記SLAの範囲(99.9%)で設定することとなります。

さらに本機能の構築時から現在までの運用結果から、一旦Datadog上のTarget設定は99.5% (Warningレベルを99.9%)に設定しました。

ここまでで冒頭のDashboardの元となる各コンポーネントごとのSLOを定義することができました。そこで、実際の運用サポート体制についてもSLO中心で考えていきます。

まずは、SLOブレイク時に発報するように、Monitorを設定します。

ここでも本機能は運用補助機能であるという整理から、必ずしも即時対応を検討することはないと定義し、検知時の対応は以下の通りとしました。