SRE30分クッキング「SLOベースのアラート」 by 岩本 隆史

SRE Kaigi 2025
セッション(30分)

SRE30分クッキング「SLOベースのアラート」

iwamot 岩本 隆史 iwamot
1

■ 発表カテゴリ
Tech: SREを支える具体的な技術や手法

■ 発表概要(400字程度)
本セッションでは「SLOベースのアラート」の導入ステップを料理のレシピになぞらえてご紹介します。具体的には、完成形のイメージ、必要な材料やツール、工程を分かりやすく説明します。

SLOベースのアラートは、アプリケーションの信頼性を保つための強力な監視手法です。特に「複数ウィンドウ、複数バーンレートのアラート」という手法が『サイトリライアビリティワークブック』で推奨されています。

しかし、導入事例をあまり見かけない現状です。その背景には、導入のハードルが高そうだという誤解があるのかもしれません。

レシピ形式でお伝えする本セッションを通じて、一見ややこしそうなSLOベースのアラートでも「意外と簡単に導入できそうだな」と感じていただければ幸いです。そして、実際に試すことで、この手法の強力さを実感してほしいと願っています。

■ 発表の詳細(1000字程度)
以下の流れでの発表を考えています。

  1. 完成形のイメージ

まず、料理のレシピと同様に、完成形のイメージを示します。本セッションでの完成形のイメージは「複数ウィンドウ、複数バーンレートのアラート」を用いてWebサービスの可用性を監視している状態です。この手法の概要や、なぜこの完成形を目指すのかも説明します。

  1. 必要な材料

次に、必要な材料を示します。具体的には、可用性を監視したいWebサービスのアクセスログです。本セッションでは、このアクセスログを使って工程を説明します。ただし、フロントエンドのイベントログを監視したい場合など、異なる材料を使いたい場合でも応用が利くよう配慮します。

  1. 必要なツール

さらに、必要なツールも示します。具体的には、メトリクス保存器、メトリクス集計器、アラーム発報器、複合アラーム発報器の4つです。各ツールの役割と必要な機能を説明します。

  1. 工程

最後に、完成までの工程を説明します。具体的には、下記の4つです。

  • 工程1:可用性のSLOを策定します。
  • 工程2:メトリクスを保存器に保存します。
  • 工程3:メトリクスを集計器で定期的に集計し、その結果を別の保存器に保存します。
  • 工程4:集計結果に応じてアラームを発報するよう発報器を設定します。

各工程の詳細はセッションでのお楽しみとさせてください。

  1. アレンジレシピ:ダッシュボード添え

もし時間に余裕があれば、可用性の推移を可視化するダッシュボードの作り方を「アレンジレシピ」として紹介します。

■ 対象聴衆とその人たちが得られるもの

  • SLOベースのアラートに興味はあるが、導入経験のない方:この手法のメリットや、導入に必要なステップが理解できます。
  • SLOベースのアラートを導入済みの方:他の導入例を知り、現行の運用をチェックするための視点が得られます。

■ なぜこのトピックについて話したいのか(モチベーション)
SLOベースのアラートを勤務先で導入し、とても満足しているため、その知見を未経験の方々にも共有したいというのが最大のモチベーションです。「このレシピならおいしい料理が簡単に作れるから、ぜひ試して」という感覚に近いと思います。せっかく強力な手法があるのに、導入事例をあまり見かけないのはもったいないな、と日頃から感じていました。