■ 発表カテゴリ
募集要項( https://www.notion.so/srekaigi/SRE-Kaigi-2025-CfP-0939fcd968a74bddaebdbf638a957ab9 ) にある6つの発表カテゴリからお選びください
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
SLI/SLOはSREの単語としてよく聞きますが、モバイルアプリ開発にはあまり馴染みのないものです。
私の所属するプロダクトのモバイルアプリは障害の発生率が高く、それを早期に検知し、解消できる仕組みが必要でした。
そこで私はこのSLI/SLOの仕組みをモバイルアプリに合う形に適用し、ユーザー体験の低下を検知する仕組みを作成しました。
この仕組みによって以下のことが即時検知可能です。
現在ではこの監視対象として40以上の機能に埋め込みが完了しています。
このセッションでは以下のことについて話していければと考えています。
■ 発表の詳細(1000字程度)
SLI/SLOの基本的な説明を行います
このセッションでは、「クライアントでSLI/SLOを計測する = 機能単位で機能を利用し始めるところか完了するまでの一連のフロー計測する」こととします。
具体例をもとに説明します。
API単位での計測と異なり、ユーザーが計測中に離脱することも考慮して計測しないといけません。その課題をどのように乗り越えるかの説明をします。
計測データはもろにユーザー行動の影響を受けます。その中でどのようにアラートを構築したかについてお話します。
計測処理をクライアントのプロダクションコードに記述する形で計測しています。その時、計測処理がユーザーの体験を損ねてしまうわけにはいきません。
ここでの工夫についてお話しします。
SLI/SLOは信頼性を可視化することができます。しかし、これをビジネスメンバーに理解してもらうことは簡単ではありません。
私の所属するチームでは障害対応時に利用するダッシュボードを作成しました。
これにより私の所属するプロダクトのメンバーのほとんどはSLI/SLOを認知しています。どのようにビジネスメンバーに定着したかの過程を紹介します。
■ 対象聴衆とその人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
SLI/SLOの概念はサービスの信頼性を表すものであり、バックエンドのみならず、プロダクト全体で計測することで真価が発揮されると考えています。
実際にプロダクトに導入してみて、APIが叩かれる前段階でユーザー体験が低下している事例も多く存在しました。クライアント領域から見たSREについて話させていただければと思います。