■ 発表カテゴリ
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
皆さんのSLI/SLOは誰のための指標ですか?
私たちは「ユーザのため」のSLI/SLOを運用していましたが、エラーバジェットを使い切る前に致命的な問題に直面しました。
開発プロセスでCI/CDパイプラインの遅延やビルドツールの不安定な状態となり、リリース遅延や品質低下が続いてしまったのです。
私は『利用者・開発者・運用者の誰もが涙を流さない信頼性の高いシステムを作る』という情熱をもち、
問題解決のために新しいアプローチを模索しました。
その中で「開発者のため」のSLI/SLOを導入することで、今まで見えていなかった問題の可視化に成功したのです。
本セッションでは、User Journey SLOとDeveloper Journey SLOの共存が利用者・開発者・運用者にもたらす効用について解説し、
失敗談も交えながら導入時に直面した課題や、それを克服するためのアプローチについても触れます。
O11yの効果や運用改善の一手に悩まれている方にぜひ聞いて頂きたい内容です。
■ 発表の詳細(1000字程度)
私たちは適切な信頼性を担保するために、SRE活動として以下の3つのSTEPを推進してきました。
第1のSTEP: オブザーバビリティの実現(システムの現在の姿を把握)
第2のSTEP: SLI/SLOの設計・実装(あるべき姿を指標として定義)
第3のSTEP: 性能改善活動・障害対応(現在の姿とあるべき姿の乖離を測り、その乖離を埋める方法を模索)
これらのSTEPを通じて、システムの現在の姿を把握し、あるべき姿を指標として設定し、
モニタリングを通じてその乖離を測り、その埋め方を模索しました。
各STEPを実践する中で、それぞれのフェーズで壁(課題)が発生し、私たちSREチームの前進を阻むかのように立ちはだかりました。
しかし、『壁(課題)に直面して前に進めないという失敗から学ぶ』ことは、現在の姿からあるべき姿に近づくために必要な道筋であり、その道筋を反復し、フィードバックループを回して少しずつ前に進むことが重要だと教えてくれました。
その中でも特に皆様に共有したいのが、第2のSTEPにおける「SLI/SLOの設計における壁」から得た学びです。
適切な信頼性を担保するため、私たちは「ユーザのため」の指標である『User Journey SLI/SLO』を運用していましたが、エラーバジェットを使い切る前に致命的な問題に直面しました。開発プロセスでCI/CDパイプラインの遅延やビルドツールの不安定な状態となり、リリース遅延や品質低下が続いてしまったのです。
この事実を知って初めて、サービス全体の信頼性が低下しているということに気づき、o11y(オブザーバビリティ)が実運用において不十分であることが明らかになったのです。
そこで私たちは、「開発者のため」の指標である『Developer Journey SLI/SLO』を新たに導入し、ユーザ体験と開発者体験の両軸で信頼性エンジニアリングを実践するということに挑戦した結果、今まで見えていなかった問題の可視化に成功したのです。
ユーザにとっても開発者にとっても信頼性と効率性を両立させる信頼性エンジニアリングを模索することは、第2のSTEPであるSLI/SLOをより良いものにするだけではなく、第1のSTEPであるオブザーバビリティの成熟度を高め、第3のSTEPであるインシデントや障害対応をより高度化させることにつながりました。
『User Journey SLO』と『Developer Journey SLO』の共存の実現を目指すことは、「運用者のため」にとっても嬉しい世界だったのです。
今回のセッションでは、複数のAWSアカウント環境が連結した複雑なシステムにおいて、どのようにして適切な2種類のSLI/SLOを共存させたのか、また開発者が利用するCI/CD、ビルドツール、テスト環境を安定して稼働させるために実践した具体的な工夫をお伝えします。
オブザーバビリティのその先にあるユーザ体験と開発者体験を共存させるSLI/SLO設計についてどうぞお聞きください。
■ 対象聴衆とその人たちが得られるもの
・聞いていただきたい方々
- O11yの効果に悩んでいるSREチームの方々
- SLI/SLOの設計をこれから実施しようとしている方々
- EKS環境におけるCI/CD、ビルドツールの運用に課題をお持ちの開発チーム、SREチームの方々
・お持ち帰っていただけるもの
- オブザーバビリティ成熟度をさらに高めるヒントをSLI/SLO設計の新しい視点
- そのSRE活動は「誰のためなのか」を意識するキッカケから新たな改善の種のヒント
- EKS環境でCI/CD ビルドツール運用におけるSLI/SLOを用いた運用改善のコツ
■ なぜこのトピックについて話したいのか(モチベーション)
もし、あなたが進もうとしている進路に「壁」の存在を感じてしまうのなら、それはあなたが挑戦しているという証拠でもあります。
「壁」は私たちの歩みを進路を邪魔しようとしているのではなく、
私たちがその先にあるものをどれだけ本気で望んでいるかを証明するチャンスを与えてくれているということを私たちは知っています。
オブザーバビリティは市民権を得ましたが、私たちはオブザーバビリティのその先へ行かねばなりません。
その1つの答えが開発者も運用者も利用者も誰も涙を流さない信頼性の高いシステムを作ることだと信じています。
そのような価値のある目の前の課題に取り組まれている世界中の皆様と一緒に私の失敗談・成功談を共有し、
適切なSLI/SLO設定は世界を変えるというアハ体験をぜひ一緒に味わいたく、どうかお話を聞いていただきたいと思います。