■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
キャディ社内で構築・運用している、インシデント管理の仕組みを紹介します。
CADDi Drawer では、サービスの成長や関係メンバーの増加に伴い、インシデントの対応状況や関連情報、フォローアクションの実施状況などを適切に管理するための仕組みが必要になりました。
これに対して私たちは、Jira Work Management と Zapier を組み合わせることで、インシデント対応の情報を集約し、対応の迅速化と透明性向上に活用しています。
特定のインシデント管理ツールを使うのではなく、Jira の柔軟なカスタマイズ性と Zapier による自動化を組み合わせ、Slack 連携などを通じて対応や管理の効率化を図りました。これにより、SRE をはじめとする関係者がインシデントの状況をリアルタイムに把握しやすくなり、効果的な対応が可能になっています。また、Jira の情報を BigQuery にエクスポートし、インシデント情報のモニタリングや傾向の把握に活用しています。
コストを抑えつつ、既存のツールを活用してカスタマイズしたインシデント管理の実例を通じて、透明性とスピードを兼ね備えた管理システムの構築方法を共有します。
■ 発表の詳細(1000字程度)
発表の構成としては以下を想定しています。
まず本仕組みを構築するに至った背景や、課題意識を紹介します。私たちの開発チームでは、サービス成長や人員増加にあたって、各種インシデントの進行状況や関係者、フォローアクションなどの実施状況を追いづらくなっていました。
この課題に対応するため、本格的にインシデント管理の仕組みを作ることにしました。インシデント管理に必要な要件を整理するうちに、Jira Work Management によるタスク管理やボードのカスタマイズ、Zapier によるオペレーションの自動化、その他 Google Docs や Slack を組み合わせることで、私たちが必要とした要件は一通りカバーでき、かつすぐに仕組みを構築できそうなことが判明しました。
これらのツールを組み合わせて、実際にどのようなインシデント管理システムやフロー、社内ルールを構築したのかもご紹介します。
また、インシデント止血後のポストモーテム実施や、是正策などのフォローアクションを強度高く推進するしていくためには、エンジニア組織の体制を考慮して適した権限を持つメンバーを巻き込む必要があることもわかりました。こうした組織体制に関する検討内容についても合わせてご紹介します。
スタートアップから、サービス規模や人員が増大していくフェーズのプロダクト開発メンバーに参考にしていただけると幸いです。
■ 対象聴衆とその人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
サービス規模やエンジニア・プロダクト開発チームが大きくなっていく中で、効率の良いインシデント管理の仕組みを構築することは、対応の属人化や精神的疲弊を避けるために重要です。実際に各社がどのようなインシデント管理の仕組みを採用しているのかあまり知る機会がなかったため、参考材料として提供できると有益であると考えました。
また Jira や Zapier など簡単なツールを組み合わせるだけでも、かなり使い勝手の良い仕組みが作れると感じたため、SRE やインシデント管理のプラクティスとしてぜひ共有したいと考えています。