SREじゃなくてもできる!インシデント対応で鍛えたCREチームの4年史 by まゆぞー

SRE Kaigi 2025
採択
2025/01/26 15:05〜
ルーム A
セッション(30分)

SREじゃなくてもできる!インシデント対応で鍛えたCREチームの4年史

nanaka1103 まゆぞー nanaka1103
5

■ 発表カテゴリ
募集要項( https://www.notion.so/srekaigi/SRE-Kaigi-2025-CfP-0939fcd968a74bddaebdbf638a957ab9 ) にある6つの発表カテゴリからお選びください

・Practices: SREの実践例と得られた教訓

■ 発表概要(400字程度)
「ANDPAD」は現場の効率化から経営改善まで一元管理できるクラウド型建設プロジェクト管理サービスです。主に建築・建設業界向けに適切なソリューションを提供するためマルチプロダクト戦略を展開しており、導入社数の増加とともにプロダクト数も増えています。
障害発生時のインシデント指揮や障害収束後のポストモーテムの取りまとめは一般的にSREが担当することが多いですが、アンドパッドではそれをCRE(Customer Reliability Engineer)が担当しています。より顧客に近いCREが担当することで、インシデント発生時のコミュニケーションの円滑化やプロダクト個別で閉じない横断的なナレッジの共有といったメリットが生まれました。
本発表では、2020年から2024年にかけてCREがSREの手法を取り入れながら徐々にインシデント対応の方法を改善してきた経緯や、その中での気付き、および現在直面している新たな課題などをお話しします。

■ 発表の詳細(1000字程度)
CREがインシデント指揮の役割を担う前の2020年頃の状況から、徐々に移行してきた経緯ややってきたことを中心にお話しします。
具体的には以下のような内容を予定しています。

  1. ANDPADのターゲットの多角化
    • 多様化するユースケース
    • マルチプロダクト展開
  2. 開発組織とCRE
    • 開発組織のチーム編成
    • 3つのReliabilityチーム
    • アンドパッドにおけるSREとCREの違い
    • カスタマーサポートとの違い
  3. インシデントとCRE
    • インシデント時の役割分担
    • インシデント時にCREがやること
    • アンドパッドにおけるポストモーテム
  4. インシデント対応における変遷
    • 2021年:CREによるインシデント対応業務の本格始動
    • 2022年:ポストモーテムの棚卸し
    • 2023年:インシデント内容の横展開
    • 2024年:ポストモーテムの分析力強化
  5. 課題と今後に向けて
    • マルチプロダクト展開に伴う副作用
    • インシデント対応の平準化による信頼性の向上

まずはCREがインシデント対応を行う背景となる、アンドパッドのサービス展開や開発組織についてお話しします。
次にSREの手法と比較しながらアンドパッドCREのインシデント対応における役割やポストモーテムの取り組み・そこに至るまでの変遷をお話しします。特にマルチプロダクト戦略を取る開発組織では、いかにその知識を開発組織全体の学び・ナレッジとして平準化していくかが一つの課題となるのではないでしょうか。私たち自身はこれまでも、そして現在もこの課題感を持っており、どのように取り組んでいるかの実践例をお話しできればと考えています。

■ 対象聴衆とその人たちが得られるもの
対象聴衆

  • インシデント対応をする全ての方

得られるもの

  • 熟達したSRE以外の担当者がインシデント対応を主導する実践例
  • 特にtoBのマルチプロダクト戦略を取っている開発チームでの手法

■ なぜこのトピックについて話したいのか(モチベーション)
ANDPADがより良いプロダクトになるよう、インシデント対応から振り返りまでの改善をCREは日々行っています。その中の一つの解として現在行っている手法をお話しすることで、インシデント対応に悩まれている皆さんの一助になればと思います。また、私たち自身も何が最善かをまだまだ模索している段階ですので、発表と質疑応答を通してよりよいアイディアがあるか話し合い、気付きが得られる場にしたいと考えています。