■ 発表カテゴリ
Culture: SRE文化の醸成と組織変革
■ 発表概要(400字程度)
SREを導入するための指針として知られる「Dickersonの信頼性の階層構造」では、インシデント後のレビューが重要なステップとして位置づけられています。私たちの組織でもインシデント後にレポートを作成していましたが、それらは対応チーム内に留まり、組織全体の学びに十分つながっていませんでした。
この課題を解決するため「ポストモーテム共有会」を四半期ごとに開催しました。しかし第1四半期での初回は、初の試みで会の設計に不備があり、参加者が学びを持ち帰る仕組みとしては十分に機能しませんでした。そこで会の形式や進め方を再設計し、第3四半期で再挑戦したところ、活発な議論と知識の組織的共有が実現しました。
本発表では、この失敗と改善のプロセスを紹介し、インシデントを組織全体の学びに変える仕組みづくりと、そこから広がるSRE文化醸成の実践知を共有します。
■ 発表の詳細(1000字程度)
「Dickersonの信頼性の階層構造」では、インシデント後のレビューがSREを推進するうえで重要なステップとして位置づけられています。しかし実際には、インシデントレポートが作成されても、その内容は対応チーム内に留まりがちで、組織全体に知見が広がらないという課題があります。
私たちの組織でも同様に、インシデント対応後にはレポートを作成していましたが、それを読むのは関係者に限られ、学びが十分に共有されていませんでした。そこで導入したのが「ポストモーテム共有会」です。レポートを題材に議論する場を四半期ごとに設け、組織全体で学びを共有する仕組みを目指しました。
しかし、第1四半期に実施した初回は、初の試みだったこともあり会の設計に不備がありました。形式が固く一方通行になり、参加者が議論に入りづらい場となってしまい、十分に機能しませんでした。
この失敗を踏まえ、第3四半期には形式を再設計しました。発表は要点紹介にとどめ、質疑やディスカッションを中心に据えました。また、インシデントから得られた学びを整理し、次のプロジェクトに活かせる改善点を洗い出す仕組みを導入しました。さらに、個別の案件にとどまらず、組織全体に関わる課題が見つかった場合はGitHub Discussionで共有し、誰でも議論に参加できるようにしました。こうしたアウトプットにより、インシデントを「単発の振り返り」で終わらせず、次の行動につなげる仕組みを整えました。
その結果、第3四半期の共有会では活発な議論が生まれ、システム理解の向上だけでなく、失敗をオープンに語り合う文化が育まれました。「責任追及ではなく学びに変える」という姿勢が共有され、SRE文化の醸成に大きな一歩を刻むことができました。
本発表では、この立ち上げから失敗、改善、成功に至るプロセスを紹介し、参加者が自組織に適した共有文化を築くためのヒントを持ち帰れるようにします。
■ 対象聴衆とその人たちが得られるもの
対象聴衆:
• インシデントレビューを全社的な学びに広げたいエンジニア
• 組織のSRE文化を醸成したいエンジニア
得られるもの:
• 継続的なポストモーテム共有会を運営する実践的な工夫
• 学びを文化として根付かせるための組織的アプローチ
■ なぜこのトピックについて話したいのか(モチベーション)
「失敗から学ぶこと」はSRE文化の根幹ですが、実際にはレポートが共有されず、組織全体の成長につながらないことが少なくありません。私たちも最初は同じ課題に直面し、共有会を導入するも失敗に終わりました。しかし、その反省をもとに再設計したことで、ようやく組織全体の学びにつながる形に進化させることができました。
この経験は「一度でうまくいかなくても、工夫次第で文化を根付かせられる」ことを示しています。本発表では、そのリアルな試行錯誤を共有することで、同じ課題に取り組む参加者にとって実践的なヒントとなることを目指しています。