入門 再発防止策 ~過去から学び、未来を拓く五稜星(みちしるべ)~ by 渡部龍一

YAPC::Hakodate 2024
トーク (20分)

入門 再発防止策 ~過去から学び、未来を拓く五稜星(みちしるべ)~

ryuichi_1208 渡部龍一 ryuichi_1208
10

サービスを運用する上で、障害の発生を100%防ぐことは現実的ではありません。しかし、同じ障害が頻発することは、サービス品質の低下と運用効率の悪化を招きます。そのような事態を避けるためには、発生した障害について「調査・分析・対応」を行い、原因を特定し再発防止策を講じることが重要です。さらに、「意図的に障害を引き起こす」や「障害が発生した場合の対応方法を事前に考える」などの未来志向のアプローチも効果的です。

このセッションでは、GMOペパボのSREが、Root Cause分析といった根本原因分析プロセスの紹介と、これまでに実施した再発防止策の実例を交えながら、具体的な取り組み方や進め方について紹介します。

対象

  • 障害の振り返りで初めて再発防止策を考えることになった方
  • 普段からサービス運用で障害対応および再発防止策までを行なっている方