サービスを運用する上で、障害の発生を100%防ぐことは現実的ではありません。しかし、同じ障害が頻発することは、サービス品質の低下と運用効率の悪化を招きます。そのような事態を避けるためには、発生した障害について「調査・分析・対応」を行い、原因を特定し再発防止策を講じることが重要です。さらに、「意図的に障害を引き起こす」や「障害が発生した場合の対応方法を事前に考える」などの未来志向のアプローチも効果的です。
このセッションでは、GMOペパボのSREが、Root Cause分析といった根本原因分析プロセスの紹介と、これまでに実施した再発防止策の実例を交えながら、具体的な取り組み方や進め方について紹介します。
対象