どうやればインシデント対応能力を鍛えられるのか? by 髙石 諒

SRE Kaigi 2025
採択
2025/01/26 13:35〜
ルーム B
セッション(30分)

どうやればインシデント対応能力を鍛えられるのか?

r_takaishi 髙石 諒 r_takaishi

■ 発表カテゴリ

Practices: SREの実践例と得られた教訓

■ 発表概要(400字程度)

Site Reliability Enginneringに関する重要なトピックの一つにインシデント対応(障害対応)があります。サービスの開発・運用において、インシデント発生時には迅速かつ効果的な対応が求められるため、インシデント対応能力の向上は非常に重要です。本セッションでは、個々のエンジニアがどのようにしてインシデント対応能力を高めることができるかについて紹介します。インシデント対応能力を「ハードスキル」や「ソフトスキル」、「対応経験」、「システム理解」、「ツールや仕組み」など複数の要素に分け、それぞれの要素がどのように相互に影響するのか、それぞれの要素をどのように向上させることができるのかを考察します。このセッションを聴講することで、聴講者が自身のインシデント対応能力を向上させるための方法を学べます。

■ 発表の詳細(1000字程度)

本セッションでは、個々のエンジニアがインシデント対応能力を高めるために必要な要素を具体的に考察し、その向上方法を提案します。インシデント対応能力とは単なるハードスキル(技術スキル)だけではなく、いわゆるソフトスキルや対応経験、システム・サービスの理解、ツールや仕組みといった複数要素のかけ算で決まると考えます。

ハードスキルはインシデント対応に必要な技術や知識を指します。例えば、データベースやコマンドラインツール、パフォーマンスチューニングなどです。インシデントの種類はサービスに応じて多種多様です。適切な知識や技術、ノウハウ、テクニックがないと問題収束までの時間は長引くでしょう。

ソフトスキルはコミュニケーション能力やリーダーシップ、判断力、インシデントマネジメントなど非技術的な能力です。複数チームが関わるインシデントの場合、ソフトスキルが重要な役割を果たします。

対応経験も重要です。インシデント対応の実戦経験を通じて、エンジニアは緊急時でも冷静に行動できるようになります。インシデント対応経験が少ない場合でも、トレーニングや競技に参加することで向上を見込めます。

システム・サービスの理解は、自分が担当するシステム・アーキテクチャのドメイン知識や設計、コード、データベースについて知ることです。スキルや対応経験が抱負だとしても、システムサービスへの理解が浅ければ適切なインシデント対応は難しくなるでしょう。

本セッションでは、これらの要素がどのように相互に作用し、エンジニアのインシデント対応能力を総合的に高めるのかを考察し、向上方法を提案します。最終的には、個々のエンジニアの得意・不得意を理解し、補完し合うことでチーム全体のインシデント対応能力を高めることを目指します。

■ 対象聴衆とその人たちが得られるもの

インシデントや障害対応を行う全ての人が対象で、対応能力を高めるための指針を得られます。

■ なぜこのトピックについて話したいのか(モチベーション)

自身やチームの状況からインシデント対応能力をさらに強化したいと考え、手法について整理・検討した。せっかくなのでカンファレンスで話してフィードバックをもらいたいというモチベーションです。