■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
初めて見るインシデントに遭遇した時、初動がわからず "あたふた" してしまうことが私の悩みでした。
そんな悩みを抱えながらSRE NEXTを視聴し、私の悩みの根源には、「技術的な壁」「心理的な壁」が関係しているのかもしれないと思えてきました。
今何が起こっていて、何をしなければならないのか?という情報がチームで共有され、かつ必要なアクションを起こす心理的障壁を取り除く透明性の高い環境があれば、私のインシデント対応時の不安は大幅に軽減されます。
本セッションでは、新人SREのパフォーマンスを爆上げするために、チームとして取り組むべき「環境改善」に焦点を当て、実際に私がプロジェクトの責任者と協力し、O11yと心理的安全性のシナジー効果でインシデント対応率を50%向上させた工夫アイデアをご紹介します。
その中で私が発見した新人SREエンジニアの新しいロールモデルについてもお聞きいただけると大変うれしく思います。
■ 発表の詳細(1000字程度)
私は25卒の新卒入社1年目からSREエンジニアに抜擢され、複数のAWSアカウント環境による連携システムのSREチームメンバーとしてプロジェクトに参画することになりました。
私たちのチームでは、様々なAWS環境のモニタリングアラートを監視しており、たくさんのアラートの対応を日々行っています。当然、初めて見るインシデントに遭遇することも多々あり、そのようなときに初動がわからず "あたふた" してしまうことが私の悩みでした。
そんな悩みを抱えながらSRE NEXTを視聴し、私の悩みの根源には、「技術的な壁」「心理的な壁」が関係しているのかもしれないと思えてきました。
私はインシデント対応の一連のプロセスとして、私の頭の中でどのような情報処理を行っているかを図示してみました。
そうするとやはり「技術的な壁」のみではなく「心理的な壁」が私のパフォーマンスを下げる要因になっていることが見えてきました。
今何が起こっていて、何をしなければならないのか?という技術的な情報がチームで共有され、かつ必要なアクションを起こす心理的障壁を取り除く透明性の高い環境があれば、私のインシデント対応時の不安は大幅に軽減されます。
本セッションでは、新人SREのパフォーマンスを爆上げするために、チームとして取り組むべき「環境改善」に焦点を当ててお話をし、実際に私がプロジェクトの責任者と協力し、O11yと心理的安全性のシナジー効果で新人でもパフォーマンスを出すために実践した工夫アイデアをご紹介します。
その具体例として『モブプログラミング手法によるインシデント対応』や『新人SREによるポストモーテムレポート作成』などがあります。これらの取り組みを通して、オブザーバビリティのさらなる成熟化やSREチーム環境の心理的安全性を確保することができ、1週間あたりのインシデント対応率が50%上昇しました。
このようにオブザーバビリティと心理的安全性の必要性に気づくことができるのは、熟練者ではなく、私のような日常のタスクに課題感を感じている1メンバーかもしれません。
私と同じような課題を持っている新人SREエンジニアは、自チームのオブザーバビリティや心理的安全性をチェックするための1つの指標になりうるという新しいロールを皆さんに提案できればと思います。
■ 対象聴衆とその人たちが得られるもの
対象聴衆:
インシデント発生時にあたふたしてしまう人
チームビルドに悩んでいるSREチームリーダー
得られるもの:
「オブザーバビリティ」×「心理的安全性」という環境整備をまずおこなうことで、 新人SREでもパフォーマンスを出すことができ、『強いSREチームビルド』を新人の目線からボトムアップで取り組める ということ
■ なぜこのトピックについて話したいのか(モチベーション)
そもそもSREについてよく分からなかった私が、SREチームに加入し、できることを模索した奮闘を聞いてほしいと思った。
また、私と同じような境遇の人や、私のような困っている人をメンバーに抱えている世界のSREチームの同志にむけて、シグナルを出したかった。