■ 発表カテゴリ
Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
去年、WEB系の知識が全くなかった新卒の私はSREに配属されました。そして1年が経ち、メンバーが少なかったこともあり、様々な業務に携わらせていただいた一方で、多くの失敗もありました。
このセッションでは、SREという立場としてのあり方や注意することを学ぶきっかけとなった、初学者が躓いた失敗をいくつか紹介します。技術的な過ちはもちろん、SREという領域が潜在的に持つ問題についても学びがあったので、見事な転びっぷりを楽しみながら、一緒に再認識したいと思います。
また、その失敗を「恐れ」ではなく「学び」に変えてくれたチームのやり方やマインドセット、OJTで有効だったことなどを考察しながら、SRE育成に役立てられる知見を共有します。
■ 発表の詳細(1000字程度)
以下のアジェンダでの発表を想定しております。
SREの担当と責任領域の曖昧さ
プロジェクトに初参画した時のお話です。なんでも屋になりがちなSRE特有の領域の曖昧さに苦労し、最終的にアプリ側のコードまで書き始めてしまった案件を披露します。その他、デプロイはどの領域が担保すべきかなど、いくつかの失敗を経て、そこから見えた新卒なりのSREのあり方と課題について議論したいと思います。
機能の多層化とSREの階層
キャッシュは便利な機能である一方、様々な階層で行われており、誤設定時の危険性は計り知れないものです。部署全体を巻き込んだ大障害とその半年後に起きたの障害の2つから、キャッシュの危険性と障害から学ぶ育成のあり方について考察していきます。半年後の障害対応への成長を見ることで育成プロセスの有効性についても考えていきます。
セキュリティ vs コスト
監視やセキュリティはシステムの信頼性を高める上で重要な要素です。しかし、それらには様々なコストがかかり、サービス根幹に関わってきます。このセキュリティとコストのバランス調整は難しく、社内外でのセキュリティに取り組む中で学んだことを説明します。どちらかに傾倒しかけることもあり苦心しつつも、マルチアカウントの運用とセキュリティ監視について手法と課題について発表します。
DBのブルーグリーンデプロイ
DBのバージョンアップと構成変更を行う上で、ダウンタイムを最小にするためブルーグリーンデプロイを実施した時のお話です。初の試みに伴い調査で分かった注意点と、それでも見過ごしてしまった留意点を解説していきたいと思います。
最後に
上記の項目で学んだことを振り返りながら、SREとしてあり方や業務で気をつけること、またそれらのノウハウを初学者や他領域の人にどのように伝えていくかの議論と提案を行います。
■ 対象聴衆とその人たちが得られるもの
SREエンジニアと、SREを目指す人、SREを育成する立場の人が対象です。
日々の業務で改めて失敗に繋がる箇所を見つめ直せるだけでなく、初学者だからこそしてしまうミスの理解や、初学者に対する教育の改善が見込めます。
■ なぜこのトピックについて話したいのか(モチベーション)
私は新卒、エンジニア初学者にとってSREは、ファーストキャリアとしてとても良い選択だと思います。しかし、ノウハウの幅広さ、役割の重要性など、新卒にとって難しい分野でもあると痛感しました。
そんな中、私は多くのことが学べた恵まれた環境であり、何を学んだのか、なぜこの環境が成長に良かったのかを学ぶ側から紐解くことで、これからSREを学び始める人たちにとっては轍に、教える側の方には少しでも良い教育環境の助けになりつつ、失敗を楽しんでくれれば嬉しいです。