■ 発表カテゴリ
・Culture: SRE文化の醸成と組織変革
■ 発表概要(400字程度)
本発表では、現在所属する組織での Platform SRE への SRE 組織の変遷についてお話します。これまでは個別のサービスに対して信頼性エンジニアリングを行う Embedded SRE の体制を敷いていましたが、今年の後半から組織全体に向けての信頼性エンジニアリングを支援する体制に一部をシフトしました。
SRE は信頼性に対する考え方だけでなく、サービスを支えるサーバーインフラ、CI/CD、セキュリティ、オブザーバービリティ、AI など専門的な知識が求められ、把握しなければならないトピックが広くあります。組織の幅広いサービスに対して、Platform SRE としての支援を推進するためにどのトピックから始めたかを中心に、なぜ選んだか、どのように進めたか、進めた結果どうなったかについて話し、所属する組織の SRE の組織変革について共有します。
■ 発表の詳細(1000字程度)
スケールしない Embedded SRE としての働き方の限界
入社してからこれまで Embedded SRE として、複数の事業に関わり様々なサービスの信頼性エンジニアリングに携わってきました。しかし、サービス規模の拡大や他サービスとの連携が増加する中で、エンジニア間のサーバーインフラ、 CI/CD, オブザーバビリティといった特定のトピックでの考え方やスキルの差を感じたり、サービスごとの最適化を行うことによるコンテキストの増加の負担を感じ、 Embedded SRE としての限界に不安を抱くようになりました。部分最適が進む Embedded SRE としての問題が組織の認識するところの課題になり、解決すべき問題となりました。
Platform Engineering チームの誕生とゴール
これまではサービスの信頼性エンジニアリングに対する活動がサービス内部に閉じられており、 SRE のナレッジや活動を集約したり展開する仕組みがありませんでした。そこで Platform Engineering チームが誕生しました。Platform Engineering チームは部分最適化されたサービスの中でも成功した基盤技術を集約し、他のサービスへプラットフォームとして展開します。すでに確立された技術基盤をプラットフォームとして提供することで SRE のナレッジを組織全体のサービスの持続性のために役立てます。ゴールはすべてのサービスが繋がることで、持続的な共生関係が形作られ、サービスだけで信頼性エンジニアリングに取り組み続けられるようになることです。
Platform Engineering を始めるにあたって考えたことと始めた結果
様々な事業領域のサービスが存在する現在の組織では何からはじめるかが重要でした。このセクションでは SRE におけるどのトピックから、すでにある基盤技術をプラットフォームとして展開していくかといった判断の過程と、ゼロ地点からのスタートの取り組み、その後の展開、現在の状況について共有します。取り上げるトピックの一例には、サーバーインフラに対する考え方、オブザーバビリティがあります。
我々が Platform SRE という選択肢を取った挑戦の結果、何が起こったかを組織としての価値として振り返り、選択肢をとるに当たっての組織の段階や規模における SRE のアプローチのシフトについてお話してまとめます。
■ 対象聴衆とその人たちが得られるもの
SRE、エンジニアリングマネージャー、VPooE、CTO など、サービスの信頼性向上や生産性向上に携わるすべての人。
得られるもの:
・組織で SRE の働き方やサービスへの SRE のアプローチの変化を検討している人にとってのヒント。
■ なぜこのトピックについて話したいのか(モチベーション)
Platform Enineering, Platform SRE を始めるにあたり、すでに局所最適化が進みサービスを構成する要素がそれぞれ独立して確立している組織での進め方について、どう進めるべきかという疑問は少なくないと思っています。すでに動いているサービスに対して、どのように全体最適のアプローチを行っていくかというトピックについて一石を投じたく、今回の発表をしたいと思いました。