発表カテゴリ
Practices: SREの実践例と得られた教訓
⸻
発表概要(400字程度)
2024年からFindyにて横断的なPlatform SREチームを立ち上げ、サービス横断のインフラ・セキュリティ・運用基盤を整備してきました。この二年間で、SLI/SLO策定、DatadogやAmazon Security Lakeの導入、TerraformによるIaC推進と汎用モジュール、Shisho CloudとTakumiによるセキュリティ運用、SOC2取得といった大きな取り組みを進めてきました。技術面に加えて、チームを「組織」として育てるマネジメントに多くの試行錯誤がありました。本発表では、複数プロダクトを支援する際の優先順位付けの難しさ、1on1や目標設定・ナレッジ共有の実践と失敗例、セキュリティ・信頼性と開発スピードのバランスをどう取ったか、チームが自律的に動けるようになるまでに必要だった仕組みづくりを共有します。SRE立ち上げの成果と課題を率直に語り、具体的なヒントを提供します。
⸻
発表の詳細(1000字程度)
2024年にFindyへジョインしてから、横断的に全サービスを支援するPlatform SREチームを立ち上げました。この二年間で進めた取り組みは多岐にわたります。Datadogを用いたSLI/SLO策定や外形監視、ECS/Fargate・Aurora・CloudFrontなどAWSサービスの可観測性強化、TerraformによるIaC推進と汎用モジュール化、Amazonn Security Lakeによるログ集約・分析基盤の整備、Shisho CloudやTakumiによるセキュリティ運用の仕組み化、そしてFindy Team+におけるSOC2 Type1/Type2の取得とそのための監査体制整備などです。
これら技術的施策に並行して、SREチームを「組織」として育てるためのマネジメント施策を試みました。
一つ目の課題は「優先順位付け」です。複数のサービスから同時に支援依頼が入る中で、利害調整に多くの時間を費やしました。ここではステークホルダー調整フローや優先度の明文化といった工夫が有効でしたが、逆にうまく機能しなかった取り組みもありました。
二つ目は「マネジメント施策の実践」です。1on1や目標設定は形式的に終わってしまうこともありましたが、ナレッジ共有の仕組みを取り入れたことで属人化を防ぐ成功例もありました。一方でメンバーに響かない施策もあり、その失敗をどう改善したかを率直に紹介します。
また「セキュリティ・信頼性と開発スピードのバランス」も大きなテーマでした。監査準備やセキュリティ強化の負荷が開発を圧迫しないよう、段階的な導入やベンダーとの分担を進めた事例もお話しします。
最後に、チームが「自律的に動ける」状態に至るまでの仕組みづくりを振り返ります。明確な役割定義、ドキュメント整備による再現性の担保、定期的な振り返りによる継続的改善を通じて、マネジメント負担を軽減しながらチームの成長を加速させました。
SREチーム立ち上げの「成果と課題」をリアルに共有することで、これからSREチームを立ち上げる方や、マネジメントに悩む方に実践的なヒントを提供します。
⸻
対象聴衆とその人たちが得られるもの
• SREチームをこれから立ち上げようとしている方
• すでにマネジメントに関わっているSREリーダーやEM
• 横断的なSRE組織の役割や運営に悩んでいる方
「実際にどのような仕組みが有効だったか/機能しなかったか」を具体的に知ることで、現場にすぐ取り入れられるヒントを得られます。
⸻
なぜこのトピックについて話したいのか(モチベーション)
SREの知識共有は技術寄りが多い一方で、マネジメントの「失敗例」や「リアルな苦労」は語られる機会が少ないと感じています。私自身、この二年間で数多くの試行錯誤を経験しましたが、失敗から得た学びこそがチームを大きく成長させました。SREを「技術集団」で終わらせず、組織として成熟させるための知見を共有することで、同じ悩みを抱える方に勇気と具体的な施策を持ち帰っていただければと思っています。