■ 発表カテゴリ
■ 発表概要(400字程度)
私が率いるSREチームは、プロダクトチームに対してEnabling活動を通じて成長を支援するProduct SREと、Reliability向上をPlatformとして提供し組織全体にSREを浸透させるPlatform SREの二つの領域に分けて活動しています。 本発表では、具体的な実例を交えながら、SREチームのEMとしてどのように考え、何を実践し、どのような指針で活動の幅を広げてきたかを紹介します。 AIの進化により開発速度は加速し、デプロイ頻度の増加に伴ってIncidentリスクが高まることが予想されます。 こうした状況でReliabilityを確保し、迅速に対応できる体制を築く重要性は一段と増しています。 成功体験だけでなく、苦労や失敗から得た学びも率直に共有し、参加者が具体的なヒントを持ち帰れると嬉しいです。
■ 発表の詳細(1000字程度)
当社にはPlatform Engineeringを専門とする組織があり、Kubernetes、CI/CD、Observability、Infrastructure、Networkなどを担当しています。 SREチームはこれらのチームと強固に連携するとともに、プロダクトチームに対してReliabilityの向上と成長を支援しています。 取り組んでいる主な領域は以下のとおりです。
実際の現場では、Microservicesの増加に伴う管理・コミュニケーションコストの増加、頻発するマイグレーションやシステム更新、他チームからの要望や監査対応、Criticalなインシデント対応、日々のToilなど多様な課題に直面してきました。 SREチームはこれらに対して中長期的なVisionを掲げ、優先度や対応方針を議論しながら活動しています。 本発表では、Fintech領域における具体例を取り上げ、効率化が難しい中で2線との連携を強化し、形式的なポリシーに縛られすぎずに現実的な対応を進めた事例を共有します。 また、運用負荷やトラブル対応と並行して戦略的取り組みを推進した工夫や、失敗からの学びについても触れます。 さらに今後はAIによる開発加速とデプロイ頻度の増加によってIncidentリスクが高まると予想されます。 そのため、ガードレール施策の整備、異常の早期検知、影響の最小化といったSRE領域はますます重要になります。 本発表では、このような様々な課題にどう備え、組織としてどのように適応していくかを具体的な経験をもとに紹介します。
■ 対象聴衆とその人たちが得られるもの
【対象聴衆】
【得られるもの】
■ なぜこのトピックについて話したいのか(モチベーション)
SREに関する組織運営やマネジメントの具体的な実践例などの公開情報は、技術や手法に比べて少ない印象です。 SREの本質はCultureであり、浸透しなければ組織的にスケールできません。 私はFintech事業を含む複数プロダクトでSREの実践とチームマネジメントを行う中で、日々多くの課題に直面してきました。だからこそ、実際の経験を共有することで、同じような状況にある方々やこれから取り組む方々に役立つ情報を提供できればと考えています。