小規模SREチームで支える、Atlantisで実現するインフラ管理のセルフサービス化 by 角井 暖

SRE Kaigi 2026
セッション(30分)

小規模SREチームで支える、Atlantisで実現するインフラ管理のセルフサービス化

cass7ius 角井 暖 cass7ius
3

■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓

■ 発表概要(400字程度)
アンドパッドは、開発組織の増大と、並行する新規プロダクト開発の必要性から、2021年頃にマイクロサービスアーキテクチャを採用しました。その結果、インフラ運用の複雑さによる課題が発生してきました。具体的には、各開発チームでデリバリーパイプラインがサイロ化し、システムの全体像は把握しづらくなり、インフラ管理における開発チームの自律性は低くなっていました。

私たちは、これらの課題の解決のために、TerraformのGitOpsを実現するツールであるAtlantisを導入しました。多数の開発チームに共通した課題をPlatformで解決し、開発チームの自律性を改善することで、セルフサービス化を促進しました。

本セッションでは、Atlantisによるインフラ管理のセルフサービス化事例と、その取り組みから得た学びを解説します。

■ 発表の詳細(1000字程度)
マルチプロダクト戦略下で私たちが直面したインフラ運用の課題と、Platform Engineeringのアプローチによる解決策について、事例と技術的な詳細を交えながらお話しします。

1. 背景:マイクロサービス化と顕在化したインフラ運用の課題

  • 2021年頃にマイクロサービスプラットフォームを構築した後、開発効率重視の方針により高い自由度と独立したデリバリーを実現してきました
  • しかし、時間経過とともに以下の3つの課題が顕在化しました

2. 顕在化した3つの課題

  • デリバリーパイプラインのサイロ化
    • 開発チームがデプロイスクリプトを各々独自実装した事により、運用ナレッジがチーム内に閉鎖しました
    • SREチームへの突発的な相談が増加し、独自実装の解読に時間を要するようになりました
  • システム構成把握の難しさ
    • 宣言的でないデプロイや手作業による変更が積み重なり、システム状態が不明瞭になりました
    • 作業の安全性やプラットフォームの信頼性が低下し、変更適用に時間を要しました
  • インフラ管理における自律性の低下
    • 強い権限を要する作業やIaCされていない設定がSRE必須の依頼作業となり、SREチームの負荷が増大しました
    • 特定のメンバーに対応が偏りやすくなり、スケールしにくい状況になりました

3. GitOps(Atlantis)による課題解決

  • GitOpsを実現するAtlantisとArgo CDを導入
    • デリバリーパイプラインを共通化するためのPlatformを構築し、開発チームにGitOpsを提供しました
    • アンドパッドでは、AtlantisとArgoCDを導入しました
    • このセッションでは、Atlantisの部分を詳しく話します
  • 宣言的なインフラ管理
    • 開発チームに、Terraformで宣言的にインフラ管理する方法を共通基盤として提供し、パイプラインが新たに独自実装されないようにしました
    • 開発チームのIaC参入障壁を下げるために、IaCはモノレポで管理し、ビルディングブロックとして共通moduleを増やすなどの工夫をしました
  • オーナーシップの明確化と開発チームの自律性向上
    • GitOpsの提供と並行して、IaCのオーナーシップを明確化したり、インフラ管理における開発チームの自律性向上に取り組みました
    • SREチームへの依頼作業を「GitHub Pull Request起票とSREチームレビュー」のフローにシフトし、セルフサービス化を促進しました
    • クラウドインフラ以外の各種SaaS設定もIaCを促進し、SREチームの運用を平準化しました

4. 課題と今後の展望

  • まだ手動管理が残っている → IaCを拡張します
  • サイロ化したパイプラインが残っている → 共通基盤への移行を進めます
  • 多くの変更適用はSREが行っている → オーナーシップの移譲を拡張します
  • 事業拡大に伴いPRが増える見込みがある → CIを強化しレビュー容易性やアジリティを高めます

■ 対象聴衆とその人たちが得られるもの
Kubernetes環境の効率的な運用を実現したいSREの方々に向けて、GitOpsを導入する具体的な実践事例をご紹介します。

■ なぜこのトピックについて話したいのか(モチベーション)
SREが少ない体制でマイクロサービスを運用する中で直面した課題と、AtlantisによるGitOps導入が、いかに開発チームの自律性を高め、SREチームの生産性向上に貢献したかを共有することで、同様の課題を抱えるSREコミュニティに実践的な知見を提供します。