モノタロウにおけるSREの現在地:モダナイゼーションの過程で変化していく中でSREはどう向き合って来たか by 河畑凌

SRE Kaigi 2026
セッション(30分)

モノタロウにおけるSREの現在地:モダナイゼーションの過程で変化していく中でSREはどう向き合って来たか

河畑凌
2

■ 発表カテゴリ
募集要項(https://srekaigi.notion.site/SRE-Kaigi-2026-CfP-25a6f7392c108187a9e6e47c346396b2) にある6つの発表カテゴリからお選びください

・Case Studies: 実際の導入事例や失敗談

■ 発表概要(400字程度)
本発表では、2021年頃からSREのプラクティスをサイトに導入し、サイトから基幹システム含めてモダナイゼーションの過渡期にある現在に至るまで、モノタロウにおけるSREの軌跡と現状、今後の展望を共有します。
3,4 年に渡り運用してきた SLO ベースでのサイト運用で見えてきた課題、当初の想定とのギャップ、サイトとは異なる基幹システム特有のSLI/SLO設計と実装の困難さ、SRE のプラクティスだけだと届かないオブザーバビリティの重要性についての話、プラットフォームエンジニアリング部門の組成に伴う SRE のあり方の変化、数値に基づく運用の過程で見えてきた開発生産性に関わる話に至るまで、今まであまり公開されていなかった取り組みについて赤裸々に紹介します。
SREが取り巻く環境の変化に立ち向かっている方々へ、実践的な示唆を提供します。

■ 発表の詳細(1000字程度)

◯SRE導入の背景と変遷
モノタロウが2021年頃にSREプラクティスを導入した背景、当時のシステム構成と課題を説明します。
SLI/SLOベースの運用を通じて見えた課題についても掘り下げていきます。

  • SLOからシステムのボトルネックが特定できない話
  • SLOの見直し = ただ目標値を緩めるだけになってしまっている話
  • バックエンドAPIやバッチシステムに対して SLI/SLO 運用があまりフィットしない話

◯SRE導入効果と想定とのギャップ
当初の想定

  • サービスレベルを代表するアラートが確かなものならば、その他不要なアラートは削減できるのではないか
  • エラーバジェットポリシーに基づく運用が進めば、リリース頻度の改善やユーザ体験の話に議論が広がるのではないか
  • ビジネス側とのやり取りとの共通言語になりうるのではないか

それらの想定に対して、達成できた部分とそうでない部分があるのでそこを紹介します。

◯オブザーバビリティの重要性
SLO展開を進める中で見えてきた技術的な課題、特にオブザーバビリティの重要性について言及します。
サービスの異常を知らせるフロントサイドに近い部分でのバーンレートのアラートから、バックエンドやインフラ側のボトルネックを特定するために足りていなかった部分を掘り下げて、オブザーバビリティ向上にどう取り組んだかを Datadog の利用実績をベースに話します。

◯部門横断的なSLO展開の課題とアプローチ
モダナイゼーションが普及する中で、組織もプラットフォームエンジニアリング部門が組成されました。
プラットフォームエンジニアリング部門という開発部門では中立的な立場にある中で、複数の開発部門にまたがってどのように SRE のプラクティスを適用していったかについて紹介します。

特に、SRE のプラクティスが展開しにくい基幹システム側へのアプローチについて深掘りをします。
レガシーシステム故の計装の困難さ、業務の複雑さからくる CUJ の策定のハードル、バッチシステムを多く含むアーキテクチャに対する SLO の設計の難易度など、多くの課題を紹介したのち、我々が取り組んでいることを話します。

◯数値に基づく運用から開発生産性の議論に発展した話
サービスの信頼性について数値での議論をしていく中で、DevOps Four Keys を代表とする開発生産性指標に話が発展していきました。
開発と運用のバランスの議論の中で、どのように開発生産性指標が活用されていったか、現在はどのような指標を見ているのかについて紹介します。

◯今後のSREプラクティスの展望
モダナイゼーションの過渡期にある我々が、これからSREのプラクティスをどのように進化させていくか、その展望を共有します。

■ 対象聴衆とその人たちが得られるもの
◯対象聴衆

  • 規模の大きい組織でSREを推進している方や、複数の部門を横断する形でSLO展開に課題を感じている方
  • サイトから遠い部分(基幹システムやバッチシステム)での SLI/SLO 設計と実装に苦しんでいる方
  • 数年にわたるSLOベースでの運用が組織にどのような変化をもたらすのかを知りたい方

◯得られるもの

  • 大規模組織におけるSREプラクティスの導入から運用、そして継続的な改善に至るまでの具体的な事例
  • 複数部門・多様なシステムへのSLO展開における課題と、それらを乗り越えるための実践的な知見
  • SRE推進における技術的・組織的な課題へのアプローチと、成功・失敗から得られる教訓
  • SREの現在地を把握し、自身の組織でのSREプラクティスをさらに発展させるためのヒント

■ なぜこのトピックについて話したいのか(モチベーション)
昨今の目まぐるしい環境の変化に伴って、SRE のあり方は常に考えないといけないテーマになっていると思います。

弊社も、システムモダナイゼーションの過程で組織が変化し、プラットフォームエンジニアリング、オブザーバビリティ、AI駆動開発、開発生産性、様々なテーマで取り巻く関心毎が変わり続けています。私自身、様々な場面で SRE とはなんなんだろう、どうあるべきなんだろうと常に頭を悩ませてきました。今もそうです。

弊社は、2022年のテックブログにてSREに関する記事が公開されて以降、徐々に知見が蓄積されてきているにも関わらず、あまり公の場で話す機会がありませんでした。
https://tech-blog.monotaro.com/entry/2022/09/13/090000

モノタロウは「SRE は価値のある取り組み」と考えた上で数年に渡り継続して実践しています。そのことを皆さんに知っていただきたいです。

SRE じゃ無くてもいいんじゃないか、別のアプローチがあるんじゃないか、SREに取り組んでいる方々で悩まれている方はいると思います。
我々の事例の共有を通じて、SREの奥深さと、それがもたらす可能性について、共に議論を深めたいという強いモチベーションがあります。