極端に遅いリクエストとの戦い:CREが語る試行錯誤の5年史 by 島根雄也

SRE Kaigi 2026
セッション(30分)

極端に遅いリクエストとの戦い:CREが語る試行錯誤の5年史

YEngine8 島根雄也 YEngine8
6

■ 発表カテゴリ
Practices: SREの実践例と得られた教訓

■ 発表概要(400字程度)
ANDPADは現場の効率化から経営改善まで一元管理できるクラウド型建設プロジェクト管理サービスです。事業の成長や利用ユーザー数の増加に伴ってパフォーマンスの維持が大きな課題となっています。当社ではCREが極端に遅いリクエストを確認し、プロダクトチームへのエスカレーションの要否を判断しています。ユーザーに対する理解が深いCREがオーナーシップを持つことで、ユーザー影響の大きい性能問題とそうでない問題を区別し、改善に向けた取り組みを推進させました。本発表では、この5年間でパフォーマンス改善のオーナーシップをCREが持ち、改善のために取り組んできた歴史と、その中で得られた学び、そして今後の展望についてお話しします。

■ 発表の詳細(1000字程度)
パフォーマンス改善の役割をCREが担うに至った背景から、現在に至るまでの具体的な取り組みや変遷を中心にお話しします。
具体的には以下のような内容を予定しています。

  1. ANDPADにおけるパフォーマンス課題
    • マルチプロダクト戦略とアーキテクチャの複雑化
    • 極端に遅いリクエストとは何か
    • なぜ遅いリクエストが事業インパクトに繋がるのか
  2. 監視体制の構築とオーナーシップ
    • プロジェクトチームによる監視体制とその課題
    • ANDPADのCREとは
    • なぜCREが担当するべきだと考えたか
  3. パフォーマンス改善における変遷
    • 2021年:プロジェクトチームによる監視・検知の時代
    • 2022年:CREによる改善活動の開始
    • 2024年:平準化のための取り組み
  4. 改善のための仕組み化
    • 検知時の初動調査
    • プロダクトへの連携
  5. 課題と今後の展望
    • まだまだ残るマニュアル対応
    • そもそも極端に遅いリクエストを生み出させない

まず、パフォーマンス課題が顕在化してきた背景をご説明します。
次に、監視のオーナーシップをCREが担うようになった経緯をお話しします。
発表の核として、CREがどのように複数プロダクトの課題を区別し、複雑な原因調査を経て改善のためのアクションを取っているのか、この5年間の具体的な変遷を辿ります。最後に、私たちが目指す「極端に遅いリクエストを引き起こさないようにする」という未来の展望についてお話しできればと考えています。

■ 対象聴衆とその人たちが得られるもの

対象聴衆

  • SRE、CRE、あるいはプロダクトの信頼性に関わる全ての方
  • マルチプロダクト・大規模サービスにおけるパフォーマンス改善の仕組みに興味がある方
  • SREとCREの役割分担や協業に関心がある方

    得られるもの

  • ユーザー影響の解像度を軸にした、パフォーマンス改善のオーナーシップ移管の実践例
  • 多数のプロダクトを横断してパフォーマンス課題を区別し、改善に向けた具体的なノウハウ
  • 複雑な事象に対する原因調査をどのように進めているかの実例

■ なぜこのトピックについて話したいのか(モチベーション)
プロダクトの信頼性を高める上で、パフォーマンス改善は永遠の課題です。私たちはこの課題に対し、SREとCREが協働し、より顧客に近いCREがオーナーシップを持つというアプローチを取りました。この5年間の試行錯誤の歴史をお話しすることで、同様の課題を抱える方々にとって一つの実践的なサンプルケースとなれば幸いです。また、私たちの取り組みはまだ道半ばです。発表や質疑応答を通して、より良いアイディアを皆さんと議論し、新たな気付きを得る場にしたいと考えています。