大規模レガシープロダクト刷新を支えるシステム監視登攀録〜険路を照らすオブザーバビリティ〜 by Hal

YAPC::Fukuoka 2025
トーク(20分)

大規模レガシープロダクト刷新を支えるシステム監視登攀録〜険路を照らすオブザーバビリティ〜

5

私が所属するチームで刷新に取り組んでいる大規模レガシープロダクトは社内外問わず多くの方に利用していただいており、SLAも高く設定されていることから高水準のシステム運用とリリースサイクルが求められています。

こうした障害を許容せず、発生した場合速やかな原因特定・復旧が求められる環境において、現体制で見えてきた課題の解決とオブザーバビリティ改善に挑戦しました。
本セッションでは、その取り組みの内容をご紹介します。

紹介予定の内容

  • オブザーバビリティの重要性に気づいた出来事
  • 既存システム監視体制で見えた課題
  • クラウド移行により見えた監視の課題
  • 組織統制を意識した監視体制と技術選定
  • SaaSに依存しないオブザーバ構築
  • 分散トレーシングでオンプレとクラウドを繋ぐ
  • RUMとAPM、そしてSentry
  • 同調(トレース)、開始(オン)
  • 負荷の監視とテスト
  • Open Telemetryとトレースサンプリング戦略
  • オブザーバビリティを継続させるためのバランスとチーム力
  • 次に見えた課題と新たな挑戦