監視SaaSの運用におけるObservability改善の歩み by 西川 拓志

SRE Kaigi 2025
採択
2025/01/26 16:35〜
ルーム B
セッション(30分)

監視SaaSの運用におけるObservability改善の歩み

taxin_tt 西川 拓志 taxin_tt
2

■ 発表カテゴリ
募集要項( https://www.notion.so/srekaigi/SRE-Kaigi-2025-CfP-0939fcd968a74bddaebdbf638a957ab9 ) にある6つの発表カテゴリからお選びください

・Case Studies: 実際の導入事例や失敗談

■ 発表概要(400字程度)
サービスの信頼性を維持し、ユーザーに機能を提供するためには、サービスがユーザーの期待通りに動作しているかを観測することが不可欠です。これを実現する上で、テレメトリーの計装は重要な役割を果たします。
本セッションでは、監視SaaSの運用を例に、メトリクスを中心にしたテレメトリーの計装を通じてObservability (可観測性) をどのように改善してきたかについてお話しします。
また、その過程で直面した一般的な課題や、監視SaaSのサービス固有の課題を解決したアプローチについて監視SaaSの提供者側の視点で取り上げます。

■ 発表の詳細(1000字程度)
このセッションでは、監視SaaS 「Mackerel」 の運用において取り組んできたObservabilityの改善事例についてお話しします。セッションを通じて、Observabilityを改善する上での実践的な進め方やテレメトリーの計装に関する手法や知識を提供します。
まず、Mackerelのシステムを簡潔に紹介します。Mackerelでは、ユーザーの監視設定の不備や外部ネットワークの一時的な不調など、システム外の要因を考慮して監視機能を提供するシステムが正常に動作しているか観測する必要があり、システムの内部状態を正確に表現するテレメトリーの重要性について説明します。
次に、計装されているテレメトリー、特にメトリクスについて解説します。ここでは、メトリックの収集が容易なシステムメトリクスを利用していた状態から、テレメトリーの計装を進めたことによりObservabilityがどのように改善されてきたかを説明します。その過程で開発された、各種データベースへのクエリ結果をメトリックに変換・投稿するsql-metric-collectorやCloudWatch Logs に出力されたログを集計しメトリックとして投稿するcloudwatch-logs-aggregatorといったツール群や技術的なアプローチの変遷について紹介します。また、テレメトリーデータの計装・収集を目的としたプロジェクトであるOpenTelemetryの導入についても言及します。
加えて、テレメトリーの計装を通じたObservabilityの改善において実際に直面した課題、これに対するアプローチについても掘り下げます。具体的には、ログをメトリックを変換する際に気を付けるポイントやユーザー側の設定不備による異常を判別できるテレメトリーの計装といったサービス固有の課題への取り組みについてお話しする予定です。

■ 対象聴衆とその人たちが得られるもの
対象聴衆
Observabilityの改善に興味がある、あるいは現在進行形で取り組んでいるSRE、インフラエンジニア、アプリケーションエンジニア

得られるもの

  1. Observabilityの改善事例
    サービスにおいて実際に直面したObservabilityに関する課題やそれに対するアプローチを共有することで、SREやソフトウェアエンジニアが自社のシステムにおけるObservabilityを改善する上での実践的な進め方を知ることができます。 計装手法も含めて改善の過程に焦点を当てることで、参加者自身がObservabilityの改善に向き合う上でのヒントを得る一助となればと考えています。

  2. テレメトリー計装の具体的な手法や知識
    サービスで計装されている各種テレメトリーやその計装手法について解説します。参加者は、これらの計装手法や計装時のポイントからテレメトリーの計装に関する手法や知識を得ることができます。

■ なぜこのトピックについて話したいのか(モチベーション)
テレメトリーの計装、ひいてはObservabilityの改善はサービスの運用に携わるエンジニアの多くが一度は向き合ったことがある課題であると筆者は考えています。このようなトピックをセッションのメインテーマとして設定することで、カンファレンスでの対話や議論を促進し、セッションを通して参加者が直面している課題についても対話の場で掘り下げる機会を提供できればと考えています。
また、SREの実践事例ではテレメトリーの計装を通じた課題解決とその結果がフォーカスされることが多く、Observabilityの改善事例を参加者が参考にする上で、計装手法などの改善の過程により比重を置いたセッションがあってもいいのではないかと思い、このような発表内容でプロポーザルを提出しました。