信頼性を支えるテレメトリーパイプラインの構築 by 山口能迪

SRE Kaigi 2025
採択
2025/01/26 13:35〜
ホール
セッション(30分)

信頼性を支えるテレメトリーパイプラインの構築

ymotongpoo 山口能迪 ymotongpoo
6

■ 発表カテゴリ
・Architecture: SREの視点からのシステム設計

■ 発表概要(400字程度)
SREにおいて、信頼性そのものあるいはその回復のためにオブザーバビリティは最重要要素の1つです。オブザーバビリティの構成要素にはテレメトリーシグナルがありますが、その獲得にはテレメトリー取得に必要な計算リソースの確保、アプリケーションに影響を与えない構成、障害時におけるシグナルの喪失の回避、データポイントを保持するコストなど、数多くの懸念点があります。

本セッションではオブザーバビリティの中でも、OpenTelemetryを中心としたテレメトリーパイプラインの構成パターンを検討します。さらに、各構成パターンにおける利点や欠点、検討事項を確認し、みなさんのシステムにおいてより良いテレメトリー取得のためのきっかけを提供します。

■ 発表の詳細(1000字程度)
本セッションでは以下の流れで発表を行います。

  1. OpenTelemetryを用いたテレメトリーパイプラインにおける主要素
  2. OpenTelemetryを用いたテレメトリーパイプラインの大まかなパターン
  3. 各パターンにおける利点、欠点、検討事項
  4. OpenTelemetryの今後のタイムライン

まず、本セッションのおける「テレメトリーパイプライン」の解説を行うために、それに関わる主要な構成要素に関して共通認識を持てるよう、OpenTelemetryにおける各要素の解説を行います。これを行うことで、OpenTelemetryを用いていない参加者も自身のシステムにおける構成要素と比較しながら、これ以降の内容を理解できるようにします。

次に1を踏まえて、OpenTelemetryを用いたテレメトリーパイプラインの典型的なパターンを紹介します。OpenTelemetry SDKおよびCollectorを用いたテレメトリーパイプラインを構成する場合、元のシステムの構成によって、そのパターンは大きく影響を受けます。現代において主要なシステム構成(コンテナオーケストレーション、サーバレスなど含む)に触れながら、パイプラインの構成パターンを分類します。

テレメトリーパイプラインをシステムに導入すると、システムにも何らかの影響があります。ここでは、リソース消費の観点からそれぞれのパターンにおける利点と欠点を整理し、実際に導入する際の検討事項を整理します。

最後に、本セッション登壇時点でのOpenTelemetryプロジェクトの動向などから、テレメトリーパイプライン構成に関係しそうなトピックを紹介し、聴衆のみなさんが最新の知識を持ってその導入に活かせるようにします。

■ 対象聴衆とその人たちが得られるもの
本セッションは以下の方々を対象として想定しています。
・SRE
・プラットフォームエンジニア
・アプリケーション開発者
・インフラエンジニア
・運用担当者

また本セッションから得られるものは以下です。
・OpenTelemetryに関する基礎知識(主にテレメトリー取得、収集に関する構成要素)
・OpenTelemetryに限らないテレメトリーパイプラインの構成パターンとその特徴

全体として、まったくの初心者向けの内容というよりは、テレメトリー収集について何かしらの経験があり、課題感を持っている初級から中級者向けの内容になると思います。

■ なぜこのトピックについて話したいのか(モチベーション)
・SREにおいてテレメトリーシグナルの取得は要であり、SRE Kaigiの記念すべき初回にふさわしいテーマだと思ったから
・テレメトリーパイプラインに関する発表を見かけることはまだ多くなく、横断的に整理して紹介することでより多くの組織でのテレメトリー取得の助けにしたいと思ったから
・SRE KaigiにおいてSREに直結する製品であるOpenTelemetryをより広く普及したいと思ったから