OpenTelemetry計装における、最初のトラブルシューティング by Kazunori Otani

SRE Kaigi 2025
セッション(30分)

OpenTelemetry計装における、最初のトラブルシューティング

katzchang Kazunori Otani katzchang
1

■ 発表カテゴリ
・Tech: SREを支える具体的な技術や手法

■ 発表概要(400字程度)
ある程度の規模のプロダクション環境では、複数のマイクロサービスが様々な基盤の上で、絶え間なく変化を続けながら動作することになります。そんな環境から各種テレメトリーデータを集めて可視化し、複雑な状況の把握を助けるのが「オブザーバビリティ」と呼ばれている分野です。

オブザーバビリティのためのテレメトリーデータを収集する各種ツール群や標準を提供しているのがOpenTelemetryです。様々な箇所にエージェントを設定し、データパイプラインを構築し、バックエンドに送り、可視化する。OpenTelemetryは「簡単に始められる」というコンセプトはありつつも、実際には、常にうまく動くとは限りません。

本セッションでは、OpenTelemetryの計装でよくあるトラブルの例とその解決方法を、OpenTelemetryのアーキテクチャーとともに紹介していきます。そして、テレメトリーデータの活用を始めるためのステップについて議論していきます。

■ 発表の詳細(1000字程度)

  1. OpenTelemetryとオブザーバビリティの概要

本セッションの目的と内容を紹介し、OpenTelemetryがオブザーバビリティの領域で果たす役割を簡単に説明します。マイクロサービスアーキテクチャにおいて、どのようにして複雑なシステム全体の健全性を可視化するのか、そのために必要なテレメトリーデータの収集と分析の重要性を伝えます。

  1. OpenTelemetryの基本アーキテクチャ

OpenTelemetryの構成要素(API、SDK、Collector、エクスポート機能など)について簡単に解説します。各コンポーネントがどのように連携して動作し、テレメトリーデータを収集・処理・送信するかを紹介し、全体の流れを把握します。

  1. よくあるトラブルとその原因

OpenTelemetryをプロダクション環境で導入した際に直面することの多いトラブルをいくつか紹介します。例えば、以下のような問題が取り上げられます。

  • メトリクスやトレースが意図した通りに収集されない
  • 特定のサービスでエージェントが正常に動作しない
  • データパイプラインが断続的に失敗する

これらの問題の原因を探るための手順を解説します

  1. トラブルシューティングの方法と解決策

よくあるトラブルに対する具体的な解決方法を説明します。例えば、エージェントの設定ミス、ネットワーク関連の問題、バックエンドへのデータ送信が不安定なケースなどについて、どのように診断し、修正するかを解説します。また、適切なログの確認方法や、トラブル解決を容易にするデバッグツールの使用についても触れます。

  1. テレメトリーデータの活用を始めるためのステップ

OpenTelemetryを効果的に導入し、オブザーバビリティを高めるためのステップについて議論します。初期の設定から本格的なデータ可視化・分析まで、どのような段階を踏んで進めていくべきかを具体的にアドバイスします。例えば、小規模なテスト環境での計装から本番環境への展開、データの収集・保存・分析のための適切なツールの選定などです。

■ 対象聴衆とその人たちが得られるもの

  • SRE、開発者
  • トラブルシュートやパフォーマンス問題に悩む人
  • 開発/運用プロセスの改善を考えている人
  • OpenTelemetryを使い始めようと思っている人
  • OpenTelemetryを試したことがあるけどうまく動かなくて「?」ってなった経験がある人
  • オブザーバビリティの向上が必要だと思っている人

■ なぜこのトピックについて話したいのか(モチベーション)
私の経験が皆さまのお役に立てればと思い・・・