SREのためのテレメトリー技術の探究 — モニタリングSaaS開発からAIOps・AIインフラまで by yuuk1

YAPC::Fukuoka 2025
採択
2025/11/14 16:45〜
Track A
キーノート・ゲスト(40分)
ゲスト

SREのためのテレメトリー技術の探究 — モニタリングSaaS開発からAIOps・AIインフラまで

yuuk1t yuuk1 yuuk1t

講演者は、エンジニアと研究者という異なる立場を歩みながらも、一貫してSRE(Site Reliability Engineering)の探究に取り組んできました。SREの根幹をなすモニタリング・オブザーバビリティ、そしてその基礎であるテレメトリーは、信頼性と同様に工学全般に通底する概念でありながら、ソフトウェアエンジニアリング特有の多様な特性を持つ奥深い研究領域です。

エンジニアとしては、社内向けモニタリングシステムの開発、モニタリングSaaSのシステム設計・運用、時系列データベースの開発に従事してきました。その後、研究者に転身し、時系列データベース、eBPFベースのネットワークトレーシング、機械学習を用いたメトリクス分析のAIOpsなどの研究に取り組み、テレメトリーを主軸に博士論文をまとめ上げて学位を取得しました。現在は、多数のGPUから構成される分散AI学習基盤のためのテレメトリーをテーマとした研究開発に携わっています。

本講演では、これまでの実務経験と学術研究を振り返りながら、テレメトリーを専門とすることの意義とおもしろさ、テレメトリーの一般的な歴史と自分史、そして最新の研究動向を踏まえたテレメトリー分野の未開拓領域と今後の研究開発構想について紹介します。