大規模PaaSにおける監視基盤の構築と効率化の道のり by 片岡拓海

SRE Kaigi 2025
セッション(30分)

大規模PaaSにおける監視基盤の構築と効率化の道のり

片岡拓海

■ 発表カテゴリ
募集要項( https://www.notion.so/srekaigi/SRE-Kaigi-2025-CfP-0939fcd968a74bddaebdbf638a957ab9 ) にある6つの発表カテゴリからお選びください

・Tech: SREを支える具体的な技術や手法
・Architecture: SREの視点からのシステム設計
・Case Studies: 実際の導入事例や失敗談

■ 発表概要(400字程度)

私たちのチームでは、100を超えるKubernetesから構成される社内向けのPlatform as a Serviceを運用しています。この運用において、利用者の増加に伴い大量のメトリクスが課題となりました。特に既存の監視基盤が耐えられなくなることが懸念されました。この課題を解決するために、私たちは様々な構成を試み、改善を行いました。

本セッションでは、現状の構成に至るまでの運用者の課題と解決方法を説明します。そして、利用者増に耐えうるスケーラブルなメトリクス監視基盤の構築と効率的なメトリクス圧縮及び保存の実現方法について説明します。特にメトリクス収集の監視基盤や改善を行った際の知見、実際のアーキテクチャやメトリクス量などを用いながら説明を行います。

■ 発表の詳細(1000字程度)
本セッションでは以下の流れで発表を予定しています。

  • プロダクトの概要と特徴
    私たちのチームでは、100を超えるKubernetesから構成される社内向けのPlatform as a Service(PaaS)を運用しています。このPaaS上では150K以上のPodが稼働し、750K rps以上のリクエストを処理しています。

  • 課題
    しかし、このPaaSの運用において利用者の増加に伴い大量のメトリクスが課題となりました。具体的には、既存の監視基盤が耐えられなくなることが懸念されました。メトリクスはシステムの健全性を監視し、パフォーマンスのボトルネックを特定するために不可欠ですが、メトリクス量が増加するにつれて、メモリやストレージの容量やクエリのパフォーマンスが問題となりました。

  • 解決方法
    このような課題を解決するために、私たちは様々な構成を試み、改善を行いました。まず、メトリクスの収集方法を見直し、PrometheusやGrafanaなどのツールを活用して効率的なデータ収集と可視化を実現しました。さらに、データのストレージには、スケーラブルなデータベースを採用しました。具体的には、VictoriaMetrics Single Version と VictoriaMetrics Cluster Version を導入し、短期的なメトリクスと長期的なメトリクスの特徴に応じた効率的なメトリクス保存を行いました。現在のアーキテクチャに至るまでの変遷、それぞれのメリットとデメリットを共有します。

  • 成果
    これらの手段を講じた結果、メトリクスの収集と管理が効率化されました。具体的には、以下の成果が得られました。

    • スケーラブルなメトリクス監視基盤:PrometheusによるスクレイピングとGrafanaによる可視化により、スケーラブルな監視基盤を構築が可能となりました。
    • メトリクスの圧縮と効率的な保存:VictoriaMetricsの導入により、メトリクスの圧縮が実現できました。それに伴い効率的なメトリクス保存が実現しました。
    • オブザーバビリティの向上:効率的なメトリクス圧縮の実現により、今まで実現できていなかったオブザーバビリティの向上が実現しました。

■ 対象聴衆とその人たちが得られるもの

対象聴衆は以下になります。

  • SREエンジニア
  • DevOpsエンジニア
  • システム管理者
  • Kubernetes運用者

また本セッションから得られるものは以下になります。

  • 大規模分散システムにおけるメトリクス収集および永続化の手法
  • Prometheus, Grafana, VictoriaMetricsの活用方法および導入事例

■ なぜこのトピックについて話したいのか(モチベーション)
安定的なシステム稼働において、メトリクスの収集・保存は重要な要素の一つです。特に大規模なシステムを運用する場合、スケーラビリティやパフォーマンスなどの課題が顕著になります。
私たちは、同様の課題に直面している他のチームやエンジニアに対して、有益な情報と具体的な解決策を提供したいと考えています。
また、私たちのチームで行った解決策や解決までの道のりを共有することで、コミュニティ全体の技術力向上に貢献できると考えています。