■ 発表カテゴリ
募集要項( https://www.notion.so/srekaigi/SRE-Kaigi-2025-CfP-0939fcd968a74bddaebdbf638a957ab9 ) にある6つの発表カテゴリからお選びください
・Tech: SREを支える具体的な技術や手法
・Architecture: SREの視点からのシステム設計
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
私たちのチームでは、100を超えるKubernetesから構成される社内向けのPlatform as a Serviceを運用しています。この運用において、利用者の増加に伴い大量のメトリクスが課題となりました。特に既存の監視基盤が耐えられなくなることが懸念されました。この課題を解決するために、私たちは様々な構成を試み、改善を行いました。
本セッションでは、現状の構成に至るまでの運用者の課題と解決方法を説明します。そして、利用者増に耐えうるスケーラブルなメトリクス監視基盤の構築と効率的なメトリクス圧縮及び保存の実現方法について説明します。特にメトリクス収集の監視基盤や改善を行った際の知見、実際のアーキテクチャやメトリクス量などを用いながら説明を行います。
■ 発表の詳細(1000字程度)
本セッションでは以下の流れで発表を予定しています。
プロダクトの概要と特徴
私たちのチームでは、100を超えるKubernetesから構成される社内向けのPlatform as a Service(PaaS)を運用しています。このPaaS上では150K以上のPodが稼働し、750K rps以上のリクエストを処理しています。
課題
しかし、このPaaSの運用において利用者の増加に伴い大量のメトリクスが課題となりました。具体的には、既存の監視基盤が耐えられなくなることが懸念されました。メトリクスはシステムの健全性を監視し、パフォーマンスのボトルネックを特定するために不可欠ですが、メトリクス量が増加するにつれて、メモリやストレージの容量やクエリのパフォーマンスが問題となりました。
解決方法
このような課題を解決するために、私たちは様々な構成を試み、改善を行いました。まず、メトリクスの収集方法を見直し、PrometheusやGrafanaなどのツールを活用して効率的なデータ収集と可視化を実現しました。さらに、データのストレージには、スケーラブルなデータベースを採用しました。具体的には、VictoriaMetrics Single Version と VictoriaMetrics Cluster Version を導入し、短期的なメトリクスと長期的なメトリクスの特徴に応じた効率的なメトリクス保存を行いました。現在のアーキテクチャに至るまでの変遷、それぞれのメリットとデメリットを共有します。
成果
これらの手段を講じた結果、メトリクスの収集と管理が効率化されました。具体的には、以下の成果が得られました。
■ 対象聴衆とその人たちが得られるもの
対象聴衆は以下になります。
また本セッションから得られるものは以下になります。
■ なぜこのトピックについて話したいのか(モチベーション)
安定的なシステム稼働において、メトリクスの収集・保存は重要な要素の一つです。特に大規模なシステムを運用する場合、スケーラビリティやパフォーマンスなどの課題が顕著になります。
私たちは、同様の課題に直面している他のチームやエンジニアに対して、有益な情報と具体的な解決策を提供したいと考えています。
また、私たちのチームで行った解決策や解決までの道のりを共有することで、コミュニティ全体の技術力向上に貢献できると考えています。