SRE Kaigi 2025
セッション(30分)

Site Reliability Engineering on Kubernetes

nwiizo nwiizo nwiizo
3

■ 発表カテゴリ
募集要項(https://www.notion.so/srekaigi/SRE-Kaigi-2025-CfP-0939fcd968a74bddaebdbf638a957ab9) にある6つの発表カテゴリからお選びください

・Tech: SREを支える具体的な技術や手法

■ 発表概要(400字程度)
Kubernetesを基盤とした現代のシステム運用において、SREの実践は重要な役割を果たしています。本セッションでは、オープンソースツールを活用してKubernetes上に信頼性の高いインフラストラクチャを構築し、組織全体のソフトウェアデリバリーを加速させる方法を探ります。Helm、Tekton、Argo CD、Crossplane、Knativeなどの主要ツールの統合方法や、運用効率を高めるアプリケーションの設計、マルチクラウド戦略の実装、プログレッシブデリバリーの実現方法について具体的に解説します。これらの技術と手法を通じて、開発チームと運用チームの連携を強化し、システムの信頼性を向上させながら、ソフトウェアデリバリーの効率を大幅に改善する方法を学びます。さらに、SREの効果を測定するためのメトリクスと、継続的な改善サイクルの確立方法についても触れ、長期的な運用戦略を提示します。また、Kubernetesが適さないケースについても議論し、適切な技術選択の重要性を強調します。

■ 発表の詳細(1000字程度)
本セッションでは、Kubernetes環境におけるSRE実践の高度化について解説します。現代のシステム運用でKubernetesが中心的役割を果たす中、SRE原則の効果的な適用がますます重要になっています。我々は、オープンソースツールを活用して信頼性の高いインフラを構築し、組織全体のソフトウェアデリバリーを加速させる方法を探ります。主要なオープンソースツール(Helm、Tekton、Argo CD、Crossplane、Knative)の特徴と、SRE実践への統合方法を紹介します。これらのツールの選定基準や、組織のニーズに合わせたカスタマイズ方法にも触れ、最適なソリューション構築を支援します。SRE視点からの効率的な運用API設計原則を解説し、開発・運用チームの協働促進方法を具体例と共に紹介します。自動化と標準化によるヒューマンエラー削減事例も共有し、信頼性向上への道筋を示します。マルチクラウド環境でのSRE戦略として、Crossplaneを用いたクラウドリソース管理の統一や、クラウド間でのSLO一貫管理技術を紹介します。障害シナリオにおけるマルチクラウドの利点活用についても実践的アプローチを共有します。プログレッシブデリバリーによる信頼性向上として、Knative ServingとArgo Rolloutsを用いたカナリアリリース、段階的トラフィック制御、リアルタイムモニタリング統合、自動ロールバックメカニズムの構築方法を解説します。開発・運用チームの生産性と信頼性の同時向上のため、共通基盤による開発者体験向上とSRE原則浸透、自動化による認知負荷軽減、エラーバジェットの概念導入とその活用について説明します。SRE実践の効果測定と継続的改善のフレームワークとして、DORAメトリクスの活用、カスタムSLI/SLOの設定・追跡、データ駆動型改善サイクルの確立方法を紹介します。大規模システムでのSRE導入事例、課題と克服方法、得られた教訓を共有します。長期的な信頼性向上と運用効率化の両立戦略についても議論します。さらに、Kubernetesが適さないケースについても触れます。例えば、小規模で単純なアプリケーション、リソース制約の厳しい環境、レガシーシステムとの統合が困難な場合、特殊なハードウェア要件がある場合などです。これらの状況では、より軽量なコンテナオーケストレーションツールや従来型のデプロイメント方法が適している可能性があります。Kubernetesの採用を検討する際の評価基準や、代替ソリューションの選択方法についても議論し、技術選択の重要性を強調します。

■ 対象聴衆とその人たちが得られるもの

  • SRE実践者や運用エンジニア
  • Kubernetesを用いたシステム運用に携わる開発者やアーキテクト
  • 信頼性向上とDevOps文化の導入を推進する技術リーダー
  • クラウドネイティブ環境での運用最適化を目指すチーム
  • システムアーキテクチャの選定に関わる意思決定者

得られるもの:

  1. Kubernetes環境でのSRE実践を高度化するための具体的な手法と工夫
  2. オープンソースツールを活用した信頼性向上と運用効率化の実践的アプローチ
  3. マルチクラウド環境での一貫したSRE戦略の立案と実装方法
  4. プログレッシブデリバリーによるリスク軽減と信頼性向上の実現手法
  5. SRE実践の効果を定量的に測定し、継続的に改善するためのフレームワーク
  6. 実際の導入事例から学ぶ、SRE実践の課題克服とベストプラクティス
  7. Kubernetesが適さないケースの理解と、代替ソリューションの評価基準
  8. 技術選択におけるトレードオフの分析と、組織のニーズに合わせた最適な意思決定の方法

■ なぜこのトピックについて話したいのか(モチベーション)
Kubernetesの普及に伴い、多くの組織が複雑性の増大と信頼性維持の難しさに直面しています。SREの原則と実践は、これらの課題を解決し、システムの信頼性と運用効率を飛躍的に向上させる可能性を秘めています。同時に、Kubernetesが全てのユースケースに適しているわけではないという現実も認識しています。
私自身、複数の大規模プロジェクトでKubernetesベースのシステム運用とSRE導入に携わり、その過程で得た知見と成功事例を共有したいと考えています。特に、オープンソースツールの効果的な組み合わせによる柔軟なソリューションの構築方法や、開発・運用チームの協働を促進するAPIの設計について、具体的な実装例を交えて解説することで、聴衆の皆様に実践的な価値を提供できると確信しています。同時に、Kubernetesの採用を見送った事例や、採用後に直面した課題についても率直に共有したいと考えています。これにより、技術選択の重要性と、各組織の特性に応じた適切な判断の必要性を強調できると考えています。このセッションを通じて、参加者の皆様がKubernetes環境でのSRE実践に関する新たな視点と具体的なアプローチを得られ、より信頼性の高いシステムと組織の実現に向けた一歩を踏み出せることを願っています。また、Kubernetesの適用範囲と限界を正しく理解し、各自の環境に最適なアーキテクチャを選択する力を養っていただければと思います。技術の進化が急速な現代において、特定の技術に固執せず、常に最適な選択を追求する姿勢が重要です。このセッションが、参加者の皆様にとって、技術選択の指針となり、より良いシステム設計と運用の実現につながることを願っています。