SplunkとObservabilityを活用したSREの未来:データドリブンなシステム運用 by 木内亮

SRE Kaigi 2025
採択
2025/01/26 17:10〜
ホール
スポンサーセッション

SplunkとObservabilityを活用したSREの未来:データドリブンなシステム運用

木内亮

■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓

■ 発表概要(400字程度)
「SplunkとObservabilityを活用したSREの未来:データドリブンなシステム運用」では、SREにおけるデータ活用の重要性とその未来像について解説します。私の今までのキャリアでのコンテナ運用やSplunkを用いた経験をもとに、インシデント対応を効率化し、信頼性向上に貢献した実例を紹介します。また、SLOやSLIを用いた顧客体験の改善方法や、Splunkを活用したインシデントの根本原因分析、自動化対応の進展も取り上げます。さらに、データドリブンなアプローチが顧客満足度向上にどのように寄与するかを探り、SRE業務の未来におけるSplunkの役割を展望します。

■ 発表の詳細(1000文字程度)
本セッションでは、SREにおけるデータ活用の重要性と、それがどのようにしてSRE業務に変革をもたらすかについて具体的な事例とともに解説します。データに基づいた意思決定とインシデント対応は、SREにおける信頼性向上の核となる要素であり、サービスの安定運用に不可欠です。このセッションでは、私のこれまでのSplunkを用いたキャリアでの経験と、現在Splunkでお客様の活用を支援している立場から、データドリブンなSRE手法を探っていきます。
具体的には、Splunkのログ管理やSplunk Observabilityのモニタリング機能を活用して、どのようにシステムのパフォーマンスを監視し、インシデントを予測・回避するかを説明します。また、実際の障害発生時やリリース時にSplunkを活用した迅速な対応方法についても紹介し、データに基づく対応がインシデントの影響を最小限に抑え、サービスの信頼性を向上させる方法を共有します。さらに、SLAやSLOの重要性、データ活用による効率化と自動化の進展についても触れ、顧客体験を向上させるデータ活用法を解説します。また、SLA/SLOの明確な設定は、サービスの品質を定量的に評価し、エンドユーザとの透明なコミュニケーションを促進する鍵です。これにより、エンドユーザとの信頼関係構築と満足度向上の戦略を共有します。

■ 具体的には以下のようなアジェンダを企画しています。

  1. イントロダクション
    • Splunkの紹介や、本セッションの概要など
  2. SREにおけるデータの役割と課題
    • データの収集と解析がSREの仕事にどのように貢献するか
  3. データドリブンなエンジニアリングとオブザーバビリティ
    • オブザーバビリティとは?
    • SLA/SLOやSLIの測定と最適化
  4. Splunkを活用したインシデント対応の改善
    • Splunkが、SREの仕事をどのように改善するか
    • Splunkを活用したプロアクティブな対応で顧客体験を改善する事例
  5. 未来のSREとSplunkの活用
    • AIや機械学習を活用した自動化の進展
    • Splunkの今後の方向性と、どのようにSREが未来のインシデント対応を変えていくか

■ 対象聴衆とその人たちが得られるもの
Splunkの活用に興味がある方や、データドリブンなSRE業務に関心がある方にとって、Splunkを活用した新しいSREのアプローチや、インシデント対応・顧客満足度向上に役立つ具体的な手法を学べます。