エラーが起きても気づけない。監視なし・自動化なしのデータ分析基盤、信頼性向上の挑戦 by yamao

SRE Kaigi 2026
セッション(30分)

エラーが起きても気づけない。監視なし・自動化なしのデータ分析基盤、信頼性向上の挑戦

yamao
1

■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓

■ 発表概要(400字程度)
SREのプラクティスを用いてアプリケーションを信頼性高く運用していくことと同様に、データに関連する分野でも実践することができます。データ分野へのSREプラクティスの適用はDRE(Data Reliability Engneering)と呼ばれ、データの活用においては不可欠です。

千株式会社では複数プロダクトの横断分析のためデータ分析基盤を構築していますが、「データの件数があわない」「データが取り込まれていない」という問い合わせからパイプラインの障害に気づくようなカオスな状態でした。そこから信頼性のあるデータ分析基盤を目指して、SREのプラクティスを取り入れながら発生していた課題について段階的に対応していったこととその歩みについてお話します。

■ 発表の詳細(1000字程度)
SREのプラクティスを用いてアプリケーションを信頼性高く運用していくことと同様に、データに関する分野でもこれらのプラクティスを実践することができます。

このセッションではデータ分析基盤の構築の背景から構築の経緯、カオスな状況に陥っていた状態、そこからそれぞれの課題に対して行ったことを中心にお話させていただきます。
具体的には以下のような内容を予定しています。

  1. 千株式会社のデータ分析基盤について
    千のデータ分析基盤の構築の背景とどう構築されてきたかについてご説明します。

  2. 構築する中で発生していたデータ分析基盤の課題
    背景と構築状況を踏まえて、データ分析基盤に関わる方々の目線で発生していた課題について紹介します。

  3. 発生していた課題についての対応
    データ利用者やデータエンジニアのそれぞれの視点で見えていた課題について深堀し、それぞれの課題についてどう対応したか・対応した結果どういった成果が得られたかについてご紹介します。

具体的には以下の内容を想定しています。

  • データパイプラインの監視と計測
  • データ分析基盤に関連するトイル削減とAIを活用した一部作業の自動化
  • 個人ではなくチームとして対応していくための仕組みづくり
  1. 今後の展望
    多くの課題に向き合っていったとしても我々のデータ分析基盤の改善はいまだ道半ばです。新たな要求が次々と生まれ、その都度新しい課題に直面しています。
    ですが、信頼性向上の取り組みで確実に何もない状態からの変化は起きており、「エラーが起きても気づけない」状態から脱却できたことは何よりも大きな一歩だと考えています。この経験を通じて得られたデータ分析基盤の信頼性についての考え方の変化と今後の展望についてお話させていただきます。

■ 対象聴衆とその人たちが得られるもの
プロダクトの開発者やSREの方々、データエンジニアの方々全般が対象です。データ分析基盤で起きうる実際の課題や課題に対する取り組みについて、私たちの例を通してヒントを得られます。

■ なぜこのトピックについて話したいのか(モチベーション)
ビジネスを考える上でデータ分析基盤の信頼性はアプリケーションの信頼性と同様に重要なものであると考えています。千のデータ分析基盤へのゼロからの信頼性向上の実践を紹介することで、これから取り組もうとしている方々の一助になれればと考えています。