月間数億レコードのアクセスログ基盤を無停止・低コストでAWS移行せよ!アプリケーションエンジニアのSREチャレンジ💪 by miyamu

SRE Kaigi 2026
採択
セッション(30分)

月間数億レコードのアクセスログ基盤を無停止・低コストでAWS移行せよ!アプリケーションエンジニアのSREチャレンジ💪

KoyoMiyamura miyamu KoyoMiyamura
4

■ 発表カテゴリ

  • Tech: SREを支える具体的な技術や手法
  • Practices: SREの実践例と得られた教訓
  • Architecture: SREの視点からのシステム設計
  • Case Studies: 実際の導入事例や失敗談

■ 発表概要(400字程度)

10年稼働するプロダクトの月間数億レコードのアクセスログが、プロダクト間共有RDB運用の限界に達し、無停止移行が急務となりました。この移行は組織・技術における領域横断的な能力が求められ、単一領域だけでは解決困難でした。そこでアプリケーションエンジニアの筆者がSRE精神を発揮し、自身のケイパビリティを拡張してこの困難な移行プロジェクトにチャレンジしました。

本セッションでは2つのトピックをお話しします。

1. 月間数億レコードのアクセスログ移行における技術的知見

CloudWatch Logs エージェント、Amazon Data Firehose、Athena、AWS Glueを駆使したParquet形式+Snappy圧縮による月間数億レコードの無停止移行設計と、データ重複・欠損問題の解決策。

2. 領域を超えたSRE精神の発揮

既存の役割を超えたSREマインドの実践と、組織を巻き込む信頼性向上の方法論を紹介します。

■ 発表の詳細(1000字程度)

1. 背景:アクセスログのRDB運用の限界

筆者は10年稼働するプロダクトのテックリードとして、月間数億レコードを超えるアクセスログをプロダクト間共有RDBで運用していました。このログは開発者の障害調査だけでなく、カスタマーサービスの顧客対応などでも利用される重要なデータです。しかし運用が限界に達しており、さらに組織的な事情により数ヶ月以内での移行が求められる状況でした。

2. 挑戦:アプリケーションエンジニアのSREチャレンジ

この課題解決には組織の領域横断的なスキルが求められ、単一領域だけでは解決困難でした。筆者はSRE領域のケイパビリティが不足していましたが、「システムの信頼性に重要なアクセスログが失われる」という危機感からSRE精神を発揮し、自身のケイパビリティを拡張してこの移行プロジェクトにチャレンジしました。

2-1. アクセスログ移行の技術的詳細

  • CloudWatch Logs エージェント、Amazon Data Firehose、Athena、リアルタイムログ収集・閲覧設計
  • AWS Glueを駆使したParquet形式+Snappy圧縮によるデータ量・コスト削減
  • 管理画面を維持するためk8s上のRailsアプリケーションからAthenaを使う
  • 最難関のデータ重複・欠損問題への対策
    • 初めてのAWSサポートケース起票
    • Amazon Data Firehoseを用いたログ収集設計における見落としと教訓
    • k8s上のSidekiq運用におけるpreStop戦略

2-2. 領域を超えたSRE精神の発揮

  • ステークホルダー分析と要件の可視化(共有RDB利用の他プロダクト、データチーム、インフラチーム)
  • SREチームとの協業で足りないケイパビリティを補う
    • インフラ設計
    • 慣れないk8s/terraformを用いたインフラ構築
  • 技術的な制約をビジネス要件に翻訳して関係者調整
  • 段階的リリース戦略による無停止移行
  • 既存の役割を超えて誰でもSREマインドで行動できること
  • 組織を巻き込んで信頼性向上を実現する方法論
    • 普段から領域を横断して関係性を築くこと

本セッションでは、これらの技術実装の詳細と、アプリケーションエンジニアが領域を横断し、組織と協力して信頼性向上に取り組んだプロセスとプラクティスを実体験ベースでお話しします。

■ 対象聴衆とその人たちが得られるもの

  1. 技術的知見
    • 月間数億レコード規模のアクセスログを無停止で移行する具体的な戦略とアーキテクチャ
    • CloudWatch Logs エージェント、Amazon Data Firehose、Athena、AWS Glue を駆使したParquet形式+Snappy圧縮の実践的な活用法
    • Rails + Athena を用いたアクセスログ検索システムの構築
    • データ重複・欠損問題の対策
  2. SRE実践のプラクティス
    • アプリケーションエンジニアでも、自身のケイパビリティを拡張してSRE精神を発揮できるという実例
    • 組織横断的なプロジェクトを推進するためのステークホルダーの巻き込み方、調整の仕方
    • 専門チームと連携して自身に足りないケイパビリティを拡張する方法

■ なぜこのトピックについて話したいのか(モチベーション)

この移行プロジェクトで得られた技術的知見は、類似の課題に直面するエンジニアの参考になると考えています。月間数億レコード規模のアクセスログ基盤のアーキテクチャ移行という課題への実践的なアプローチを共有することで、コミュニティに貢献したいと思います。

また、筆者は「SREは役職ではなく、魂」だと考えています。
組織においてSREの役職ではない筆者が、信頼性の高いシステム構築・運用における課題に Challenge し、実際に解決した経験をお話しすることで、SREが役職に縛られない、より自由なものであるということをお伝えしたいです。