■ 発表カテゴリ
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
創業時、当社のインフラはさくらのクラウド上へマネージドサービスをほぼ使わず構築していましたが、その後AWSの移管や、複数プロダクトの立ち上げ、SRE専任チームの立ち上げなどの変遷を紹介します。
会社設立半年でテックリードが退職し、一人でSaaSの信頼性・セキュリティを支える日々が始まりました。当時MariaDBのGalera Clusterを4台マルチマスター構成で運用していましたが、利用者増加に伴いデッドロックやノード障害が頻発。夜も眠れない状況を脱するため、AWSへの全面移行を決断し、将来の複数プロダクト展開やSRE組織立ち上げを見据えてEKSでの構築やTerraformを導入しました。
本発表では、この移行と並行した複数プロダクト立ち上げ、ID基盤統合、SRE専任組織の立ち上げ、SLI/SLO策定、コスト最適化・セキュリティ強化までの道のりを共有します。
■ 発表の詳細(1000字程度)
創業時、当社のインフラはさくらのクラウド上に、マネージドサービスをほぼ使わず構築していました。インフラ担当は当初テックリードと私の2名でしたが、会社設立から半年でテックリードが退職。以後、一人で全運用を担うことになりました。
エンタープライズ企業も利用するSaaSとして求められるセキュリティ・可用性水準は高く、日々の負担は大きく、障害対応やセキュリティ施策、キャパシティプランニングなど基本的に一人で抱えていました。
創業初期に直面した課題
・当時のDBはMariaDBのGalera Cluster(4台マルチマスター構成)
・利用者増によりデッドロックが頻発し、パフォーマンスが不安定に
・1台がダウン → 再構築してクラスタに組み込むも膨大なデータ同期が間に合わず、4台→3台に
・さらに障害が起こればサービス停止リスクが増大
・不安から精神的負担も日々増加
AWSへの全面移行と基盤再構築
・このままでは持続的運用は困難と判断し、 AWSへの全面移行を決断
・将来の複数プロダクト展開やSRE組織立ち上げを見据え
- EKSベースで再構築
- Terraform によるIaC導入
- モジュール設計やCI/CD統合などスケールを見越した構成を整備
複数プロダクト化とID基盤統合
・移行と並行して新規プロダクト開発が開始
・スピードを優先し、別AWSアカウント上にECSで構築・リリースすることに
・その後、既存プロダクトをEKSに移植
・複数プロダクトを以下で統合
- Amazon Cognito+Amazon API GatewayによるID基盤
- 共通管理画面アプリケーションも新規開発
SREチームの立ち上げと運用高度化
・初のSRE専任正社員を採用し、SREチームを立ち上げ
・以下の取り組みを少人数で並行して実施
・SLI/SLO策定とモニタリング体制の整備
・インフラコスト最適化とセキュリティ強化
・新規プロダクト立ち上げも継続
現在と本発表の目的
・現在はDB基盤の再構築やAI基盤の検討など、新たな挑戦を継続中
・一人で始めたSRE活動がどのようにチームへと発展していったかを時系列で共有
・限られた人員で複数プロダクトを支えるための実践知と学びを提供
■ 対象聴衆とその人たちが得られるもの
【対象聴衆】
・急成長企業の技術責任者(1人で抱え込んでいらっしゃる方)
・これから限られた人員の中でSRE立ち上げを検討されている方
・複数のプロダクトを限られた人員で運用しているSREの方
【聴講者が得られるもの】
・少人数・人的制約下でのSRE活動の始め方
・アーキテクチャの見直しやSREの立ち上げといった、技術的・組織的な決断をする意思決定プロセスにおいて重視するべき事柄
■ なぜこのトピックについて話したいのか(モチベーション)
一人での運用から始まり、限られたリソースの中でSRE組織を立ち上げ、複数プロダクトを支えるまでの道のりは試行錯誤の連続でした。同じように一人で責任を追っている技術責任者や、これからSRE組織を立ち上げようとしている方々に、実体験に基づくリアルな学びを届けたいと考えています。