■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
「SREのはじめの一歩はどんな感じなんだろう?」
本セッションでは、SRE未経験のインフラエンジニアが中心となり、SaaSサービスの立ち上げ期にSREを実践しているようすを紹介します。
PdM、デザイナー、開発エンジニア、カスタマーサクセスが集う十数名のチームメンバーと共に、どのようにSREの考え方を導入・実践し、サービスの信頼性向上に取り組んだのかをお話しします。
・SREについて考えるようになった背景・契機
・ミッションを中心にSREに取り組む
・CDNの本格導入
・Google App EngineからGoogle Kubernetes Engineへの移行
・ステータスページの導入
・取り組みを通して学んだこと
・これから取り組むこと
SRE経験はゼロからのスタートでしたが、サービスが成長していく中で、SREの実践に奮闘して得た経験と学びを、赤裸々に語ります。
■ 発表の詳細(1000字程度)
◎SREについて考えるようになった背景・契機
2024年7月にヘッドレスCMS「NILTO」の開発チームにインフラエンジニアとしてジョインした私は、Google Cloud上で構築された、今まさに成長中のサービスを目の当たりにしました。
2023年12月の正式リリース以降、NILTOの機能開発はさらに加速中。
そんな中私は、Google Cloud認定Professional Cloud DevOps Engineerの取得を契機に、SREへの関心を深めました。
試験範囲にあったSREの手法を、私たちのサービスにも適用できるのではと考えたのです。
SREという言葉はまだチーム内にありませんでしたが、プラクティスを適用できる余地は多く、SREの0→1フェーズを経験することは、私だけでなくチーム全体にとって有益だと考え、実践に取り組みはじめました。
◎ミッションを中心にSREに取り組む
SREと一言で言っても、そのプラクティスは多様です。
まずはインフラエンジニアとしてのお仕事・ミッションを中心に、少しずつ取り入れていくことにしました。
・CDNの本格導入
CDNサービス選定と並行し、ドキュメント作成に着手しました。
サービス選定がほぼ完了した段階で、IaCによるリソース作成を試行。
CDNとアプリケーションの間に必要な機能の設計・開発と並行して、ドキュメントを充実させていきました。
・Google App EngineからGoogle Kubernetes Engineへの移行
まずはGKE周辺の構成図を書くことからはじめて、IaCによるリソース作成、移行の検証に取り組みました。
また、モニタリング項目が大きく変わるため、改めて整理を行いました。
・ステータスページの導入
SLOに関わるシステム稼働情報、メンテナンス情報、インシデント対応状況などをリアルタイムにユーザーに伝えるため、ステータスページ導入を検討しました。
サービス選定と試用を通じて、運用イメージを具体化し、ユーザーへの透明性向上と信頼獲得を目指しました。
◎取り組みを通して学んだことと、これから取り組むこと
これらの取り組みは、現在も進行中です。
発表では、取り組みの結果や経験から得られた学びと今後の展望について、発表時の最新情報も交えてお伝えします。
SRE未経験のインフラエンジニアを起点として、チームで実践してきた道のりを共有することで、同様の課題を抱える方々への一助となることを願っています。
■ 対象聴衆とその人たちが得られるもの
・新サービスの企画中で、SREってどんな風に始まるの?と考えている人
・サービス立ち上げ期、もしくは実際にサービス運用中で、これからSREを始めていきたい開発/インフラ/運用エンジニア
私たちも、開発/インフラ/運用エンジニアとしてのバックグラウンドを基に、SREの学習と実践を繰り返している真っ只中です。
本セッションを通じて、SREを始めるにあたっての足がかりとなる情報を得ていただき、そして一緒にブラッシュアップしていければ良いなと考えています。
■ なぜこのトピックについて話したいのか(モチベーション)
サービス正式リリース直後の立ち上げ期にSREの考えを導入して実践するということは、立場や状況によってはなかなか経験が少ないと思います。
その経験から得た知見をオープンな場所で発表することで、将来SREに関わるエンジニアの実務への活用や、SREコミュニティの広がりに貢献していきたいと考えています。