■ 発表カテゴリ
募集要項( https://www.notion.so/srekaigi/SRE-Kaigi-2025-CfP-0939fcd968a74bddaebdbf638a957ab9 ) にある6つの発表カテゴリからお選びください
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
サービスの信頼性を担保するためにSREがやるべきことは多岐にわたります。そんな中、ローンチまで限られた時間しか与えられなかった場合あなたは何を優先しますか?
このセッションでは、もともと関わりがなかったサービスのローンチ1か月前にEmbedded SREとして参加したスピーカーが、自身の実体験を基に、短期間で新規サービスの信頼性を確保するための具体的なアプローチや戦略を紹介します。限られた1か月の間に、SREとしてどのように優先順位を決め、サービスを成功させるための行動を取るのか、どのようなツールや手法を使って問題を予測し解決するのかを具体例を交えて説明します。特に、モニタリング、インシデント対応、負荷試験、セキュリティ対策、コスト最適化戦略、などに焦点を当てます。
■ 発表の詳細(1000字程度)
本セッションではローンチ直前のサービスにSREとして参加したと仮定して、どういった優先順位付けで信頼性向上に向けてアプローチしていくのか議論していきます。
1 レポートラインの確認
決めるべき項目を誰と合意する必要があるのか、誰にヒアリングすることで必要な情報を得られるのかを確認します。
2 Production Readiness Checklistに基づく初期評価と優先順位付け
Production Readiness Checklistの紹介と重要性を説明します。
新しいサービスのアーキテクチャと依存関係を迅速に把握し、Production Readiness Checklistに基づく初期評価を行います。
評価に応じて、追加対応が必要な項目のアクションプランを作成し、実施する優先度を決めます。
3 モニタリングとアラート設定
重要なメトリクスを定義し、適切なモニタリングツールを選択します。
アラートポリシーを策定し、アラートが発火したときのRunBookを作成します。
4 インシデント管理体制の整備
インシデント対応プロセス(エスカレーションフロー、インシデントログ、Postmortemについて)を確立し、チーム全体に周知します。
障害対応訓練を行い、対応手順の確認と改善を行います。
5 負荷試験
負荷テストを実施し、ボトルネックを特定します。
必要なパフォーマンス改善策を実行し、再度テストを行います。
このタイミングでボトルネックが発覚しても改修までの時間が足りないケースが多いのではないでしょうか。そうならないためにも、事前にProduction Readiness Checklistを作成しサービスチームが継続的に準備を進めることが重要です。
6 セキュリティ対策
セキュリティ評価を行い、脆弱性対応やアクセスキーなどの整理を行います。
7 ローンチ後のコスト最適化戦略
ローンチ時に想定最大DAUに合わせてスケールアップしていた構成をダウンサイジングしていく戦略作成の方針を解説します。
これらのステップを通じて、1ヶ月という短期間でどのようにサービスの信頼性を高めるかを具体的に解説します。また、実際のプロジェクトでの経験や課題、学びを共有し、参加者が同様の状況に直面した際に役立つ実践的な知識を提供します。
■ 対象聴衆とその人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
SRE本 27章「大規模なプロダクトのローンチにおける信頼性」でも一章を使って説明されているようにサービスローンチ前に確認すべきことは多岐にわたります。限られた時間で効率よくアクションプランを作成し、実施していくための合意形成などについて、みなさんと意見交換させていただきたいです。また、私自身の経験から、短期間での信頼性向上の具体的な手法を共有することで、同様の課題に直面している方々の助けになればと思っています。