■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
・Culture: SRE文化の醸成と組織変革
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
本セッションでは、クラウド ETL サービス「TROCCO®」の1人目の専任 SRE として、 primeNumber の SRE チーム立ち上げからの取り組み、特にスタートアップ環境特有の課題にどう対応してきたかを共有します。
これまで、CTO や業務委託の方々、SRE として入社してくれた2人のメンバーと協力して様々な改善を行ってきました。
紹介する内容は、決して自分一人でやってきたことではなく、チームとして取り組んできた内容です。
また、スマートラウンドの山原さんの記事、「スタートアップの1人目SREが入社後にやってきたこと」と同様に、取り扱う内容は SRE の理論や原理原則に沿って各種プラクティスを実践したこと、というよりは、セキュリティ、モニタリング、IaC、コスト、パフォーマンス、運用、開発効率などなど、「いまこの組織で取り組むことでプロダクトと事業に貢献できるのではないか?」と自分たちなりに判断してきたこととなります。
このセッションを通じて、SRE チーム立ち上げ期における具体的な課題設定、運用プロセスの構築・改善、そして組織的な文化醸成に関する実践的な知見を提供します。
また、Corporate SRE というポジションをオープンし、SRE のプラクティスを「プロダクト以外」に広げていくという可能性を模索していくことにも言及します。
■ 発表の詳細(1000字程度)
クラウド ETL サービス「TROCCO®」における1人目専任SREとして、3年間でチームと組織の信頼性を段階的に向上させてきた取り組みを紹介します。
◯ 入社〜6ヶ月:荒野の開拓期
システム構成図もなく、IaCも一部のみという状態から、まずは現状把握・可視化のために構成図の作成を実施。FTR(Foundational Technical Review)取得のためのセキュリティ強化を行い無事取得。また、ポストモーテム文化の醸成とインシデント対応の型化に取り組みました。
◯ 6〜12ヶ月:信頼性と開発文化の向上
DB 起因のインシデント頻発に対し、課題の深堀りからAurora 3系(MySQL 8系)へのアップグレード、DB メンテナンス体制を整備。開発文化面では、ドキュメントの Confluence 移行、作業スレ(Working Out Loud)推進によるリモートワーク下の情報共有を改善。CTO の1人 Always On-Call 状態を、ローテーション体制とドキュメント文化、通知の仕組み化により解消しました。
◯ 1〜2年:チーム強化と役割の拡大
2人目SREが JOIN 、自分はセキュリティチーム兼務を開始。ビジネスへのより直接的な関わりが増え、海外リージョン構築では法務・グローバルチームと要件をすり合わせながら別環境を構築(このタイミングで Terraform Module 化も実現)。SLA策定と集計運用、SOC2 準備など、ビジネスに直結した取り組みを実施。SLO とエラーバジェットポリシーを定め、ジョブ実行基盤のスケーリング改善に取り組みました。
◯ 2〜3年:成熟と発信
1人目セキュリティエンジニアが JOIN、SRE 人数は変わらず。ログデータのDB分離と削除、EKSカナリアリリースの仕組み作り、AWS Organization導入、NATインスタンス信頼性向上など、中長期の運用に響く施策を実施。採用への関与を深め、情報発信(ブログ、登壇、イベント出展)にも積極的に取り組みました。
◯ 3年〜:そしてCorporate SRE へ
3人目の SRE が JOIN。SOC2 取得のための対応を再開。組織課題への対策として全社横断で様々な「信頼性」を高める取り組みが必要と判断し、「Corporate SRE」を立ち上げました。プロダクト開発"以外"への SRE のプラクティス適用を目指します。
全期間を通じて、Terraform 運用改善、コスト削減、監視・アラート改善など、継続的な改善活動も並行して実施しています。時間の許す限りこれらの取り組みについても紹介します。
■ 対象聴衆とその人たちが得られるもの
◯ 対象聴衆
◯ その人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
スタートアップで SRE ロールを担う方、インフラ基盤の改善に取り組むエンジニア、SRE チームの立ち上げや運営に関心のある方々に、現場で役立つ情報やヒントをお届けできればと考えています。