山口能迪 ■ 発表カテゴリ
・Architecture: SREの視点からのシステム設計
・Culture: SRE文化の醸成と組織変革
・Future: SREの未来と新しいトレンド
■ 発表概要(400字程度)
生成AIを用いたシステム開発・運用が急速に普及してきましたが、一方で生成AIとの共存が課題となっています。本セッションでは、生成AIを用いたシステム開発・運用において、なぜこれまで以上にSREのプラクティスが重要になってくるのか、その理由を述べ、その対策として求められるSREのプラクティスを振り返ります。また同時に、生成AIがあるからこそ、よりその価値が高まるプラクティスについても解説します。本セッションを聞くことで、今後のシステム開発・運用において、生成AIとSREが両輪となって、開発者、運用担当者、さらには他の多くの部署の人々にとって大きな価値をもたらす枠組みを理解できます。
■ 発表の詳細(1000字程度)
2025年10月現在の生成AIツールは大規模言語モデル(LLM)ベースのものです。LLMベースの生成AIは、指示に対してもっともらしい出力を生成する一方で、注意深く利用しないと人間が期待しない結果を混入させるなど、まだまだその利用において課題が多い状況です。現在の生成AIツールの利用に関しての議論は、特に個人〜小規模チームでの開発(機能の実装)の話を中心としたものがほとんどで、その成果物をどのように安全に本番環境に導入し、そして安定して運用していくかについては多く語られていません。
本セッションでは、SREで挙げられている継続的インテグレーション(CI)、Infrastructure as Code、カナリアリリース、オブザーバビリティ、インシデントレスポンス、ポストモーテムといった各種プラクティスが、なぜ生成AIを前提とした開発・運用プロセスにおいて重要なのかを「生成」「分析・調査」「要約」の3つの点から解説します。
まず「生成」に関して。生成されたコードの安全性に大きく寄与するのはテストです。CIによって機能要件だけでなく、非機能要件(特に性能品質)にまで及んでテストを行うことが今後ますます重要となります。またIaCの設定も生成AIで行う事例が増えていますが、これも必ずテストが必要です。危険な設定項目が変更されていないかなど、SREにおいて推奨されている事前チェックが活きてきます。テスト後のリリースでも障害範囲を最小限に抑えるためにカナリアリリースといったSREが推奨するリリース戦略が効果を発揮します。
次に「分析・調査」です。先にも述べたように生成AIは、多くを出力することに目が向きがちですが、その結果の精度を上げるためには適切なコンテキストが必要です。その観点では、実は運用こそ有効に活用できます。IaCはまさにシステムの設計・仕様と実際をつなぐ重要なコンテキストです。IaCが静的なコンテキストとすれば、オブザーバビリティは動的なコンテキストです。何が起きているかを理解する上で、オブザーバビリティは障害の原因究明のための大きなヒントとなります。
最後に「要約」です。生成AIによりインシデントレスポンスやポストモーテムにおいて、雑多にメモされ、かつ様々な場所に置かれた情報を整理して要約することで、SREに必要な文書生成の効率が大きく向上します。
このようなさまざまなSREプラクティスが生成AIを前提とした開発・運用で、効果を発揮し、また効率を上げられるということを一つ一つ解説していきます。
■ 対象聴衆とその人たちが得られるもの
実際にSREをいま実践している人々も、SREを実践していない人も、また生成AIの活用を積極的に行っている人も、これから導入を検討している人も、すべての人々が生成AIが普及した新しい時代のシステム開発や運用において、SREの価値がより高まることを理解できるようになります。
■ なぜこのトピックについて話したいのか(モチベーション)
私は日本においてSREが普及しはじめるころから、その啓蒙を積極的に行い、そのために日本のSREコミュニティにとって普及する価値があると考える多くの英語版の関連技術書籍を翻訳してきました。そんな中、技術者は生成AIという新たな道具を手に入れ、その普及が広まる中で、開発者・運用者不要論を唱えるような人まで出てきました。しかし、実際にはそのためには生成AIを正しく振る舞わせるためのコンテキストが重要で、そのための活動は実はSREで言われているようなプラクティスそのものが意味をなすということはあまり知られていないように感じます。
このような背景から、SREを知っている人には改めて新たな価値を認識してもらい、SREを知らなかった人にも新たに関心を持ってもらいたいと考えて本セッションを応募しました。
川崎 雄太 ■ 発表カテゴリ
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
多くのSRE組織が、サービス信頼性の向上に注力する一方で、「社内情報システム」や「セキュリティ」という隣接領域との連携不足に課題を感じていませんか?
私は「重複したタスクを対応する」などの課題を実感しています。
SRE・社内情報システム・セキュリティ3領域を同時にマネジメントする中でSREの考え方やプラクティスを活用することでシナジーを創出しました。
・SLO/SLIの設定と計測 → ヘルプデスク対応の期待値設定とコントロール
・サービスの信頼性向上 → プロアクティブなセキュリティ対策
・エラーバジェットの運用 → 経営イシューとなるセキュリティリスク管理と意思決定
本セッションでは、SREからキャリアを広げたい方、社内情報システムやセキュリティを主務としていてSREに興味がある方に「次のキャリアに向けたTips」「SREのプラクティスがいかに汎用的かという学び」を提供します。
■ 発表の詳細(1000字程度)
以下のアジェンダでお話します。
SRE / 社内情報システム / セキュリティの課題(6分)
・現代の多くの組織で、SRE・情報システム・セキュリティが分断されて運営されていることによる課題がある。
・重複する作業領域や兼務による非効率
・「サービスの信頼性を高める」という目的は一緒だが、手段が異なるので重複する
・インシデント対応時の責任範囲の曖昧さ
・組織的に縦割りになってしまう or どちらもボールを取りに行ってしまい、効率的に動きにくい
・技術選定における最適化の困難さ
・ナレッジの相互共有やスキルトランスファーがされにくい
SRE / 社内情報システム / セキュリティで統合型マネジメントをやってみた(8分)
・最初は責任範囲の対立やコミュニケーションコストの多さでうまく行かなかったので、以下を推進した。
・各領域の責任範囲定義 / 相互依存関係の設計
・コミュニケーション手法、意思決定プロセス
・KPI設計
・限られた時間とリソースの中で「何をやり、何をやらないか」を判断し、リソースをどう配分するか?の組織戦略。
・「攻めのSRE」を体現するためのTips。
SREのプラクティスをどう適用したか?(8分)
・「事業成長を支える部門」という切り口で共通しているので、以下を対応した。
・SLO/SLIの設定と計測 → ヘルプデスク対応の期待値設定とコントロール
・サービスの信頼性向上 → プロアクティブなセキュリティ対策
・エラーバジェットの運用 → 経営イシューとなるセキュリティリスク管理と意思決定
・これらの推進がシナジー創出に繋がり、結果としてエンジニアリングマネージャーが取り組むべき「組織の成果の最大化」に寄与した。
適材適所を実現する人材マネジメント(5分)
・SREが「組織成果の最大化」を実現するために工夫したこと。
・人のReliabilityの見極め方
・キャリアパス設計
・モチベーション管理
・SREの次のキャリアとしてエンジニアリングマネージャーを目指すことの優位性。
持ち帰ってほしいこと(3分)
・SREのプラクティスはさまざまな領域に活かすことができるし、次のキャリアに必ず役に立つ。
・SREはぜひ社内情報システムやセキュリティにもチャレンジしてほしい。
■ 対象聴衆とその人たちが得られるもの
■対象聴衆
■聴衆が得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
■個人的な体験と学び
私自身がSRE・社内情報システム・セキュリティの3領域を同時にマネジメントするという、そこまで同じロールの方が多くない珍しい経験をしている。
この経験を通じて、従来の縦割り組織では実現できない大きなシナジー効果と価値創造の可能性を実感し、また「SREのプラクティスの汎用性と可能性」について論じたいと考えた。
■SREコミュニティへの貢献意識
SRE NEXTで登壇者やコアスタッフを務める中で、SREコミュニティの発展に貢献したいという想いがあり、多くのSRE組織が組織運営や他部署との連携で課題を抱えている現状を見る中で、私の実践経験が同じような課題を持つ方々の参考になればと考えている。
特に、SREの枠を超えた統合的なアプローチは、まだ体系化されていない分野であり、実践例を共有することで業界全体の発展に寄与できると信じている。
また、この挑戦を通じてSREのキャリアの可能性を実感した。
■組織変革への情熱
「組織の成果の最大化」という目標に向けて、常に新しい組織運営手法にチャレンジしている。
3領域統合マネジメントも、その挑戦の一つ。このチャレンジが成功体験となったことで、他の組織でも同様の価値創造が可能であると考えおり、SRE Kaigi 2026のテーマである「Challenge SRE !」にまさに合致する、組織変革への挑戦を共有することで、聴講する方にきっかけや熱量を提供したい。
総じて理論的な話ではなく、実際に現場で使える知識とノウハウと明日からすぐに活用できる実践的な手法を届けたい。
■ 発表カテゴリ
募集要項(https://srekaigi.notion.site/SRE-Kaigi-2026-CfP-25a6f7392c108187a9e6e47c346396b2) にある6つの発表カテゴリからお選びください
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
本発表では、2021年頃からSREのプラクティスをサイトに導入し、サイトから基幹システム含めてモダナイゼーションの過渡期にある現在に至るまで、モノタロウにおけるSREの軌跡と現状、今後の展望を共有します。
3,4 年に渡り運用してきた SLO ベースでのサイト運用で見えてきた課題、当初の想定とのギャップ、サイトとは異なる基幹システム特有のSLI/SLO設計と実装の困難さ、SRE のプラクティスだけだと届かないオブザーバビリティの重要性についての話、プラットフォームエンジニアリング部門の組成に伴う SRE のあり方の変化、数値に基づく運用の過程で見えてきた開発生産性に関わる話に至るまで、今まであまり公開されていなかった取り組みについて赤裸々に紹介します。
SREが取り巻く環境の変化に立ち向かっている方々へ、実践的な示唆を提供します。
■ 発表の詳細(1000字程度)
◯SRE導入の背景と変遷
モノタロウが2021年頃にSREプラクティスを導入した背景、当時のシステム構成と課題を説明します。
SLI/SLOベースの運用を通じて見えた課題についても掘り下げていきます。
◯SRE導入効果と想定とのギャップ
当初の想定
それらの想定に対して、達成できた部分とそうでない部分があるのでそこを紹介します。
◯オブザーバビリティの重要性
SLO展開を進める中で見えてきた技術的な課題、特にオブザーバビリティの重要性について言及します。
サービスの異常を知らせるフロントサイドに近い部分でのバーンレートのアラートから、バックエンドやインフラ側のボトルネックを特定するために足りていなかった部分を掘り下げて、オブザーバビリティ向上にどう取り組んだかを Datadog の利用実績をベースに話します。
◯部門横断的なSLO展開の課題とアプローチ
モダナイゼーションが普及する中で、組織もプラットフォームエンジニアリング部門が組成されました。
プラットフォームエンジニアリング部門という開発部門では中立的な立場にある中で、複数の開発部門にまたがってどのように SRE のプラクティスを適用していったかについて紹介します。
特に、SRE のプラクティスが展開しにくい基幹システム側へのアプローチについて深掘りをします。
レガシーシステム故の計装の困難さ、業務の複雑さからくる CUJ の策定のハードル、バッチシステムを多く含むアーキテクチャに対する SLO の設計の難易度など、多くの課題を紹介したのち、我々が取り組んでいることを話します。
◯数値に基づく運用から開発生産性の議論に発展した話
サービスの信頼性について数値での議論をしていく中で、DevOps Four Keys を代表とする開発生産性指標に話が発展していきました。
開発と運用のバランスの議論の中で、どのように開発生産性指標が活用されていったか、現在はどのような指標を見ているのかについて紹介します。
◯今後のSREプラクティスの展望
モダナイゼーションの過渡期にある我々が、これからSREのプラクティスをどのように進化させていくか、その展望を共有します。
■ 対象聴衆とその人たちが得られるもの
◯対象聴衆
◯得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
昨今の目まぐるしい環境の変化に伴って、SRE のあり方は常に考えないといけないテーマになっていると思います。
弊社も、システムモダナイゼーションの過程で組織が変化し、プラットフォームエンジニアリング、オブザーバビリティ、AI駆動開発、開発生産性、様々なテーマで取り巻く関心毎が変わり続けています。私自身、様々な場面で SRE とはなんなんだろう、どうあるべきなんだろうと常に頭を悩ませてきました。今もそうです。
弊社は、2022年のテックブログにてSREに関する記事が公開されて以降、徐々に知見が蓄積されてきているにも関わらず、あまり公の場で話す機会がありませんでした。
https://tech-blog.monotaro.com/entry/2022/09/13/090000
モノタロウは「SRE は価値のある取り組み」と考えた上で数年に渡り継続して実践しています。そのことを皆さんに知っていただきたいです。
SRE じゃ無くてもいいんじゃないか、別のアプローチがあるんじゃないか、SREに取り組んでいる方々で悩まれている方はいると思います。
我々の事例の共有を通じて、SREの奥深さと、それがもたらす可能性について、共に議論を深めたいという強いモチベーションがあります。
内藤翔太 ■ スポンサー企業名
Dress Code株式会社
■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
・Architecture: SREの視点からのシステム設計
■ 発表概要(400字程度)
世の中的にセキュリティ規制や設計判断の難しさが増す中、「どこまで守れば十分なのか」「結論が出ずに進まない」といった意思決定の迷いは多くのエンジニアが抱える課題だと感じています。今回、約1ヶ月でマイナンバー管理システムの設計・実装を行うにあたって、個人情報保護委員会のガイドラインを設計判断の"制約"として捉えることで、データ分類に応じた暗号化方針、取扱範囲を限定するアクセス制御、組織単位でのリソース分離など、信頼性と運用性を重視した迅速でブレない設計判断を実現しました。本発表では、法的制約下での具体的な設計プロセスを紹介しながら、SRE の現場でも頻発する判断基準のブレ、場当たり的な設計、記録不在による手戻りにいかに対処してきたかを話し、現場に存在する制約を改めて正面から見つめ直すことが、設計品質と開発スピードの両立への鍵となるという気づきを共有します。自分たちでサービスの信頼性を担保したいエンジニアや、日々の設計判断・意思決定に悩んでいる方々に、持ち帰れるヒントがあれば幸いです。
多羽田 俊 ■ スポンサー企業名
株式会社MIXI
■ 発表カテゴリ
募集要項( https://srekaigi.notion.site/SRE-Kaigi-2026-CfP-25a6f7392c108187a9e6e47c346396b2 ) にある6つの発表カテゴリからお選びください
・Tech: SREを支える具体的な技術や手法
・Practices: SREの実践例と得られた教訓
・Architecture: SREの視点からのシステム設計
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
当セッションでは、MIXI GROUP全体のIaaS/SaaS管理におけるSRE実践のリアルを紹介します。
少人数チームながら、プロジェクトの自律的な開発文化を活かしつつ、徹底した自動化と標準化で「ちょうど良い統制」を実現。
IaaSではTerraformによる組織管理、SaaSでは資産棚卸しツールの自動化でコスト最適化に挑戦しました。
SREの手法をどのように組織全体に対して適用し、信頼性と効率を高めたのか――その実践知をお伝えします。
籔下 直哉 ■ 発表カテゴリ
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
創業時、当社のインフラはさくらのクラウド上へマネージドサービスをほぼ使わず構築していましたが、その後AWSの移管や、複数プロダクトの立ち上げ、SRE専任チームの立ち上げなどの変遷を紹介します。
会社設立半年でテックリードが退職し、一人でSaaSの信頼性・セキュリティを支える日々が始まりました。当時MariaDBのGalera Clusterを4台マルチマスター構成で運用していましたが、利用者増加に伴いデッドロックやノード障害が頻発。夜も眠れない状況を脱するため、AWSへの全面移行を決断し、将来の複数プロダクト展開やSRE組織立ち上げを見据えてEKSでの構築やTerraformを導入しました。
本発表では、この移行と並行した複数プロダクト立ち上げ、ID基盤統合、SRE専任組織の立ち上げ、SLI/SLO策定、コスト最適化・セキュリティ強化までの道のりを共有します。
■ 発表の詳細(1000字程度)
創業時、当社のインフラはさくらのクラウド上に、マネージドサービスをほぼ使わず構築していました。インフラ担当は当初テックリードと私の2名でしたが、会社設立から半年でテックリードが退職。以後、一人で全運用を担うことになりました。
エンタープライズ企業も利用するSaaSとして求められるセキュリティ・可用性水準は高く、日々の負担は大きく、障害対応やセキュリティ施策、キャパシティプランニングなど基本的に一人で抱えていました。
創業初期に直面した課題
・当時のDBはMariaDBのGalera Cluster(4台マルチマスター構成)
・利用者増によりデッドロックが頻発し、パフォーマンスが不安定に
・1台がダウン → 再構築してクラスタに組み込むも膨大なデータ同期が間に合わず、4台→3台に
・さらに障害が起こればサービス停止リスクが増大
・不安から精神的負担も日々増加
AWSへの全面移行と基盤再構築
・このままでは持続的運用は困難と判断し、 AWSへの全面移行を決断
・将来の複数プロダクト展開やSRE組織立ち上げを見据え
- EKSベースで再構築
- Terraform によるIaC導入
- モジュール設計やCI/CD統合などスケールを見越した構成を整備
複数プロダクト化とID基盤統合
・移行と並行して新規プロダクト開発が開始
・スピードを優先し、別AWSアカウント上にECSで構築・リリースすることに
・その後、既存プロダクトをEKSに移植
・複数プロダクトを以下で統合
- Amazon Cognito+Amazon API GatewayによるID基盤
- 共通管理画面アプリケーションも新規開発
SREチームの立ち上げと運用高度化
・初のSRE専任正社員を採用し、SREチームを立ち上げ
・以下の取り組みを少人数で並行して実施
・SLI/SLO策定とモニタリング体制の整備
・インフラコスト最適化とセキュリティ強化
・新規プロダクト立ち上げも継続
現在と本発表の目的
・現在はDB基盤の再構築やAI基盤の検討など、新たな挑戦を継続中
・一人で始めたSRE活動がどのようにチームへと発展していったかを時系列で共有
・限られた人員で複数プロダクトを支えるための実践知と学びを提供
■ 対象聴衆とその人たちが得られるもの
【対象聴衆】
・急成長企業の技術責任者(1人で抱え込んでいらっしゃる方)
・これから限られた人員の中でSRE立ち上げを検討されている方
・複数のプロダクトを限られた人員で運用しているSREの方
【聴講者が得られるもの】
・少人数・人的制約下でのSRE活動の始め方
・アーキテクチャの見直しやSREの立ち上げといった、技術的・組織的な決断をする意思決定プロセスにおいて重視するべき事柄
■ なぜこのトピックについて話したいのか(モチベーション)
一人での運用から始まり、限られたリソースの中でSRE組織を立ち上げ、複数プロダクトを支えるまでの道のりは試行錯誤の連続でした。同じように一人で責任を追っている技術責任者や、これからSRE組織を立ち上げようとしている方々に、実体験に基づくリアルな学びを届けたいと考えています。
樋口 礼人 ■ 発表カテゴリ
・ Case Studies: 実際の導入事例や失敗談
・ Architecture: SREの視点からのシステム設計
■ 発表概要(400字程度)
Sansanの経理DXサービス「Bill One」では、2023年に外部IDaaSからAmazon Cognitoと自前OIDCサーバーを組み合わせた認証基盤へ無停止移行を行い、インフラコストを大幅に削減しました。
この取り組みは急速なユーザー増加によって顕在化したコスト課題の解決を出発点としましたが、最終的には「セキュリティと利便性」を両立する認証基盤として全社展開を進めるプロジェクトへと発展しています。AI契約データベース「Contract One」への導入を皮切りに、今後はSansan全体の社内標準として広がっていく予定です。
本発表では、当時40万人規模のユーザーを抱える環境での無停止でのシステム移行のノウハウ、少数体制でも運用可能なシステム構成とコスト最適化の工夫、さらに横展開での課題や社内標準化に向けたロードマップを共有します。
■ 発表の詳細(1000字程度)
○ 少数精鋭で運用可能な認証基盤のシステム構成
Bill Oneの認証基盤は、開発チーム3〜4名という少人数体制で開発・運用を行ってきました。限られたリソースでも高い信頼性を維持するため、ECS FargateやAurora Serverless v2、ElastiCache Serverlessなどのマネージドサービスを積極的に活用し、運用負荷を最小化しました。特にAurora ServerlessのオートスケーリングはBill One特有の「月末月初にアクセスが集中する」という特性への対応で非常に役立っています。また、Aurora Serverlessではクエリのパフォーマンスがコストに直結しますが、運用開始後もクエリの改善を継続的に行うことでコストの最適化を実践しています。
○ 無停止で基盤移行をするためのノウハウ
認証基盤の移行は、サービス影響を最小限に抑えるため「無停止」で実施しました。
そのために重要だったのは以下の点です。
この仕組みにより、ユーザー体験を損なうことなく基盤の全面切替に成功しました。
○ 認証基盤内製化の成果と課題
○ 社内標準化に向けたロードマップ
従来、Sansanの各プロダクトは独自に認証基盤を構築しており、セキュリティレベルやUXにばらつきがありました。今回の内製認証基盤を社内標準とすることで、以下のメリットを目指しています。
認証基盤は一度作ると塩漬けにされがちですが、実際には攻撃の巧妙化や新しい要件に日々対応する必要があります。本取り組みを通じ、認証を「維持コストのかかる仕組み」ではなく「セキュリティと利便性を両立する社内プラットフォーム」へと進化させていきます。
■ 対象聴衆とその人たちが得られるもの
対象聴衆
得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
認証・認可は多くのWebサービスにとって欠かせない仕組みでありながら、“作って終わり” になりがちです。しかし実際には、セキュリティ・利便性・コストのすべてに継続的な改善が求められる領域です。
Bill Oneの認証基盤の内製化に深く関わる中で多くの苦労や工夫を経験し、そこから得た知見を「成功体験」だけでなく「失敗や学び」も含めて共有し、Webサービスがより良い仕組みを整えていく上での参考になればと思っています。
また、この取り組みは単なるプロダクト内の改善にとどまらず、社内の複数プロダクトへの横展開・ひいては社内標準へと発展しようとしています。SREの視点から見れば、信頼性・コスト・運用性が交錯する非常に挑戦的な事例であり、「Challenge SRE!」という本カンファレンスのテーマにも直結しています。
この発表を通じて、認証という地味だが本質的に重い領域に挑戦する仲間に、新しい視点と実践的な知見を提供したいと考えています。
渡邉 美希パウラ ■ 発表カテゴリ
募集要項(https://srekaigi.notion.site/SRE-Kaigi-2026-CfP-25a6f7392c108187a9e6e47c346396b2) にある6つの発表カテゴリからお選びください
・Culture: SRE文化の醸成と組織変革
■ 発表概要(400字程度)
伝えたいことの結論:SRE とプロダクトエンジニアの分断を防ぐにはプロダクトエンジニアが SRE 観点を持つことが重要である。プロダクトエンジニアも SRE の観点を持つことで、分断を超え、信頼性向上の重要な推進力となり得る。
このセッションでは、「SRE とプロダクトエンジニアは何故分断されてしまうのか」というテーマで、元 SRE で現在プロダクトエンジニアとして両者の分断の原因を掘り下げ、解決策を紹介します。プロダクトエンジニアが SRE の観点を持つことで、信頼性向上とプロダクト開発のバランスを取る重要性を実体験を交えて解説します。
■ 発表の詳細(1000字程度)
私自身、以前は SRE チームに所属していましたが、当時はプロダクトチームに対して「何故 SLO 達成に向けて時間を割いて動いてくれないのか」「データベースのバージョンアップに対してオーナーシップを持とうとする人が何故こんなにも少ないのか」と感じることがありました。
しかし、いざプロダクトチームに所属し、エンジニアとして機能開発に携わるようになってみると、分断が発生する理由が明確化しました。
【なぜ分断は起きるのか?〜3 つの原因〜】
【分断をなくすための 2 つのアプローチ】
上述した 3 つの理由を踏まえると、分断を改善するためのアプローチは以下のようになります。
「依頼待ち」から「自発的実行」へ: プロダクトチームが SRE 関連タスクを自ら発見し、実施する
一方向での依頼関係を解消し、プロダクトチームに対して SRE チームがリスペクトを感じるシーンが増えますし、プロダクトチームの状況を踏まえて SRE チームに関わるタスクを余裕を持って進めることができます。
一方で、この構造では「SRE チームは不要なのでは?」という疑念を抱きがちになるため、SRE チームとしては、プロダクトチームが自発的に SRE 関連のタスクを進めやすいようなプラットフォームづくりを行うことが大切です。
「共通の目標」を持つ: SLO やデプロイ回数など共通する目標を設定し、優先順位のズレをなくす 重視する観点が異なるのは、基本的には目標に由来することです。
プロダクトチームも SRE チームも、SLO やデプロイ回数のような目標をお互いに部分的に持つことにより、観点が統一され、優先順位の決め方も統一化されていくことになります。
【成果】
プロダクトチーム主導で以下の活動に取り組み、SRE チームを巻き込みながら以下のことを達成することができました。
■ 対象聴衆とその人たちが得られるもの
【対象聴衆】
【このセッションで得られるもの】
■ なぜこのトピックについて話したいのか(モチベーション)
SRE とプロダクト開発チーム間の「分断」は、多くの組織が直面する共通の課題で、私自身 SRE として活動する中でプロダクトチームとの連携の難しさを痛感しました。このセッションでは SRE の専門知識がプロダクト開発に浸透し、チーム間の自律的な連携が生まれる文化を醸成したことにより、「分断」を解消できた経験をお話します。そして、参加者の皆様にこの普遍的な課題への具体的な解決策と信頼性向上への新たな視点を提供できればと思います。
守屋邦昭 ■ 発表カテゴリ
Architecture: SREの視点からのシステム設計
Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
Web アプリケーションとバッチ処理で構築された金融機関向けプロダクトを、本番稼働を止めることなく大規模にリアーキテクチャした実践事例を紹介します。成長に伴い複雑化する顧客要件に対応するため、DB スキーマレベルから再設計することを決断しました。SRE としては、信頼性を高める設計と、顧客影響を最小化する移行戦略の両面に取り組みました。
信頼性を高めるシステム設計
顧客影響を最小限に抑える移行戦略
また、バッチ処理に ETL ライクな段階的データフローを導入することで拡張性を高めることにも成功しました。設計・移行・運用の各局面で、SRE がどのように信頼性を担保し、移行を成功に導いたのかを余すことなく共有します。
■ 発表の詳細(1000字程度)
以下の内容でお話します。
イントロダクション
既存アーキテクチャが機能開発のボトルネックに
新アーキテクチャの設計
信頼性を高めるための設計・運用
顧客影響を最小限に抑える移行戦略
リアーキテクチャ後の成果、まとめ
■ 対象聴衆とその人たちが得られるもの
聴講者は具体的な事例から以下のような知見を持ち帰ることができます。
■ なぜこのトピックについて話したいのか(モチベーション)
一般的に、SRE がインフラや非機能面に関わることはあっても、アプリケーション設計にまで踏み込む機会はそれほど多くないかもしれません。実際、多くの開発組織では SWE と SRE の役割がある程度分かれており、アプリケーションレイヤーを SWE が主導するのは自然なことだと私も考えています。
一方で、もし設計段階から SRE が積極的に関与できれば、アジリティと信頼性の両立が可能になるのではないかとも思います。
本セッションでは、プロダクトのリアーキテクチャを契機として、SRE が設計レベルから参画することで得られた成果を紹介します。SRE が自らのコンフォートゾーンを越えて挑戦することの価値について、ぜひ具体的な事例を元にお伝えできればと考えています!
■ 発表カテゴリ
・Culture: SRE文化の醸成と組織変革
■ 発表概要(400字程度)
「いつまで私たちはここに関わり続けるのか?」Embedded SREとして開発チームに伴走する中で生まれた問いが、計画的なExit戦略の策定につながりました。本発表では、従来の「なんとなく関わり、なんとなく分業する」SREサポートから脱却し、明確な目標と期限を持った知識移転プログラムへと転換した経緯と実践を共有します。Knowledge Transfer MatrixとConfidence Scoreという定量的な手法を用いて、OpenTelemetry、Terraform、Kubernetesなどの技術スタックにおける知識移転の進捗を可視化。単なる技術移転ではなく、開発者がSREマインドセットを内在化し、自らオーナーシップを持って運用できる文化醸成までの道のりを共有します。Embedded SREという役割の「成功」が自らの役割の終焉を意味するパラドックスと、その先にあるSREの在り方について、実体験に基づいた考察と提言を行います。
■ 発表の詳細(1000字程度)
Embedded SREとして日々プロダクトの課題に向き合う中で、ふと疑問が湧きました。「いつまで私たちはこのチームに関わり続けるのだろうか?」振り返ってみれば、これまでのSREサポートは「なんとなく関わり、なんとなく分業する」状態でした。明確なゴールもなく、終わりも見えない。これでは開発チームはいつまでもSREに依存し、SREは限られたリソースを特定チームに固定し続けることになります。
社内を見渡せば、同様のサポートを必要としている開発組織が複数存在します。この状況を打破するには、Embedded SREという役割に明確な「終わり」を設計する必要がありました。
転換点は、開発者との直接対話でした。「Exitに向かって協業していきましょう」という提案に対し、開発者から前向きな合意を得られたことで、両者の意識が大きく変わったように感じます。これまでの「サポートする側/される側」という関係から、「共通の目標に向かって並走するパートナー」へ。目標を共有し、期限を設定することで、両者の行動に明確な意図と責任が生まれることを期待しています。
知識移転を「なんとなく」ではなく、計画的に進めるため、Knowledge Transfer Matrixという仕組みを利用しました。
このマトリックスは、縦軸に技術領域(OpenTelemetry Collector設定、Terraform管理、Kubernetes運用、GCPサービス活用など)を配置し、横軸に開発メンバーを並べ、各交点に1から10のConfidence Scoreを自己評価で記入する形式です。
自己評価方式を採用することで、開発者自身が「何を知らないか」を自覚し、主体的な学習意欲を引き出す効果も狙っています。さらに、スコアの推移を可視化することで、個人とチーム全体の成長を実感できる仕組みとしました。この定量化により、感覚的だった「知識移転」が、測定可能で改善可能なプロセスへと変わりました。
Exit戦略は大きく基盤構築期と自立移行期の2つのフェーズで設計しています。
基盤構築期では、まず現状の可視化と課題の洗い出しから始め、自動化可能な領域を特定して実装を進めます。この期間はペアワークを通じた基礎的な知識移転に重点を置き、開発者がSREの視点や考え方を理解する土台を作ります。
続く自立移行期では、開発者主導での運用タスク実行へと段階的に移行し、SREの役割はメンタリングとレビューへと徐々にシフトしていきます。最終的にはオフィスアワーでの相談役として、必要な時にサポートする形を目指します。
両フェーズを通じて協働とペアリングを重視し、一度にすべてを引き渡すのではなく、小さな成功体験を積み重ねながら徐々に責任と権限を移譲していくことが、このロードマップの核となる思想です。
Embedded SREの「成功」とは、自らが不要になることです。この一見矛盾した目標設定こそが、Embedded SREの本質的価値を体現しています。特定チームに固定されることなく、より多くの開発組織に価値を提供し、組織全体のレジリエンスを向上させる。
この実践で得られた知識移転の方法論やツールは、他の開発チームにも適用可能な形で標準化し、全社的なSREプラクティスとして展開することを視野に入れています。一つのチームでの「終わり」が、より大きなスケールでの「始まり」となる。それがEmbedded SREのExit戦略が目指す姿です。
このアプローチでは次のような効果を期待しています。開発者の主体性向上として、自己評価を通じた学習意欲の醸成。SREリソースの最適化により、より多くのチームへの支援が可能に。そして知識の民主化として、特定個人への依存から組織的な能力への転換です。
一方で、開発者の負荷増加への配慮、適切なペースの見極め、モチベーション維持など、実践を通じて解決すべき課題も想定されます。発表時点での実際の成果と課題を、包み隠さず共有する予定です。
■ 対象聴衆とその人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
「いつまで関わり続けるのか」という個人的な疑問から始まったこの取り組みは、SREという役割の在り方そのものを再考する機会となりました。
限られたSREリソースで増え続けるサービスの信頼性を担保するには、従来のサポートモデルでは限界があります。開発チーム自身がSREとしてのスキルと考え方を獲得し、自律的に高い信頼性を維持できる組織を作ることが、持続可能な解決策だと考えています。
Embedded SREは、永続的な役割ではなく、開発チームが自立するまでの期間限定のミッションであるべきです。そしてその「終わり」を意図的に設計することこそが、プロフェッショナルとしての責任だと考えています。
この発表を通じて、同じように「なんとなく」のサポートを続けている方々に、計画的なExit戦略という選択肢があることを伝えたいと思います。それは決して無責任な撤退ではなく、チームの成長を信じ、より多くの価値を組織全体に提供するための、戦略的で前向きな決断なのです。
まだ実践の途中ですが、だからこそ生々しい課題や発見を共有できると考えています。SREの在り方について考える機会になれば幸いです。
中間啓介 ■ 発表カテゴリ
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
BCP(事業継続計画)は企業存続のために中長期的に必要な施策です。SmartHRではSREチームがプロダクト観点でのBCPを担当しており、主にリージョン障害時のDR(ディザスタリカバリ)戦略を検討しています。
通常、BCPではRTO(目標復旧時間)、RPO(目標復旧時点)といった復旧目標を先に設定し、それに基づいてDR戦略を検討するのがセオリーです。しかし、この復旧目標設定では「事業を止めたくない」という要求と「コストを抑えたい」という相反する要求の間でトレードオフが発生します。このバランス調整が難しく、BCPを進める上での大きな障壁となっています。
私たちは、このセオリーをあえて覆し、復旧目標を先に決めず、最小限のコストで実現できるDR戦略から着手する「小さく始めるBCP」を実践しました。これは挑戦的なアプローチでしたが、多プロダクトを抱える私たちにとっては、最短でBCPを進めるための最善策となりました。
BCPを策定する方々が直面する課題を解決する一つのアプローチとして、私たちの実践から得た学びをご紹介します。
■ 発表の詳細(1000字程度)
アジェンダは以下を想定しています。
■ 対象聴衆とその人たちが得られるもの
対象聴衆
得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
BCPは企業の成長フェーズによって必要な対策が様々に変化します。また、プロダクトの特性によってもDR戦略も異なります。このような様々な変数がある中でBCPを構築するのは非常に困難で、参考情報も限られています。そのため、小さく始めるための最初の一歩として何をすべきかを実体験ベースで共有することで、今後BCPを検討する方々に少しでも役立つヒントを提供できればと考え、このトピックを選びました。
oguma ■ 発表カテゴリ
・Tech: SREを支える具体的な技術や手法
・Practices: SREの実践例と得られた教訓
・Architecture: SREの視点からのシステム設計
・Future: SREの未来と新しいトレンド
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
AI/LLMの可能性を知り、従来のやり方に疑問を感じました。AIの普及は開発・拡張速度を向上させるため、SREの考え方である「仕組み化・自動化によるスケール」をAIで実現する「AI-Nativeな次世代SRE」を目指すべきだと確信しました。
そのために、昨年10月から内製AI Agent「IBIS」(Incident Buddy and Insight System)の開発を開始。IBISは、インシデント対応の相棒となるAI Agentです。
本発表では、このIBISを軸とした我々の挑戦と得た経験、そしてSREの未来像についてお話しします。
■ 発表の詳細(1000字程度)
AI/LLMが世界を変えたこと、そしてこれからも変えていくことは、もはや多くの人にとって共通の認識だと思います。
では、我々SREは、このパラダイムシフトにどう向き合うべきでしょうか?クラウドの台頭やSREの誕生がそうであったように、今、新たな時代の幕が開けようとしています。
我々の答えは、AIの力を最大限に活用し、SREのあり方を再定義することでした。その挑戦から生まれたのが、内製AI Agent「IBIS」(Incident Buddy and Insight System)です。
インシデント対応中、ログの海に溺れ、原因究明に時間を浪費していませんか?
属人化問題や、オンコール対応およびインシデント管理にコストが増え続けているといった課題を抱えていませんか?
IBISは、まさにその課題を解決するために誕生しました。人間のSREsの相棒となり、様々なインシデント対応をサポートしていくことを目指しています。
本発表では、私たちがIBISの開発を通じて得た知見や、AI-Nativeなインシデント管理の全体像について、惜しみなく共有します。
2025年2月にIBISの存在を公表して以来、私たちは着実に開発を進めてきました。これまで伝えきれなかった、AI-Native化の最新の現状や、具体的な事例もご紹介します。
そしてメルカリグループが推進する「AI-Native Incident Managementプロジェクト」の全容もお話しします。
IBISを知っている方も、まだ知らない方も、AIと共に切り拓くSREの未来に関心を持っていただける内容になると思います。
■ 対象聴衆とその人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
miyamu 10年稼働するプロダクトの月間数億レコードのアクセスログが、プロダクト間共有RDB運用の限界に達し、無停止移行が急務となりました。この移行は組織・技術における領域横断的な能力が求められ、単一領域だけでは解決困難でした。そこでアプリケーションエンジニアの筆者がSRE精神を発揮し、自身のケイパビリティを拡張してこの困難な移行プロジェクトにチャレンジしました。
本セッションでは2つのトピックをお話しします。
CloudWatch Logs エージェント、Amazon Data Firehose、Athena、AWS Glueを駆使したParquet形式+Snappy圧縮による月間数億レコードの無停止移行設計と、データ重複・欠損問題の解決策。
既存の役割を超えたSREマインドの実践と、組織を巻き込む信頼性向上の方法論を紹介します。
筆者は10年稼働するプロダクトのテックリードとして、月間数億レコードを超えるアクセスログをプロダクト間共有RDBで運用していました。このログは開発者の障害調査だけでなく、カスタマーサービスの顧客対応などでも利用される重要なデータです。しかし運用が限界に達しており、さらに組織的な事情により数ヶ月以内での移行が求められる状況でした。
この課題解決には組織の領域横断的なスキルが求められ、単一領域だけでは解決困難でした。筆者はSRE領域のケイパビリティが不足していましたが、「システムの信頼性に重要なアクセスログが失われる」という危機感からSRE精神を発揮し、自身のケイパビリティを拡張してこの移行プロジェクトにチャレンジしました。
本セッションでは、これらの技術実装の詳細と、アプリケーションエンジニアが領域を横断し、組織と協力して信頼性向上に取り組んだプロセスとプラクティスを実体験ベースでお話しします。
この移行プロジェクトで得られた技術的知見は、類似の課題に直面するエンジニアの参考になると考えています。月間数億レコード規模のアクセスログ基盤のアーキテクチャ移行という課題への実践的なアプローチを共有することで、コミュニティに貢献したいと思います。
また、筆者は「SREは役職ではなく、魂」だと考えています。
組織においてSREの役職ではない筆者が、信頼性の高いシステム構築・運用における課題に Challenge し、実際に解決した経験をお話しすることで、SREが役職に縛られない、より自由なものであるということをお伝えしたいです。
maru ■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
SREの現場では、障害を防ぐだけではなく、避けられないエラーや過負荷にどう向き合うかが重要です。多数のクライアントが多様なサービスとリアルタイムに通信するLINEでは、停止か稼働かの二択ではなく、段階的に劣化しながら体験を守る「グレースフル」な設計を重視しています。
これらを通じて「なめらかに劣化しても信頼性を維持する」LINEの実践を共有します。本発表では導入したプラクティスだけではなく、これらの仕様に決定した際のチームでの議論も含めてお話します。
■ 発表の詳細(1000字程度)
本発表では、LINEにおけるSRE実践を「なぜその仕様に至ったか」という議論の経緯も交えながら紹介します。
まずは、 障害の連鎖を防ぐサーキットブレイカー 。複数サービスと連携する際、上流が応答せずタイムアウトすると、アプリ全体の表示が遅延する課題がありました。異常を検知すると一定時間リクエストを遮断する仕組みを導入し、障害の連鎖を防いでいます。
次に、 上流サービスを守るアダプティブレイトリミッター 。リトライや瞬間的なアクセス集中で想定外の負荷が生じ、上流をダウンさせる恐れがあります。単純なRPS上限設定では柔軟性に欠けるため、上流から返されるエラー率や種類に応じて制御を動的に調整する仕組みを導入しました。
続いて、 過負荷時の体験を守るロードシェディング 。LINEアプリは多くをキャッシュするため、過負荷時には全リクエストを処理する必要はありません。リフレッシュ要求を後回しにし、新規コンテンツ取得を優先する「コンテキストアウェア」な仕組みによって、限られたリソースでもユーザー体験を守ります。
一方で古い情報が表示されるリスクも生じます。そこで、 応答不能時のエラーハンドリング として、鮮度が重要な情報に対してはクライアント側で追加の仕組みを実装。サーバー側に依存しないアプローチで、ユーザーが古い情報から誤った判断をしにくくしました。
さらに、 カナリーリリースとトラフィック制御 。一般的な10%先行リリースでは、単純なラウンドロビンだと不具合が全ユーザーに影響する恐れがあります。そこで影響範囲を明確に制御できる仕組みを取り入れ、安全にリリースできるようにしました。
最後に、 開発段階から健全性を確認するカジュアルな負荷試験 。従来のQAは機能検証が中心で、高負荷時の問題を事前に見つけにくい課題がありました。そのため、開発段階から簡易に負荷試験を実施できる環境を整備し、非機能要件の健全性を自然にチェックできる文化を育てています。
これらの取り組みを通じて、どのように「想定外を前提とする」設計を実現し、議論を経て現場に落とし込んできたかをお話しします。実例と背景を交えて紹介することで、皆さんの現場でも応用できるヒントを持ち帰っていただけるはずです。
■ 対象聴衆とその人たちが得られるもの
本発表は、ユーザー視点での信頼性向上を目指すSWEやSREを対象としています。クライアントサイドとサーバーサイドといった境界を越え、どのようにしてエンドツーエンドの信頼性を確保できるのか。その具体的な事例を持ち帰り、自らの現場に活かしていただけます。
■ なぜこのトピックについて話したいのか(モチベーション)
開発の現場では、エラー発生時の挙動に十分な配慮がなされないことが少なくありません。特にスケジュールに余裕がない場合や、再現の難しい障害への備えは後回しになりがちです。私自身も日々、優先度の判断に悩みながら、今取り組むべきことと後に回すことを天秤にかけつつ、チームと共にさまざまなプラクティスを導入してきました。その際のチームとの議論、どんな会話があったのかも含めてお話出来ることは貴重だと考えています。
同じような課題に直面しているSREの方も多いと考えています。本発表を通じて、そうした悩みを共有し、実践のヒントを提供できれば幸いです。
樋口貴志 ■ 発表カテゴリ
■ 発表概要(400字程度)
皆さんの組織では、全体におけるSREの割合はどのくらいでしょうか?SmartHRでは現在4名のSREエンジニアがいます(2025/10現在)。一方で、プロダクト開発エンジニアは約200人、比率は1:50にもなり、チーム数は40以上にも及びます。さらに2025年5月にARR200億円に達し、5年後には売上1000億円を目指して急成長中です。
このような急成長環境の中で、SREチームのミッションは「日々増え続ける膨大なプロダクトチームが、信頼性に関する知識や経験を通して、適切な機能開発と信頼性への投資ができるようになること」であり、これが売上1000億円到達の鍵だと考えています。
しかしながら、SREはわずか4名です。個々のチームを丁寧に支援していくには時間が足りません。かといって、全体に薄く広く関わっても本質的な成果は得られないでしょう。
本発表では、このような課題を抱えながらもミッション達成に向けて行った「オブザーバビリティの導入」と「SLI/SLOの導入」のChallenge!と成果をご紹介します。
■ 発表の詳細(1000字程度)
概要でもお伝えした通り、SREチームは少人数のため、200名・38プロダクト規模のチームにJoinする形では時間も人も足りません。そのため、基本的にはEnabling(※1)として活動することになりますが、オブザーバビリティ基盤やSLI/SLOの導入・運用を各チームに任せきりにすると、プロダクトエンジニアの認知負荷が拡大し、本来事業を前に進めるための機能開発にリソースを割けなくなります。
また、SREチームはPlatformチーム(※2)としての役割も兼務しており、開発者がセルフサービスで高品質な開発・運用を行える環境(Paved Road / 舗装された道)を提供する必要があります。
このような状況の中で、Enabling/Platformチームとして活動しながら、50倍規模のチーム群の認知負荷を上げずにどのようにミッション達成をしていくのか。SREチームの立ち位置を前提に、オブザーバビリティとSLO導入の観点からお話します。
※1 チームトポロジーにおける「Enablingチーム」を指す。ここではSREの知見を複数のプロダクトチームに横断的に共有・支援する形態を「Enabling」と呼ぶ。
※2 チームトポロジーにおける「Platformチーム」を指す。具体的には開発・運用のための共通基盤(CI/CD、モニタリング、IaCなど)の設計、構築、提供などを指す。
■ 対象聴衆とその人たちが得られるもの
対象:拡大する組織で新しくSREチームを立ち上げたい方、少人数のSREチームでレバレッジの効かせ方に悩んでいる方、SREをまだ導入していないが開発チームに小規模に取り入れてみたい方
得られるもの:SREを小規模に始める際の実践的なアプローチ、機能開発のスピードを維持しながら(=認知負荷を増やさずに)オブザーバビリティとSLOを導入する方法、そしてこれらの取り組みを支えるコミュニケーション方法の例
■ なぜこのトピックについて話したいのか(モチベーション)
現代の多くの組織がDevOpsを採用していますが、ほぼ確実に直面するのが認知負荷と運用負荷の増大です。また、IT人材不足によりSREに割けるリソースは限られており、「SREチームを立ち上げたものの、効果的な施策を実行できず失敗した」という事例もよく耳にします。こうした状況から、潤沢な人材リソースや高度な専門知識がなければSREは始められないという印象を持つ方も少なくありません。
しかし、SREはまだ発展途上の分野です。認知負荷と運用負荷を上げない形でSREのプラクティスを導入した実践例を共有することで、少人数でもSREのプラクティスを組織に効果的に取り入れることができます。これが信頼性を維持しながら事業成長を促進する第一歩となるため、本会議に参加する皆様と共に試行錯誤しながら前進していけることを願っています。
kosui ・Architecture: SREの視点からのシステム設計
医療分野のSaaSでは、サービス提供者、顧客、そして何よりも患者にとって、セキュリティと可用性が最重要です。
私たちカケハシは、4つ以上の薬局向けSaaSを開発・運用する中で、厳しい医療要件とマルチプロダクト展開の課題に直面しました。私たちの組織規模や事業フェーズでは、イネイブリングを担うSREチームのみならず、基盤システムを開発・運用する開発チーム自身が信頼性へのオーナーシップを持つことが最も効果的だと考えました。
このセッションでは、共通基盤の開発チームが主体となり、以下の課題にアーキテクチャレベルで取り組んだ事例を紹介します。
これらの取り組みにより、新プロダクト開発時の認証実装コストを大幅に削減し、障害発生時の原因特定にかかる時間を短縮することに成功しました。
本セッションを通じて、SREという役割を持たない開発チームが、いかにしてサービスの信頼性を向上させられるか、具体的な方法を提案します。
カケハシが提供するプロダクトのほとんどは医療情報システムとして患者情報を取り扱うため、セキュリティ要件が非常に厳しいことが特徴です。
例えば、厚労省・経産省・総務省が策定する通称「3省2ガイドライン」では、多要素認証の必須化、各種データの長期保存、パスワードポリシーの厳格化、監査ログの記録などが求められています。また、薬機法や個人情報保護法などの法令遵守も必要です。
加えて、可用性の高いシステム設計も求められます。医療機関は24時間365日稼働しており、システム障害が業務に与える影響は非常に大きいためです。
また、患者情報は非常にセンシティブな情報であるため、情報漏洩や不正アクセスを防止するための厳格なセキュリティ対策も不可欠です。一方で、薬局業界は法人間の薬局グループの統廃合が頻繁に発生するため、堅牢なテナント分離と柔軟な組織管理の両立が求められます。
カケハシでは複数のプロダクトを展開している一方で、各プロダクトは独立した開発チームが担当しています。これにより、各チームは自律的にプロダクトの開発・運用を行うことができますが、同時に共通の課題として以下の点が挙げられます。
認証基盤の刷新プロジェクトでは高い稼働率とセキュリティ要件を満たす必要がある一方で、ユーザー・店舗・組織などのディレクトリサービスでは稼働率に加えデータの整合性・一貫性が求められます。これらを両立するために、インフラアーキテクチャとアプリケーションアーキテクチャの両面で工夫が必要でした。
既存の顧客基盤では、最新のデータのみが保存され、過去に顧客がどのようなユーザー・店舗・端末・ライセンスなどを保持していたかの履歴が保存されていませんでした。そのため、障害発生時の原因調査や、顧客のコンプライアンス要件への対応が困難でした。
関連する過去の公開資料:
マルチプロダクトSaaS企業に限らず、プロダクト同士が相互に連携するコンパウンドスタートアップでは、共通基盤の重要性が増しています。
しかし、多くの共通基盤チームはあくまでアプリケーションの開発者から構成されているため、SREのような専門的な役割を持たないことが一般的です。
そのような状況下で、限られたリソースしか持たない組織においても、開発チームが主体的にサービスの信頼性を高めることが可能であることを広く伝えたいと考えています。
医療業界に限らず、ミッションクリティカルな領域で日本や世界を支える開発者が、自らの手でサービスの信頼性を向上させ、ひいては人々の暮らしへ安寧をもたらすための一助となれば幸いです。
Banri Kakehi Tech: SREを支える具体的な技術や手法
「SLI/SLOは設定したが、運用に活かしきれていない。」「可観測性の重要性は理解しているが、経営陣にそのビジネス価値を説明できない。」—— そんな悩みを抱えるSREエンジニアは多いのではないでしょうか?
SREのミッションは、SLOを満たしながら開発速度と運用効率を高めることです。
我々は、運用効率向上には可観測性の最適化が最も効果的であると考えます。
一方で、ログやメトリクスの収集はしているが、その活用や、トレースの収集・活用は、個人の検証止まりでプロダクションへの導入に至っていないケースが少なくないと思います。
これらの根本原因は主に、①可観測性がもたらす具体的なビジネスインパクトを定量化できていない ②トレーシングが可観測性にどれほど貢献するかの見積もりができていない ③社内規約やコストが足かせになっている、であると考えています。
本セッションでは、SREエンジニアとして社内でトレーシング導入を検討している実例を基に、可観測性の向上を明確なビジネス価値へと結びつけるための実践的なアプローチをご紹介します。
本セッションでは、可観測性向上をビジネス価値につなげる具体的な手法について、弊社のサービスとそのシステムを例に、5つのステップに分けてお話しします。
1: 現状の可観測性を把握する
まずは、可観測性を構成する3つの要素(ログ、メトリクス、トレース)のうち、今運用しているシステムで収集している要素、活用している要素を把握することが重要だと考えます。
また、トレーシングがどれだけそのシステムの可観測性に貢献できそうなのかを見積もることも重要です。
このステップでは、ステップ2以降に必要なこれらの内容を確認します。
2: ビジネスケースとしてあるべき形・効果を定義する
サービスに対してトレーシングは必須ではありませんが、サービスを提供するシステムが複雑している昨において、適切に考慮することで、ビジネスへの貢献が期待できると考えています。
このステップでは、ビジネス的な観点からトレーシングのあるべき姿を考えてみます。
3: コストに向き合う
コストは、計装方法やプロジェクトの成熟度合い、サンプリング戦略に大きく依存し、これらによって採算がとれるかが変わります。
このステップでは、初期コスト・ランニングコストの2つについて、具体的に見積もってみます。
4: 段階的導入戦略を考える
トレーシングに関わらず、新しい技術やツールの導入には、「社内規約やコストにより、SaaSの導入に時間がかかる」、「影響範囲や導入工数が見えづらく、導入が進まない」などのブロッカーが存在します。
このステップでは、我々が直面したこのような課題に対するアプローチについて考えてみます。
5: 合意形成に臨む
ステップ4まで検討が完了すれば、あとは関係者との合意形成を残すのみです。
弊社の組織構造を例に、合意形成に至るまでの作戦についてお話しします。
・前提知識:分散システム、可観測性に対する基本的な理解
・対象レベル:中級者向け
・プライマリターゲット:SREエンジニア、インフラエンジニア
・セカンダリターゲット:技術リードやマネージャー、CTOレベルの方
・可観測性向上をビジネス価値につなげる具体例
・プロジェクトの成熟度に応じた段階的導入戦略
・経営陣との合意形成に使える具体例
「技術的関心から○○を導入したいけど、お金を出してもらうためには経営陣(決裁者)の承認が必要…。でも、どのように納得していただくか…。」という経験をされたエンジニアの方々は多いのではないでしょうか。
我々も今まさに、トレーシングの導入に至る合意形成で奮闘中です。
SRE Kaigiを通じて、分散トレースに限らず、新たな技術・ツールを導入したい場合の提案手法の例を共有し、参加者の皆様から様々なご意見をいただきたいと思っています。
吉澤 政洋 ■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
アプリケーションのリリース起因の不具合や、クラウドサービスの設定ミスによって、本来不必要なコストが急増することがあります。このようなコストの急増(弊社では「コスト障害」と定義)への迅速な対応および再発防止には、過去のナレッジを開発組織内で共有することが重要です。
発表者は、コスト障害に関するナレッジの共有のため、SREのプラクティスであるポストモーテムをFinOpsに適用した「コスト版ポストモーテム」を提案・導入しました。そして、これを実際のコスト障害で試した結果、ポストモーテムだけでなく、その前後のワークフローもFinOpsに適用する必要があることに気づきました。
本セッションでは、コスト版ポストモーテムの導入に至った背景と、導入後に気づいた課題を、実際の事例に基づいて紹介します。そして、この課題を解決するために導入したコスト障害発生時のワークフローを紹介します。
■ 発表の詳細(1000字程度)
自分たちの現場でも本セッションのプラクティスを採用すべきか判断していただくために、はじめにコスト版ポストモーテムの提案に至った背景を説明します。
そして、コスト版ポストモーテムの提案と導入、およびその後の改善(コスト障害発生時のワークフローの整備)を、具体的な実例を交えて紹介します。
■ 対象聴衆とその人たちが得られるもの
対象聴衆
その人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
SREはインフラに精通しているため、インフラコスト削減の主導・実施を求められがちです。その一方、コストに関する取り組みは社外発表しづらいこともあり、なかなか他社の事例を聞く機会がありません。この発表が、SREのFinOps的な活動の共有を促すきっかけになることを期待しています。
水口 洋輔 ■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
・Architecture: SREの視点からのシステム設計
■ 発表概要(400字程度)
クレジットカード決済を扱う企業に要求されるPCI DSSというセキュリティ基準をご存知でしょうか。年1回の更新審査、監査ログのレビュー、多段の承認フローなど、厳格なコンプライアンス要件が課されます。
当社では、私たちSREがこれらの監査対応と準拠環境の運用を担当しています。監査証跡の取得やログレビューを手作業で対応すれば、SREが疲弊することになります。
私たちはこの課題に対して、SRE自身の運用負荷を最小化しつつ、セキュリティ要件をインフラ基盤で吸収するアプローチを取りました。AWSアカウント分離によるスコープ最小化、ECS FargateやCognitoなどマネージドサービスのフル活用、CI/CDへのセキュリティチェック組み込みなど、基本的なセキュリティ対策の積み重ねにより、開発速度を損なわずに堅牢なインフラ基盤を構築しています。
本セッションでは、当社のAI家計簿サービスでのSRE実践を通じて、クレジットカード決済基盤で実践してきた具体的なアプローチを共有します。PCI DSSという厳格な制約から学んだ、セキュリティ要件を設計要素として扱うインフラ設計の考え方を紹介します。
■ 発表の詳細(1000字程度)
クレジットカード決済を扱う当社では、PCI DSS準拠が事業継続の必須要件です。年1回の更新審査では、審査月の1ヶ月は対応にかかりきりになります。監査ログのレビュー、承認フロー管理、監査証跡の収集など、SREが担う作業は多岐にわたります。
本セッションでは、私たちが実践してきた「セキュリティ要件をインフラ基盤で吸収する」アプローチを共有します。マネージドサービスの活用、自動化の徹底、環境分離によるスコープ最小化などにより、SRE自身の運用負荷を最小化しつつ堅牢なインフラ基盤を構築してきた方法をお話しします。
具体的な内容については以下を想定しております。
スコープの最小化
マネージドサービスの活用
自動化の徹底
■ 対象聴衆とその人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
私自身、FinTechスタートアップに入社するまでは「厳格なコンプライアンスに準拠したサービスのインフラってどんなものなんだろう。ガチガチで身動きが取れないんじゃないかな」と考えていました。
PCI DSSのような厳格な規制への対応は、たしかに企業に大きな負担をもたらします。しかし、適切なインフラ設計と自動化によってその影響を最小限に抑え、SRE自身の運用負荷を削減しつつセキュリティ向上を実現できることが分かってきました。それは自分が他業界のSREとしてやってきたものと同様の、基本的な取り組みの積み重ねによるものでした。
私たちがやっている日常的な業務は一般的なWebアプリケーション開発でも応用可能なプラクティスだと考えています。「コンプライアンス対応は特別なことではなく、SREの日常的な活動で実現できる」という視点を通じて、コンプライアンス対応やサービスのセキュリティレベル向上に取り組んでいる皆さんの実践を後押しできれば嬉しいです。
石垣 雅基 ■ 発表カテゴリ
募集要項(https://srekaigi.notion.site/SRE-Kaigi-2026-CfP-25a6f7392c108187a9e6e47c346396b2) にある6つの発表カテゴリからお選びください
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
我々の組織は急成長を遂げている一方、最近になって障害が目立つようになってきました。そこで、我々は社内にSRE practiceを浸透させるべく奮闘していたのですが、様々な壁にぶち当たりうまくいきませんでした。そうした反省を踏まえて、我々は今Platform Engineeringの力を借りてこの壁を乗り越えようとしています。SRE Enablingにおけるの我々の苦悩、SREとPlatform Engineeringの結実など、有意義なトピックが豊富にあると思いますので、是非お聞きください!
以下お話しするトピックになります。
■ 発表の詳細(1000字程度)
我々の組織を取り巻く現在の状況
私が所属するLegalOnTechnologiesを取り巻く最近の状況と、SREチームがSRE practiceを推進していくmotivationについて話します。ここで話す内容としては、以下のトピックになります。
・ 大型プロダクトローンチ以後機能開発を優先してきた結果、SLOなどのSRE practiceを導入してこれなかった(= SREチームは「インフラ屋」としてしか機能できていなかった)という現状
・ 最近になって障害が多発してきて、社内的にもこれをどうにかしないといけないという風潮
・ これを追い風として、今こそSRE practiceを社内に浸透させようという機運
我々はなぜこれまで”SRE”できてこれずにいたのか?
実はこれまで全くSREのpracticeの導入を試みてこなかったというわけではなく、機能開発に忙殺されながらも色々試みましたが、どれもうまくいきませんでした。ここでは、その失敗談を話したいと思います。
・ 適当なSLI/SLOを設定してしまったことによるAlert Storm
・ 開発者のObservabilityに対する感度
・ 形骸化してしまったPostmortem
まずはやれるところから!Postmortemの運用刷新
現状のままではいけない、SREせねば!、ということでまずは手をつけやすそうなPostmortemの運用から見直すことにしました。具体的には以下のような取り組みについてお話しします。
・ 現状分析:「うわっ…私のPostmortem、分析足りなすぎ…?」
・ 運用方法&テンプレート見直し
・ Postmortemをもう一度!開発者全員にPostmortemの重要性を説いた話
Observability基盤の刷新
Observability周りを効率的に推進していくには、Platform Engineeringの力を駆使していくのが良いと判断しました。幸い、我々の組織では全社共通基盤のPlatformがあります。ここでは、このPlatformにObservabilityの要素を組み込んだ話をします
・ self-serviceを推進するアプリケーションプラットフォーム”Akupara”
・ ObservabilityツールをDatadogに移行した話
・ observability-kit / slo-kit:Platformを通した「人類皆SRE計画」
SREの日の出:準備はできた、さあ、Enablingやっていきましょう
最後に、今後どのようにSREのEnablingを進めていくかについてお話しします。
・ Postmortemの推進
・ Observabilityの推進
・ SLO駆動開発
■ 対象聴衆とその人たちが得られるもの
対象聴衆
・ 組織にSRE practiceを浸透させることに苦戦されている方
・ SREの教科書にはない実際の経験談を聞きたい方
・ SREとPlatform Engineeringの協働の仕方に興味のある方
その人たちが得られるもの
・ SRE practiceを浸透させる際に踏んではいけないNGポイント
・ SRE practiceを浸透させるための一つの事例
・ ObservabilityをPlatform Engineeringの一部として扱う方法
■ なぜこのトピックについて話したいのか(モチベーション)
Site Reliability Engineeringに関する本はたくさんあれど、実際にそれをやっていこうと思うと様々な困難に出くわします。そうした話というのは、本では得ることのできない知識なので、是非登壇という形で多くの人に共有したいと思いました。また、SREとPlatform Engineeringの協働というのは最近ではちょこちょこ目にしますが、まだまだ事例としては少ない方だと思うので、是非弊社における事例を聞いていただくことで、お聞きいただいた方々の助けになるのではないかと思った次第です。