Banri Kakehi Tech: SREを支える具体的な技術や手法
私たちPanasonicのSREチームは、長年続くサービスにおいて、安定稼働と豊富な機能追加を目指して取り組んでいます。
その一環として、可観測性の向上についても挑戦を続けており、メトリクスやログの活用で一定の成果を上げることができた一方で、分散トレーシングにおいてはプロダクションへの導入まで至ることができず、一度挫折しています。
技術的な検証はできても、プロダクションへの導入には至らない。
その原因の1つは、エンジニア自身が技術をビジネス価値に変換できていないことにあると考え、新たなアプローチで、分散トレーシングの導入に再挑戦しているところです。
本発表では、分散トレーシングの導入に向けた私たちの現在進行形の挑戦を例に、技術をビジネス価値に変換する方法をご紹介します。
新しいツールや技術の新規導入に苦戦している方々は少なくないと思います。
同様の課題に悩まれている方々のヒントとなれば幸いです。
1: 現状の可観測性を把握する
可観測性を構成する3つの要素(ログ、メトリクス、トレース)のうち、今運用しているシステムで収集・活用している要素を把握することが重要です。
また、トレーシングがどれだけそのシステムの可観測性に貢献できるのかを見積もりも必要になります。
「そもそも可観測性とは?」といった基礎の整理から、SREとしてなぜ可観測性向上に向き合う必要があるのかまでを扱います。
2: ビジネスケースとしてあるべき形を定義する
「事業における課題は何か?」「その課題の解決に、どれだけの利益が生まれるのか?」「技術がどう課題解決につながるのか?」
基本的なこの3軸を中心に、分散トレーシング導入をビジネス価値に変換するストーリーを描きます。
そして、ビジネス的な観点からトレーシングのあるべき姿を考えてみます。
3: コストに向き合う
分散トレーシングに関わらず、新たな技術を既存システムに導入する際のコスト予測は難しいです。
私たちが一度失敗した際にどこで見積もりが崩れたのか、どの部分がコストを膨らませやすいのかを具体的に紹介します。そのうえで、導入コストを組み立てる際の観点やリスクの扱い方を共有します。
・対象レベル:初〜中級者向け
・プライマリターゲット:新たなツールや技術の導入に挑戦・苦戦しているエンジニアの方々
・技術をビジネス価値に変える考え方
・SRE視点で可観測性を高める実践例
・分散トレーシング導入で躓きがちなポイントと失敗ケース
「技術的な必然性はあるけど、本番導入に至らない」、「この技術の導入が、どのようなビジネス価値につながるのか、うまく説明できない」という経験をされたエンジニアの方々は少なくないのではないでしょうか。
私たちも今まさに、トレーシングの導入に至る合意形成と導入で奮闘中です。
SRE Kaigiを通じて、私たちの挑戦を共有し、同様の課題に取り組む方々のヒントとなることを目指します。
吉澤 政洋 ■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
アプリケーションのリリース起因の不具合や、クラウドサービスの設定ミスによって、本来不必要なコストが急増することがあります。このようなコストの急増(弊社では「コスト障害」と定義)への迅速な対応および再発防止には、過去のナレッジを開発組織内で共有することが重要です。
発表者は、コスト障害に関するナレッジの共有のため、SREのプラクティスであるポストモーテムをFinOpsに適用した「コスト版ポストモーテム」を提案・導入しました。そして、これを実際のコスト障害で試した結果、ポストモーテムだけでなく、その前後のワークフローもFinOpsに適用する必要があることに気づきました。
本セッションでは、コスト版ポストモーテムの導入に至った背景と、導入後に気づいた課題を、実際の事例に基づいて紹介します。そして、この課題を解決するために導入したコスト障害発生時のワークフローを紹介します。
■ 発表の詳細(1000字程度)
自分たちの現場でも本セッションのプラクティスを採用すべきか判断していただくために、はじめにコスト版ポストモーテムの提案に至った背景を説明します。
そして、コスト版ポストモーテムの提案と導入、およびその後の改善(コスト障害発生時のワークフローの整備)を、具体的な実例を交えて紹介します。
■ 対象聴衆とその人たちが得られるもの
対象聴衆
その人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
SREはインフラに精通しているため、インフラコスト削減の主導・実施を求められがちです。その一方、コストに関する取り組みは社外発表しづらいこともあり、なかなか他社の事例を聞く機会がありません。この発表が、SREのFinOps的な活動の共有を促すきっかけになることを期待しています。
水口 洋輔 ■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
・Architecture: SREの視点からのシステム設計
■ 発表概要(400字程度)
クレジットカード決済を扱う企業に要求されるPCI DSSというセキュリティ基準をご存知でしょうか。年1回の更新審査、監査ログのレビュー、多段の承認フローなど、厳格なコンプライアンス要件が課されます。
当社では、私たちSREがこれらの監査対応と準拠環境の運用を担当しています。監査証跡の取得やログレビューを手作業で対応すれば、SREが疲弊することになります。
私たちはこの課題に対して、SRE自身の運用負荷を最小化しつつ、セキュリティ要件をインフラ基盤で吸収するアプローチを取りました。AWSアカウント分離によるスコープ最小化、ECS FargateやCognitoなどマネージドサービスのフル活用、CI/CDへのセキュリティチェック組み込みなど、基本的なセキュリティ対策の積み重ねにより、開発速度を損なわずに堅牢なインフラ基盤を構築しています。
本セッションでは、当社のAI家計簿サービスでのSRE実践を通じて、クレジットカード決済基盤で実践してきた具体的なアプローチを共有します。PCI DSSという厳格な制約から学んだ、セキュリティ要件を設計要素として扱うインフラ設計の考え方を紹介します。
■ 発表の詳細(1000字程度)
クレジットカード決済を扱う当社では、PCI DSS準拠が事業継続の必須要件です。年1回の更新審査では、審査月の1ヶ月は対応にかかりきりになります。監査ログのレビュー、承認フロー管理、監査証跡の収集など、SREが担う作業は多岐にわたります。
本セッションでは、私たちが実践してきた「セキュリティ要件をインフラ基盤で吸収する」アプローチを共有します。マネージドサービスの活用、自動化の徹底、環境分離によるスコープ最小化などにより、SRE自身の運用負荷を最小化しつつ堅牢なインフラ基盤を構築してきた方法をお話しします。
具体的な内容については以下を想定しております。
スコープの最小化
マネージドサービスの活用
自動化の徹底
■ 対象聴衆とその人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
私自身、FinTechスタートアップに入社するまでは「厳格なコンプライアンスに準拠したサービスのインフラってどんなものなんだろう。ガチガチで身動きが取れないんじゃないかな」と考えていました。
PCI DSSのような厳格な規制への対応は、たしかに企業に大きな負担をもたらします。しかし、適切なインフラ設計と自動化によってその影響を最小限に抑え、SRE自身の運用負荷を削減しつつセキュリティ向上を実現できることが分かってきました。それは自分が他業界のSREとしてやってきたものと同様の、基本的な取り組みの積み重ねによるものでした。
私たちがやっている日常的な業務は一般的なWebアプリケーション開発でも応用可能なプラクティスだと考えています。「コンプライアンス対応は特別なことではなく、SREの日常的な活動で実現できる」という視点を通じて、コンプライアンス対応やサービスのセキュリティレベル向上に取り組んでいる皆さんの実践を後押しできれば嬉しいです。
石垣 雅基 ■ 発表カテゴリ
募集要項(https://srekaigi.notion.site/SRE-Kaigi-2026-CfP-25a6f7392c108187a9e6e47c346396b2) にある6つの発表カテゴリからお選びください
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
我々の組織は急成長を遂げている一方、最近になって障害が目立つようになってきました。そこで、我々は社内にSRE practiceを浸透させるべく奮闘していたのですが、様々な壁にぶち当たりうまくいきませんでした。そうした反省を踏まえて、我々は今Platform Engineeringの力を借りてこの壁を乗り越えようとしています。SRE Enablingにおけるの我々の苦悩、SREとPlatform Engineeringの結実など、有意義なトピックが豊富にあると思いますので、是非お聞きください!
以下お話しするトピックになります。
■ 発表の詳細(1000字程度)
我々の組織を取り巻く現在の状況
私が所属するLegalOnTechnologiesを取り巻く最近の状況と、SREチームがSRE practiceを推進していくmotivationについて話します。ここで話す内容としては、以下のトピックになります。
・ 大型プロダクトローンチ以後機能開発を優先してきた結果、SLOなどのSRE practiceを導入してこれなかった(= SREチームは「インフラ屋」としてしか機能できていなかった)という現状
・ 最近になって障害が多発してきて、社内的にもこれをどうにかしないといけないという風潮
・ これを追い風として、今こそSRE practiceを社内に浸透させようという機運
我々はなぜこれまで”SRE”できてこれずにいたのか?
実はこれまで全くSREのpracticeの導入を試みてこなかったというわけではなく、機能開発に忙殺されながらも色々試みましたが、どれもうまくいきませんでした。ここでは、その失敗談を話したいと思います。
・ 適当なSLI/SLOを設定してしまったことによるAlert Storm
・ 開発者のObservabilityに対する感度
・ 形骸化してしまったPostmortem
まずはやれるところから!Postmortemの運用刷新
現状のままではいけない、SREせねば!、ということでまずは手をつけやすそうなPostmortemの運用から見直すことにしました。具体的には以下のような取り組みについてお話しします。
・ 現状分析:「うわっ…私のPostmortem、分析足りなすぎ…?」
・ 運用方法&テンプレート見直し
・ Postmortemをもう一度!開発者全員にPostmortemの重要性を説いた話
Observability基盤の刷新
Observability周りを効率的に推進していくには、Platform Engineeringの力を駆使していくのが良いと判断しました。幸い、我々の組織では全社共通基盤のPlatformがあります。ここでは、このPlatformにObservabilityの要素を組み込んだ話をします
・ self-serviceを推進するアプリケーションプラットフォーム”Akupara”
・ ObservabilityツールをDatadogに移行した話
・ observability-kit / slo-kit:Platformを通した「人類皆SRE計画」
SREの日の出:準備はできた、さあ、Enablingやっていきましょう
最後に、今後どのようにSREのEnablingを進めていくかについてお話しします。
・ Postmortemの推進
・ Observabilityの推進
・ SLO駆動開発
■ 対象聴衆とその人たちが得られるもの
対象聴衆
・ 組織にSRE practiceを浸透させることに苦戦されている方
・ SREの教科書にはない実際の経験談を聞きたい方
・ SREとPlatform Engineeringの協働の仕方に興味のある方
その人たちが得られるもの
・ SRE practiceを浸透させる際に踏んではいけないNGポイント
・ SRE practiceを浸透させるための一つの事例
・ ObservabilityをPlatform Engineeringの一部として扱う方法
■ なぜこのトピックについて話したいのか(モチベーション)
Site Reliability Engineeringに関する本はたくさんあれど、実際にそれをやっていこうと思うと様々な困難に出くわします。そうした話というのは、本では得ることのできない知識なので、是非登壇という形で多くの人に共有したいと思いました。また、SREとPlatform Engineeringの協働というのは最近ではちょこちょこ目にしますが、まだまだ事例としては少ない方だと思うので、是非弊社における事例を聞いていただくことで、お聞きいただいた方々の助けになるのではないかと思った次第です。