Banri Kakehi
Melonps_
Tech: SREを支える具体的な技術や手法
本発表では、SREエンジニアにとって、技術をビジネス価値に変えることの大切さを説明します。
私たちPanasonicのSREチームは、長年続くサービスにおいて、安定稼働と豊富な機能追加を目指して取り組んでいます。その一環として、可観測性向上についても挑戦を続けています。その結果、メトリクスやログの活用で一定の成果を上げたものの、分散トレーシングにおいてはプロダクションへの導入に至っておらず、一度失敗しています。
技術的な検証はできても、導入には至らない。その原因は、エンジニア自身が、技術をビジネス価値に変換できていないことにありました。私たちは、この壁を突破するために働きかけを行っています。
新しいツールや技術の本番適用、既存システムの改善に苦戦している方は少なくないはずです。本発表では、私たちの現在進行形の挑戦を共有し、同様の課題に取り組む方々のヒントとなることを目指します。
本セッションでは、可観測性向上をビジネス価値につなげる具体的な手法について、弊社のサービスとそのシステムを例に、5つのステップに分けてお話しします。
1: 現状の可観測性を把握する
まずは、可観測性を構成する3つの要素(ログ、メトリクス、トレース)のうち、今運用しているシステムで収集している要素、活用している要素を把握することが重要だと考えます。
また、トレーシングがどれだけそのシステムの可観測性に貢献できそうなのかを見積もることも重要です。
このステップでは、ステップ2以降に必要なこれらの内容を確認します。
2: ビジネスケースとしてあるべき形・効果を定義する
サービスに対してトレーシングは必須ではありませんが、サービスを提供するシステムが複雑している昨今において、適切に考慮することで、ビジネスへの貢献が期待できると考えています。
このステップでは、ビジネス的な観点からトレーシングのあるべき姿を考えてみます。
3: コストに向き合う
コストは、計装方法やプロジェクトの成熟度合い、サンプリング戦略に大きく依存し、これらによって採算がとれるかが変わります。
このステップでは、初期コスト・ランニングコストの2つについて、具体的に見積もってみます。
4: 段階的導入戦略を考える
トレーシングに関わらず、新しい技術やツールの導入には、「社内規約やコストにより、SaaSの導入に時間がかかる」、「影響範囲や導入工数が不透明で進まない」などのブロッカーが存在します。
このステップでは、我々が直面したこのような課題に対するアプローチについて考えてみます。
5: 合意形成に臨む
ステップ4まで検討が完了すれば、あとは関係者との合意形成を残すのみです。
弊社の組織構造を例に、合意形成に至るまでの作戦についてお話しします。
・前提知識:分散システム、可観測性に対する基本的な理解
・対象レベル:中級者向け
・プライマリターゲット:SREエンジニア、インフラエンジニア
・セカンダリターゲット:技術リードやマネージャー、CTOレベルの方
・可観測性向上をビジネス価値につなげる具体例
・プロジェクトの成熟度に応じた段階的導入戦略
・経営陣との合意形成に使える具体例
「技術的関心から○○を導入したいけど、お金を出してもらうためには経営陣(決裁者)の承認が必要…。でも、どのように納得していただくか…。」という経験をされたエンジニアの方々は多いのではないでしょうか。
我々も今まさに、トレーシングの導入に至る合意形成で奮闘中です。
SRE Kaigiを通じて、分散トレースに限らず、新たな技術・ツールを導入したい場合の提案手法の例を共有し、参加者の皆様から様々なご意見をいただきたいと思っています。