クラウドプラットフォームの信頼性向上の取り組みと実践 by tsubasaxZZZ

YAPC::Hakodate 2024
トーク (40分)

クラウドプラットフォームの信頼性向上の取り組みと実践

tsubasaxZZZ tsubasaxZZZ tsubasaxZZZ
1

Azure が信頼性を向上・維持するためにどのようなサービスや取り組みを提供しているかAzureのエンジニアリングチームとしての視点で紹介します。
どのサービスや機能を使いどのようにサービスの信頼性を上げていけばよいかもお話ししたいと思います。

  • Safe Deployment Practiceによるリリース管理
  • Project Tardigrade/Project Narya/Project Flashによる基盤の障害検知、回復性向上
  • 認証基盤の回復性を上げるための仕組み
  • Azure Boostによるハードウェアのオフロード
  • CXPチームによるオンボードから運用までの改善
  • 実装の実際
    • SLA/RPO/RTOの定義、ワークロードの優先順位付け
    • Azure Advisorによるサービスの可視化
    • その他実装のTips