Cloudflare réduit le délai moyen de réponse à quelques secondes grâce à PagerDuty

PagerDuty image

Taille: Plus de 415 employés

Industrie: Technologies et services de l'information

Emplacement: San Francisco, Californie

Client depuis : 2016

En tant que solution mondiale de performance et de sécurité basée sur le cloud pour plus de 6 millions d'actifs Internet, Cloudflare garantit la sécurité, la performance et la haute disponibilité des sites web, applications et API de ses clients. Gérant plus de 10 % du trafic Internet mondial, il est impératif que les services de Cloudflare restent en ligne pour ses clients à grande échelle, tout en garantissant le respect des SLA grâce à l'identification et la résolution des incidents, bien avant toute interruption de service. L'équipe SRE (Site Reliability Engineering) de Cloudflare recherchait une solution de résolution d'incidents permettant à Cloudflare d'accroître la stabilité de ses opérations, tout en offrant une expérience irréprochable à chaque client.

Défis : Visibilité, communication et escalade

Avant d'adopter PagerDuty, Cloudflare devait relever trois défis. Le premier concernait la visibilité. « Nous n'étions pas immédiatement informés des dysfonctionnements, car l'équipe d'ingénierie ne recevait pas d'alertes automatiques en cas d'incident », explique le responsable de l'ingénierie.

Le second défi résidait dans la gestion des incidents. Une fois un problème détecté, l'équipe d'ingénierie s'appuyait sur des processus manuels pour le résoudre. Les ingénieurs consacraient du temps au diagnostic de la cause du problème et, si la solution nécessitait l'intervention d'un autre service, les ingénieurs SRE devaient contacter la personne concernée par téléphone, SMS ou messagerie instantanée – une tâche qui se compliquait lorsque les incidents survenaient en dehors des heures de travail ou le week-end.

Face à la croissance fulgurante de Cloudflare, passée de moins de 800 000 clients en 2013 à plus de 6 millions en 2016, il devenait difficile pour l'équipe de distinguer les incidents critiques et exploitables du volume croissant de données générées par les outils de surveillance. Bien que l'équipe refusât de se débarrasser d'informations potentiellement utiles, elle devait regrouper les symptômes apparentés afin d'en tirer des enseignements concrets. Sans l'aide de la gestion et du tri dynamiques des événements, de l'automatisation et des autres fonctionnalités offertes par PagerDuty, Michael et son équipe devaient évaluer manuellement la gravité de chaque incident, un processus devenu trop lent pour répondre aux besoins d'un nombre de clients en constante augmentation.

« Le délai moyen de réaction est passé de plusieurs minutes à quelques secondes. »

Senior Responsable de l'ingénierie, Cloudflare

Amélioration de la stabilité et du temps de réponse avec PagerDuty

En adoptant PagerDuty, Cloudflare a résolu tous ces problèmes. PagerDuty garantit que Michael et son équipe sont toujours informés des incidents dès leur apparition et, si un incident doit être traité par une autre équipe, PagerDuty transmet automatiquement la notification afin de gagner du temps.

L'équipe SRE de Cloudflare utilise également Console de commandes des opérations Ils bénéficient ainsi de fonctionnalités telles que la mise en évidence des incidents critiques au sein de l'application de gestion des incidents majeurs. Grâce à une visibilité complète sur leur infrastructure et à la détection des anomalies et des tendances, ils ne manquent plus aucun événement grave. Le responsable de l'ingénierie explique : « Lorsque nous avons adopté PagerDuty, nous avons pu identifier les alertes importantes et nous dire : “Celle-ci est vraiment urgente. Il faut s'en occuper immédiatement.” »

De plus, d'autres fonctionnalités telles que celles de PagerDuty Intégration HipChat PagerDuty, les SRE n'ont plus besoin de rechercher manuellement les coordonnées de l'expert adéquat : en un clic, les personnes, les équipes ou les parties prenantes peuvent être informées et mobilisées sur un incident. Avec PagerDuty, la prise de contact est instantanée.

Plus important encore, PagerDuty a considérablement réduit le temps de réponse de Michael et de son équipe face aux incidents. « Le délai moyen de réponse est passé de plusieurs minutes à quelques secondes », a déclaré le responsable de l'ingénierie, ajoutant qu'une réactivité accrue se traduit par une meilleure fiabilité du service et une expérience client optimisée — objectif ultime et raison première pour laquelle Cloudflare a fait appel à PagerDuty .

« Nous avions plusieurs options, mais nous avons choisi PagerDuty car son PagerDuty à nos systèmes était plus simple. Son interface était très bien conçue, l'API fonctionnait parfaitement et les résultats de l'application étaient très faciles à interpréter. »

- Senior Responsable de l'ingénierie, Cloudflare