Cloudflare réduit le temps moyen d'action à quelques secondes grâce à PagerDuty

PagerDuty image

Taille: 415+ employés

Industrie: Technologies de l'information et services

Emplacement: San Francisco, Californie

Client depuis : 2016

En tant que solution cloud mondiale de performance et de sécurité pour plus de 6 000 000 d'actifs Internet, Cloudflare garantit la sécurité, la performance et la haute disponibilité des sites web, applications et API de ses clients. Desservant plus de 10 % du trafic Internet mondial, il est impératif que les services Cloudflare restent en ligne pour les clients à grande échelle, tout en garantissant la disponibilité des SLA en identifiant et en résolvant les incidents, bien avant toute interruption des opérations. L'équipe d'ingénierie de fiabilité des sites (SRE) de Cloudflare, dirigée par Michael Daly, recherchait une solution de résolution des incidents qui permettrait à Cloudflare d'accroître la stabilité de ses opérations, tout en offrant une expérience client irréprochable.

Défis : visibilité, communication et escalade

Cloudflare a dû relever trois défis avant d'adopter PagerDuty. Le premier concernait l'optique. « Nous ne savions pas immédiatement quand quelque chose était défectueux, car l'équipe d'ingénierie ne recevait pas d'alertes automatiques en cas d'incident », explique Michael.

Le deuxième défi résidait dans la gestion des incidents. Une fois le problème détecté, l'équipe d'ingénierie s'appuyait sur des processus manuels pour le résoudre. Les ingénieurs consacraient du temps à diagnostiquer la cause du problème, et si une solution nécessitait l'intervention d'un autre service, les SRE devaient contacter cette personne par téléphone, SMS ou chat ; une tâche qui devenait difficile si les incidents survenaient en dehors des heures de travail ou le week-end.

Compte tenu de la croissance rapide de Cloudflare, avec moins de 800 000 clients en 2013 à plus de 6 millions en 2016, il devenait difficile pour l'équipe de Michael de distinguer les incidents critiques et exploitables du volume croissant de données générées par les outils de surveillance. Si l'équipe refusait de supprimer des informations potentiellement utiles, elle devait regrouper les symptômes associés afin d'obtenir des informations exploitables. Sans l'aide de la gestion et du tri dynamiques des événements, de l'automatisation et des autres fonctionnalités de PagerDuty, Michael et son équipe devaient évaluer manuellement la gravité de chaque incident, un processus devenu trop lent pour répondre au mieux aux besoins d'un nombre de clients en constante augmentation.

« Le délai moyen d’action est passé de plusieurs minutes à quelques secondes. »

– Michael Daly , Responsable de l'ingénierie, Cloudflare

Augmenter la stabilité et le temps de réponse avec PagerDuty

En adoptant PagerDuty, Cloudflare a résolu tous ces défis. PagerDuty garantit que Michael et son équipe sont toujours informés des incidents dès qu'ils surviennent et, si un incident doit être traité par une autre équipe, PagerDuty transmet automatiquement la notification pour gagner du temps.

L'équipe SRE de Cloudflare utilise également le Console de commande des opérations et bénéficient de fonctionnalités telles que la mise en évidence des incidents hautement urgents dans l'application Incidents majeurs. Grâce à une visibilité complète sur leur infrastructure et à la détection des schémas et des anomalies, ils ne passent plus à côté d'événements graves. Michael explique : « Avec l'adoption de PagerDuty, nous avons pu prendre en compte certaines alertes et nous dire : « Celui-ci est vraiment important. Il faut le traiter immédiatement. »

De plus, d'autres fonctionnalités telles que PagerDuty Intégration HipChat PagerDuty a permis à l'équipe SRE de Cloudflare de rationaliser la communication, de collaborer, d'automatiser les tâches opérationnelles grâce aux commandes, d'apprendre ensemble, et bien plus encore, lors de la réponse aux incidents. PagerDuty a également éliminé la nécessité pour les SRE de rechercher manuellement les coordonnées de l'expert approprié : les individus, les équipes ou les parties prenantes de l'entreprise peuvent être informés et recrutés pour un incident en un seul clic. Avec PagerDuty, ils peuvent être contactés instantanément.

Plus important encore, PagerDuty a réduit le temps nécessaire à Michael et à son équipe pour réagir aux incidents, à une fraction de ce qu'il était auparavant. « Le délai moyen d'intervention est passé de quelques minutes à quelques secondes », a déclaré Michael, ajoutant qu'un temps de réponse plus rapide se traduit par une plus grande fiabilité du service et de meilleurs résultats pour les clients – ce qui est l'objectif ultime et la raison pour laquelle Cloudflare a choisi PagerDuty dès le départ.

Nous avions plusieurs options, mais nous avons choisi PagerDuty car il nous fallait moins de travail pour l' intégrer à nos systèmes. Il était très bien formaté, l'API fonctionnait parfaitement et le résultat de l'application était très facile à interpréter.

– Michael Daly , Responsable de l'ingénierie, Cloudflare