SendGrid améliore la productivité des employés et réduit les temps d'arrêt grâce à PagerDuty

PagerDuty image

Taille: 331 employés

Industrie: Technologies et services de l'information

Emplacement: Boulder, Colorado

Client depuis : 2016

SendGrid est une plateforme de communication client éprouvée, basée sur le cloud, qui achemine avec succès plus de 25 milliards d'emails par mois pour les utilisateurs d'Internet et de mobiles. L'entreprise, dont le siège social est situé au Colorado, compte plus de 300 employés, dont 23 au sein de l'équipe des opérations et environ 84 dans l'équipe de développement. Le responsable des opérations d'ingénierie est chargé de la gestion de l'infrastructure de SendGrid, incluant les serveurs et les centres de données, le réseau sous-jacent, les architectures de virtualisation et les systèmes back-end. Le volume important d'emails envoyés par SendGrid génère quotidiennement une multitude d'alertes d'incidents. La mise en place d'une solution évolutive de niveau entreprise pour rationaliser et simplifier le processus manuel de gestion des alertes d'incidents constituait une priorité absolue pour l'entreprise.

Remplacement de l'outil d'alerte précédent et résolution des problèmes d'évolutivité

SendGrid reçoit jusqu'à deux mille alertes d'incident par jour et des dizaines de milliers par minute lors d'incidents techniques ou de pannes. Face à un tel volume, il est crucial pour l'entreprise de traiter les alertes rapidement et efficacement. Avant d'opter pour PagerDuty, SendGrid utilisait un autre fournisseur de systèmes d'alerte, mais a rapidement compris la nécessité d'une solution de gestion des incidents complète pour gérer ce volume important. « Quand on utilise un outil, on veut qu'il fonctionne, surtout en cas de panne ; c'est dans ces moments-là qu'on s'attend à ce qu'il soit opérationnel », explique le responsable des opérations d'ingénierie. Confrontée à des défis de scalabilité, SendGrid a décidé de se tourner vers une solution de gestion des incidents fiable et évolutive.

«PagerDuty nous aide à réagir plus rapidement aux alertes que nous recevons. Nous sommes en mesure de diagnostiquer les pannes plus rapidement, ce qui améliore l'expérience de nos clients et réduit les temps d'arrêt ainsi que les coûts associés. »

Responsable des opérations d'ingénierie, Sendgrid

Accélération du MTTA et du MTTR grâce au passage à une nouvelle plateforme de gestion des incidents

SendGrid a mis en place PagerDuty comme nouvelle solution de gestion des incidents et utilise la plateforme pour la collaboration, la planification, l'escalade et le reporting. En cas d'astreinte, un utilisateur peut accuser réception d'une alerte, l'escalader si nécessaire ou résoudre le problème en cours, ce qui lui permet de passer directement à l'incident suivant sans délai. Le tableau de bord principal, qui centralise tous les incidents, constitue un autre atout majeur pour SendGrid. « L'interface utilisateur du tableau de bord de gestion des incidents de PagerDuty est conçue pour visualiser clairement l'activité et le type d'alertes reçues. C'est extrêmement pratique : fini les listes d'alertes qui défilent sans cesse et la perte de concentration », a-t-elle déclaré.

La responsable des opérations d'ingénierie considère la fonctionnalité de reporting de PagerDuty comme l'atout le plus précieux de son poste. Le suivi des indicateurs lui permet d'obtenir des informations sur le nombre d'alertes par jour, par semaine, par mois et par an. « Nous avions estimé à 78 000 le nombre d'alertes cette année, et l'objectif de l'entreprise était de le réduire de 50 % par rapport à 2015. Jusqu'à présent, nous sommes en bonne voie d'atteindre cet objectif, grâce à PagerDuty», a-t-elle déclaré. Elle a également pu constater que le temps moyen de réparation (MTTR) de l'équipe est de 19 minutes, tandis que le temps moyen d'accusé de réception (MTTA) n'est que de 2 minutes. La collecte de ces informations aide Moore-Simmons et les autres responsables d'ingénierie à identifier les points forts, les points faibles et les solutions aux problèmes rencontrés.

Le principal avantage pour SendGrid a été la capacité de ses équipes d'exploitation et de développement à résoudre rapidement les pannes et à prévenir leur réapparition, grâce à la fiabilité et à la rapidité des notifications d'incidents. Chaque minute d'indisponibilité coûte des milliers de dollars à l'entreprise et dégrade l'expérience client, entraînant une perte de clients. La réduction des pannes a donc permis de limiter ce taux de désabonnement. De plus, l'équipe est désormais plus satisfaite et plus productive depuis la migration vers PagerDuty.

« Nous avons confiance en PagerDuty et n'avons plus à nous soucier des pannes inutilement longues et des pertes de revenus. »

Responsable des opérations d'ingénierie, SendGrid

Améliorer la productivité des employés et optimiser l'évolutivité

SendGrid peut compter sur PagerDuty comme solution fiable pour la gestion de ses cas d'utilisation, ses alertes critiques et sa planification. « Nous avons pleinement confiance en PagerDuty et n'avons plus à craindre les interruptions de service trop longues et les pertes de revenus qui en découlent. Chez SendGrid, tous les employés d'astreinte utilisent PagerDuty et connaissent bien cette solution, qui est un fournisseur reconnu », a-t-elle déclaré. La satisfaction et la productivité des employés sont essentielles pour l'entreprise. Globalement, l'entreprise a constaté de nombreux avantages depuis son passage à PagerDuty: une résolution plus rapide des pannes, une productivité et un bien-être accrus des employés, ainsi que des indicateurs de performance impressionnants qui témoignent de son efficacité opérationnelle.