Comment PagerDuty utilise-t- PagerDuty?
Nos clients nous demandent fréquemment si PagerDuty utilise PagerDuty. La réponse à cette question est simple : oui. Bien que nous puissions terminer cet article de blog ici, nous avons pensé approfondir un peu plus en vous donnant un aperçu de la façon dont nous utilisons notre propre service pour rester disponible.
PagerDuty Utiliser PagerDuty, c'est joli méta
PagerDuty nous donne la possibilité de maintenir notre service fiable et disponible. Une personne centrale est prévue pour gérer les incidents afin que tout le monde puisse se détendre et profiter de son temps libre. Notre produit nous permet de répartir uniformément les tâches de garde entre nos équipes DevOps afin de minimiser la fatigue des alertes, tout en garantissant que tous les incidents sont traités correctement. Tout comme nos clients, nous devons être alertés lorsqu'une panne survient dans notre service ou qu'un seuil est dépassé dans notre infrastructure.
PagerDuty nous avertira en cas de changement de sous-composant critique, tel que des limites d'espace disque, des services backend lents, des taux d'erreur élevés, etc. Même si cela n'entraîne pas de panne, nous utiliserons ces données pour analyser les tendances de nos alertes. systèmes pour réduire les faux positifs et faire de PagerDuty un meilleur produit pour nos clients et pour nous-mêmes.
Dans notre équipe DevOps, nous utilisons un planning d'astreinte par rotation d'une semaine pour nous assurer qu'il y a toujours quelqu'un de disponible pour résoudre les incidents au fur et à mesure qu'ils sont signalés. Nous utilisons une deuxième personne d'astreinte en tant que remplaçante et la troisième personne est notre responsable d'équipe Ops, juste au cas où les deux autres ne seraient pas disponibles.
Que faire si PagerDuty est en panne, comment recevoir des alertes ?
PagerDuty est un service très fiable, nous ne le rencontrons donc pas souvent. Cependant, nous avons mis en place des redondances avec des services tiers pour nous informer de tout incident susceptible de provoquer une panne de PagerDuty .
Nous utilisons une combinaison d'outils de surveillance internes personnalisés, DataDog, New Relic, Sumologic et d'autres qui sont intégrés à PagerDuty pour nous envoyer des alertes. Cependant, en cas de panne du système, nous utilisons Wormly et Monitis pour nous envoyer des notifications indépendamment de notre système.
Comment vos ingénieurs de garde bénéficient-ils de l'utilisation de PagerDuty?
Grâce aux rotations, les gardes deviennent une responsabilité partagée par toute l’équipe. Si une alerte est manquée, PagerDuty attirera automatiquement l'attention d'un autre membre de l'équipe. À l'aide de l'application mobile, notre équipe reconnaît, résout et réaffecte souvent les incidents en déplacement.
Nos ingénieurs de garde bénéficient également de l'API de PagerDuty, car nous traitons souvent le schéma d'alerte comme du code. Ainsi, même lorsque nous sommes plongés dans le code, nous pouvons apporter des ajustements à PagerDuty sans quitter nos terminaux.
La flexibilité du produit permet à nos ingénieurs de garde d'interagir avec PagerDuty de la manière qui leur convient le mieux, mais maintient également notre équipe connectée. Cela permet à chacun de se concentrer lorsqu'il en a besoin, tout en réduisant le poids sur nos épaules lorsque nous ne sommes pas de garde.
Comment configurer vos couches d’alerte ?
La beauté de PagerDuty est que personne n'est obligé de se conformer à un processus d'alerte spécifique. À l’époque où les téléavertisseurs étaient distribués, l’ingénieur de garde ne disposait que d’une seule méthode de notification. Avec PagerDuty, chacun a ses propres habitudes et avec plusieurs options d'alerte qui s'adaptent à son style de vie.
Cependant, les alertes d'appel téléphonique sont la méthode d'alerte la plus populaire pour les ingénieurs de garde de PagerDuty . Les alertes d'appels téléphoniques nous réveillent. L’équipe est divisée sur la façon dont elle décide de superposer ses alertes. La moitié de l'équipe reçoit d'abord des appels téléphoniques pour se réveiller, puis un suivi avec un SMS ou une notification push. L'autre moitié de l'équipe reçoit des SMS ou des notifications push ; puis effectue un suivi avec la méthode d'alerte la plus bruyante disponible, les appels téléphoniques.
Notre équipe est une grande fan de recevoir des alertes via notre intégration HipChat. Nous utilisons HipChat comme outil de communication interne pour nous envoyer des notes et des images GIF amusantes pendant la journée. Non seulement HipChat est idéal pour savoir quand le déjeuner est prêt, mais l'intégration de son service avec PagerDuty permet à toute l'équipe de rester facilement informée pour savoir si quelque chose ne va pas pendant les heures de bureau ou même lorsqu'ils discutent tard dans la nuit. .