- PagerDuty /
- Blog /
- Meilleures pratiques et perspectives /
- Contrôlez les temps d'arrêt grâce aux meilleures pratiques d'alerte d'incident
Blog
Contrôlez les temps d'arrêt grâce aux meilleures pratiques d'alerte d'incident
De nombreuses solutions proposent des alertes par e-mail pour informer les clients d'un problème. Les alertes par e-mail sont efficaces si vous consultez votre boîte de réception toute la journée, mais en réalité, ce n'est généralement pas le cas. Les alertes manquées prolongent les pannes et impactent le chiffre d'affaires de votre entreprise et la fidélité de vos clients. Pour être informés rapidement des problèmes, des milliers de clients ont choisi PagerDuty pour des alertes d'incident efficaces. Cet article explique les concepts d'alerte de PagerDuty et les bonnes pratiques pour les configurer afin d'optimiser la disponibilité.
Faites travailler les alertes pour vous
Chaque PagerDuty Utilisateur peuvent personnaliser leur Méthodes de contact et Règles de notification Pour être alerté comme vous le souhaitez. Si l'ingénieur d'astreinte principal manque une alerte, celle-ci peut être transmise à ses collègues jusqu'à ce qu'une réponse soit apportée. Politiques d'escalade.
- Les méthodes de contact sont les moyens par lesquels nous pouvons vous contacter, notamment le téléphone (portable, domicile et travail), les SMS, les e-mails et les notifications push.
- Les règles de notification sont les combinaisons de méthodes de contact par lesquelles vous souhaitez que nous vous informions.
- Les politiques d'escalade permettent de rediriger automatiquement les alertes vers une autre personne ou équipe si elles sont manquées par le propriétaire principal de l'incident.
Nous recommandons à tous les utilisateurs de configurer au moins trois méthodes de contact et trois règles de notification pour ne manquer aucune alerte. Par défaut, une règle de notification est activée pour avertir immédiatement le responsable de l'incident par e-mail dès son attribution.
Conseil: En fonction du type d’incidents qui se produisent dans votre système, configurez des alertes en fonction de votre coût d’arrêt et des accords de niveau de service client (SLA).
Les politiques d'escalade sont des filets de sécurité pour les incidents manqués et elles redirigent automatiquement les alertes vers des utilisateurs spécifiques ou des plannings d'astreinte :
Nous recommandons des politiques d'escalade pour chaque incident. Si vous êtes régulièrement confronté à des incidents de gravité élevée, transférez-les à une autre personne le plus tôt possible afin de garantir une prise en charge rapide.
Note: Les politiques d'escalade prévalent sur les règles de notification personnelles. Chaque utilisateur doit donc renforcer ses règles de notification. Si vous escaladez des problèmes après 30 minutes, assurez-vous que toutes vos alertes personnelles sont traitées dans ce délai. Cela vous permettra de recevoir toutes vos alertes et d'avoir la possibilité d'y répondre avant qu'elles ne soient transmises à un autre membre de l'équipe.
Filets de sécurité PagerDuty par défaut
Les alertes peuvent être acquittées, réaffectées ou résolues. En cas d'oubli d'une alerte acquittée, tous les services sont configurés avec une durée par défaut de 30 minutes. Délai d'expiration de la reconnaissance de l'incident. Cela rétablit l'état de déclenchement d'un incident et relance les alertes. De plus, si un incident est laissé ouvert par inadvertance, PagerDuty le réactivera par défaut. Résolution automatique des incidents qui sont ouverts pendant 4 heures.
Réduire la fatigue d'alerte
Maintenant que vous nous avez indiqué comment vous souhaitez être contacté en cas d'incident, PagerDuty vous aide à réduire les maux de tête liés aux alertes en déduplication , regroupement et ajout Alertes. Les incidents provenant d'intégrations basées sur API sont dédupliqués, regroupés et ajoutés automatiquement. Grâce aux intégrations par e-mail, vous pouvez définir des filtres spécifiques pour réduire la lassitude liée aux alertes.
- Si les mêmes événements sont envoyés à PagerDuty, ils seront dédupliqués et un seul incident sera créé dans PagerDuty. Cela évite de multiples alertes pour un même incident, et un seul incident déclenchera des alertes selon les règles de notification de l'utilisateur.
- Si des événements pour le même incident ouvert surviennent, ils sont ajoutés à l'incident ouvert et aucune nouvelle alerte ne sera envoyée.
- Si plusieurs incidents sont déclenchés en même temps et attribués au même utilisateur, l'utilisateur recevra une alerte groupée l'informant de ces incidents.
Lors d'une panne, la multiplication des alertes pour un même problème complique l'identification de la cause du problème. Avec PagerDuty, consacrez moins de temps au diagnostic et plus de temps à la résolution des problèmes. Ces trois fonctionnalités permettent aux utilisateurs d'identifier plus rapidement les problèmes critiques. Avec PagerDuty, vous pouvez réduire le nombre d'alertes et les temps d'arrêt.
Mettez en pratique les concepts d'alerte PagerDuty
1. Lorsque PagerDuty reçoit une alerte de votre système de surveillance, un incident est créé dans PagerDuty. Si plusieurs alertes concernent le même problème, PagerDuty les déduplique en un seul incident afin de réduire le bruit des alertes.
2. Plusieurs équipes d'astreinte peuvent être connectées à PagerDuty , qui achemine les alertes vers la personne d' PagerDuty compétente pour la résolution du problème. Les équipes définissent des politiques d'escalade. pour déterminer qui doit être averti si la personne principale manque ses alertes.
3. Une fois la personne d'astreinte principale identifiée, les alertes sont envoyées selon la combinaison de son choix. Conformément aux politiques d'escalade de l'équipe, si la personne d'astreinte principale ne répond pas, le super-héros d'astreinte suivant est appelé à l'action.
4. Lorsque les utilisateurs reçoivent des alertes, ils peuvent choisir de reconnaître, de résoudre ou de réaffecter l'incident avec une réponse par SMS ou par appel téléphonique, ou dans l'application mobile ou l'interface utilisateur Web.



