- PagerDuty /
- Blog /
- ITOps et opérations modernes /
- La réponse aux incidents est importante : lorsque la surveillance ne suffit pas
Blog
La réponse aux incidents est importante : lorsque la surveillance ne suffit pas
La prolifération des systèmes de surveillance
Les systèmes de surveillance ont été un atout majeur pour les entreprises numériques. Si vous êtes comme la plupart des équipes d'exploitation informatique, vous en avez investi plusieurs pour détecter les requêtes API lentes, les problèmes réseau, les serveurs surchargés, etc. Mais… comme la plupart des équipes d'exploitation informatique, vous pourriez encore rencontrer des difficultés en matière de réponse aux incidents. D'ailleurs, selon une étude menée par Dimensional Research et commandée par PagerDuty: 85 % des équipes déclarent avoir manqué un incident critique , et 99 % affirment que l'absence d'alertes peut nuire à leur activité. Après tout, dans un monde où la lenteur est synonyme de temps d'arrêt, et où les temps d'arrêt impacte votre expérience client , les alertes manquées sont un affaire sérieuse .
Mais il ne s'agit pas seulement de surveillance. En réalité, il existe un monde où la surveillance s'arrête et où la réponse aux incidents prend le relais.
Les alertes atteignent des niveaux épidémiques
Avec la prolifération de logiciels de surveillance de plus en plus spécialisés, il existe désormais un nombre toujours croissant d'outils performants pour détecter les anomalies. 91 % des équipes opérationnelles utilisent plusieurs outils. Ces outils génèrent des centaines, voire des milliers d'événements par jour, et malheureusement, seules 27 % des équipes prennent des mesures pour agréger et filtrer ces données avant qu'elles ne soient transmises aux utilisateurs. Conséquences ? 43 % des équipes déclarent recevoir trop d'alertes. Cela signifie que les membres de l'équipe sont surchargés et risquent de… épuisement professionnel et sérieux fatigue d'alerte Dans le pire des cas, votre équipe est tellement submergée qu'elle ne peut distinguer l'essentiel de l'informatif, et elle rate la notification vraiment importante. Le résultat pourrait être un véritable incendie qui se déclare soudainement et consume tout sur son passage.
Le monde de la réponse aux incidents…
… est malheureusement manuel et inefficace. 79 % des équipes utilisent encore les e-mails pour les notifications, même s'ils sont souvent trop lents pour répondre aux incidents à enjeux élevés. De plus, les e-mails offrent peu, voire aucune, responsabilisation ni visibilité, et ne permettent pas aux utilisateurs de suivre automatiquement les alertes entrantes. Il n'existe aucun moyen simple d'attribuer une alerte à quelqu'un d'autre depuis un e-mail ; les escalades se font donc manuellement, voire pas du tout. De plus, les alertes par e-mail ne permettent pas d'obtenir d'analyses, ce qui empêche de visualiser véritablement l'état de santé de votre système et d'anticiper l'apparition d'un problème majeur. Nous avons déjà blogué à ce sujet Trop d'équipes informatiques gèrent les plannings d'astreinte dans des feuilles Excel, ce qui gaspille de précieuses minutes de contact. Il n'est donc pas étonnant que 54 % des équipes informatiques soient insatisfaites de leur réponse aux incidents.
Ne vous arrêtez pas à la détection
Alors, que pouvez-vous faire ? Les systèmes de surveillance sont excellents pour détecter les problèmes, mais ce n'est qu'un début. Planifiez votre réponse aux incidents. Évitez les pièges courants en adoptant les meilleures pratiques. Ajustez continuellement votre processus de gestion des incidents pour garantir son efficacité pour votre équipe. Et ne sous-estimez pas l'importance de l'analyse : souvent, la première étape pour comprendre comment améliorer votre réponse aux incidents consiste à utiliser les données pour identifier les points faibles et élaborer une stratégie pour les prochaines étapes.
Envie d'en savoir plus ? Télécharger notre eBook pour voir comment faire en sorte que vos systèmes de surveillance tiennent réellement leur promesse de protéger votre disponibilité
