Blog

Les principales causes des interruptions de service

par Zachary Flower 9 mars 2017 | 5 min de lecture

Selon un Résumé de Gartner , le coût moyen d'une interruption de service pour une entreprise est de 5 600 $. par minute Bien que les données recueillies proviennent d'entreprises extrêmement importantes, le coût des interruptions de service, même pour les petites start-ups, est loin d'être négligeable.

Partons du principe, par souci de simplification, que votre produit principal est une application web qui repose exclusivement sur les ventes organiques, générant un chiffre d'affaires annuel d'un million de dollars. Cela représente environ 2 dollars de pertes de revenus par minute. À première vue, cela peut paraître négligeable, mais les pertes de revenus ne constituent qu'une petite partie des coûts liés aux interruptions de service. Il faut également prendre en compte les coûts d'exploitation inutiles.

Le temps et la productivité des employés sont également gaspillés pendant les temps d'arrêt. Par exemple, si vous dépensez 500 000 $ par an en charges salariales, cela représente 1 $ de perte de revenus supplémentaire par minute. Si vous suivez ces calculs, le coût s'élève désormais à 3 $ par minute.

Cela représente 180 $ de l'heure, soit 4 320 $ par jour.

Ça monte vite, n'est-ce pas ? Nous avons pris en compte les coûts salariaux et le manque à gagner, mais qu'en est-il des autres dépenses inutiles ? Chaque élément inutilisé de votre architecture engendre des pertes supplémentaires pendant les interruptions de service. Les serveurs et services tiers inutilisés peuvent rester inactifs pendant que votre équipe travaille à la résolution d'un problème, et cette résolution peut nécessiter des ressources supplémentaires (et coûteuses).

Selon l'importance de votre produit pour l'activité de vos clients, une interruption de service peut non seulement vous coûter de l'argent, mais aussi éroder la confiance de vos clients. Il est difficile de justifier le coût d'un fournisseur peu fiable ; par conséquent, même si une panne ponctuelle est facilement gérable, la perte de confiance envers votre produit s'aggrave à chaque incident suivant.

Causes + Solutions

En définitive, comprendre les causes des pannes permet d'optimiser les chances de les prévenir. Ces causes se regroupent en quelques catégories : erreur humaine, panne d'un service tiers ou événement imprévu et hautement imprévisible, tel un cygne noir.

Erreur humaine

L'une des causes les plus fréquentes d'indisponibilité que j'ai personnellement constatées est erreur humaine Qu’il s’agisse d’un développeur ayant introduit du code défectueux ou d’un administrateur ayant mis à jour un package non testé, le non-respect des procédures ou la non-détection d’un bug système obscur nuisent à la disponibilité du produit. Mettre en place un système de contrôles internes est la meilleure solution. Les revues de code, les tests unitaires, l’assurance qualité, une planification rigoureuse et une communication claire sont autant d’éléments essentiels pour garantir la disponibilité du produit. éviter les interruptions de service C'est tout à fait évitable.

Pannes de service

Cependant, il arrive parfois que les interruptions de service ne soient pas dues à des problèmes internes. De temps à autre, même les fournisseurs de services cloud comme Amazon AWS s'effondrer. Une organisation ne peut pas faire grand-chose dans ce cas (du moins sans plan d'action adéquat). Pour y remédier, j'apprécie les services de Netflix. Singe du Chaos Pour les non-initiés, Chaos Monkey est un système dont la seule fonction est de désactiver aléatoirement des services au sein de l'architecture d'un produit. Cela force le système à s'auto-réparer et forme l'équipe à gérer efficacement les pannes lorsqu'elles sont critiques. PagerDuty effectue ses propres tests. Vendredis de l'échec aussi!

Alerte

Bien que des interruptions de service occasionnelles soient totalement inévitables (même Facebook connaît des pannes de temps en temps. La manière dont vous gérez et vous préparez une telle situation déterminera son impact sur votre organisation. Chaque minute d'indisponibilité engendrant des coûts supplémentaires, il est crucial de mettre en place des processus pour prévenir ou réduire la durée d'une panne. Des solutions comme PagerDuty Accélérez la résolution des incidents en temps réel en informant et en coordonnant les équipes au plus vite, et en fournissant une plateforme pour contextualiser le problème. En centralisant toutes vos données d'événements et en optimisant la communication, il devient beaucoup plus facile d'identifier la cause première d'une panne et de résoudre les problèmes efficacement et avec précision.

Communication

Il est important de se rappeler que l'amélioration communication externe Il est tout aussi important d'améliorer la communication interne que la communication externe. Informer vos clients rapidement et clairement d'une panne contribue grandement à maintenir leur confiance et votre crédibilité. Grâce à l'utilisation d'outils comme Page d'état et StatusCast , ainsi que PagerDuty Engagement des parties prenantes Les organisations peuvent ainsi mieux orchestrer leurs réponses internes et externes en temps réel, et utiliser des pages d'état pour offrir une transparence précieuse sur l'état d'un produit. Personnellement, rien ne me paraît plus suspect qu'une organisation qui reste silencieuse face à une crise. Son silence donne l'impression qu'elle tente de dissimuler quelque chose.

Rotations de garde

Toutes ces solutions sont excellentes, mais il est important de comprendre qu'un aspect indispensable de la gestion des interruptions de service imprévues est de s'assurer qu'il y a toujours du personnel disponible pour résoudre le problème. Cela peut être facilement réalisé en mettant en place un système d'astreinte parmi vos ingénieurs. Un système d'astreinte efficace représente un investissement minimal qui peut contribuer à améliorer la fiabilité des produits, à maintenir la responsabilisation, à optimiser la prestation de services et à favoriser un meilleur équilibre entre vie professionnelle et vie privée pour votre équipe. Sans système d'astreinte, chaque panne mobilise toutes les équipes, ce qui perturbe la vie personnelle de chacun. À l'inverse, un planning d'astreinte clairement défini et politiques d'escalade Cela signifie que les charges de travail sont équilibrées et qu'il y a toujours un expert dédié prêt à résoudre un problème ou favoriser la collaboration pour la résolution au besoin.

En définitive, la meilleure façon de planifier (et d'atténuer) les interruptions de service est d'investir dans vos ressources et votre équipe. Toutes les solutions mentionnées ici ne conviennent pas à toutes les organisations, mais le coût de leur mise en œuvre est souvent justifié. rien n'est de manière significative Le coût est supérieur à celui de l'intervention. Avec une procédure établie pour la gestion des pannes, qu'elle soit due à un piratage ou à une coupure de courant, votre équipe et vous-même serez prêts à y faire face.


Prêt à essayer PagerDuty ? Inscrivez-vous pour un essai gratuit de 14 jours .

S'INSCRIRE