Blog

Maintenez la disponibilité de votre site Web grâce aux bonnes pratiques de surveillance

par Tony Albanese 22 avril 2014 | 3 minutes de lecture

Dans sa forme la plus simple, la surveillance d'un site web consiste à tester et à vérifier que les utilisateurs finaux peuvent réellement utiliser votre service. Plusieurs applications SaaS performantes envoient un ping à votre système pour vous indiquer si celui-ci est opérationnel, au cas où votre équipe devrait se dépêcher pour trouver une solution.

Savoir que votre site web est en panne n'est que la première étape de l'alerte, mais cela devrait être la dernière étape de votre chaîne de surveillance. Idéalement, vous devriez être configuré pour recevoir des alertes avant qu'une panne ne parvienne à interrompre l'ensemble du service. Mais lorsque cela n'est pas possible, vous devez savoir pourquoi et où se situe le problème.

Vérifications de sites Web externes

Un ping rapide toutes les 15 secondes peut s'avérer extrêmement utile pour résoudre les problèmes pouvant entraîner une panne de votre site. Des problèmes avec votre hébergeur, votre support régional, des pics de mémoire ou une augmentation du trafic réseau peuvent avoir provoqué une panne de votre site.

Pour aller au-delà d'un simple ping, quelques étapes très simples permettent d'obtenir des informations plus précieuses. Chez PagerDuty, nous proposons une surveillance simple de la disponibilité. pagerduty.com , mais nous disposons également de plusieurs services externes qui pingent une suite de tests simple. Nous savons non seulement que les événements circulent dans notre système, mais aussi que le temps de traitement moyen est inférieur à un seuil et que le volume des alertes est dans une plage de sécurité.

Si votre outil de surveillance le permet, chaque test peut déclencher des alertes de gravité différente. En cas de forte charge due à un problème avec un fournisseur IaaS, nous déclenchons souvent une alerte de gravité 3, même si aucun retard n'est signalé. Cela permet d'alerter un ingénieur en cas de besoin.

Ne vous contentez pas de vérifier que votre page répond, mais assurez-vous qu'elle renvoie le bon contenu. Si votre serveur renvoie des codes d'état 200 mais du texte illisible, toute votre surveillance n'a servi à rien. N'oubliez pas de vérifier également que vous renvoiez les CSS et les scripts, s'ils proviennent d'un autre pipeline de ressources.

Plus votre surveillance et vos alertes sont approfondies, plus vous avez de chances de détecter les problèmes avant que vos clients ne soient affectés.

Vérifications internes du site Web

Pour obtenir une vue d'ensemble de votre service, vous devrez surveiller l'ensemble de la pile afin d'identifier la cause première d'une panne. Cela implique d'aller au-delà d'une simple requête HTTP ou d'une vérification DNS, et d'examiner les aspects cachés de votre équilibreur de charge. Il se peut qu'un simple problème réseau soit à l'origine de votre panne.

En surveillant vos systèmes internes, non destinés aux clients, vous pourrez corréler les indicateurs afin d'identifier la cause profonde de la panne de votre site. Nous vous recommandons d'utiliser un outil qui vous permet d'aller au-delà d'un simple ping pour identifier la cause de votre panne, sans avoir à deviner. Votre système est-il lent en raison d'un trafic réseau accru ou d'un problème plus profond ? Il est impératif d'identifier la source exacte de la panne de votre système ; vous éviterez ainsi qu'une telle panne ne se reproduise.

Trouvez les bons outils pour vous

Si vous souhaitez mettre en œuvre une solution, consultez quelques-uns de nos partenaires. Vous pouvez même en utiliser plusieurs pour ajouter des vérifications redondantes et être sûr de ne jamais manquer une alerte.

Consultez la liste complète de nos intégrations prêtes à l'emploi sur notre Page d'intégrations Vous ne trouvez pas votre outil préféré et souhaitez que nous développions une intégration ? Contactez-nous par e-mail à support@pagerduty.com .