Der Blog

Halten Sie Ihre Website mit den richtigen Überwachungspraktiken verfügbar

von Tony Albanese 22. April 2014 | 3 Minuten Lesezeit

Im einfachsten Fall ist Website-Monitoring der Prozess des Testens und Überprüfens, ob Endbenutzer Ihren Dienst tatsächlich nutzen können. Es gibt mehrere hervorragende SaaS-Anwendungen, die Ihr System per Ping-Test informieren, ob es einsatzbereit ist, falls Ihr Team schnell nach einer Lösung suchen muss.

Die Information, dass Ihre Website ausgefallen ist, ist nur der erste Schritt zur Alarmierung, sollte aber der letzte Schritt in Ihrer Überwachungskette sein. Idealerweise sollten Sie für Alarme gerüstet sein, bevor ein Ausfall auftritt, der den gesamten Dienst lahmlegt. Ist dies jedoch nicht möglich, müssen Sie wissen, warum und wo das Problem auftritt.

Externe Website-Checks

Ein kurzer Ping alle 15 Sekunden kann äußerst hilfreich sein, um Probleme zu beheben, die zu einem Ausfall Ihrer Website führen können. Probleme mit Ihrem Hosting-Anbieter, dem regionalen Support, Speicherspitzen oder erhöhtem Netzwerkverkehr können zum Absturz Ihrer Website geführt haben.

Um über einen einfachen Ping hinauszugehen, gibt es einige sehr einfache Schritte, um wertvollere Informationen zu erhalten. Bei PagerDuty haben wir eine einfache Betriebszeitüberwachung auf pagerduty.com , aber wir haben auch mehrere externe Dienste, die eine einfache Testsuite anpingen. Wir wissen nicht nur, dass Ereignisse durch unser System fließen, sondern auch, dass die durchschnittliche Verarbeitungszeit unter einem Schwellenwert liegt und unser Warnaufkommen in einem sicheren Bereich liegt.

Sofern Ihr Monitoring-Tool dies unterstützt, kann jeder Test Warnungen unterschiedlicher Schweregrade auslösen. Bei hoher Auslastung aufgrund von Problemen eines IaaS-Anbieters lösen wir häufig eine Warnung der Schweregrade 3 aus, auch wenn keine Verzögerungen gemeldet werden. Dadurch wird ein Techniker alarmiert, falls wir ihn benötigen.

Überprüfen Sie nicht nur, ob Ihre Seite reagiert, sondern stellen Sie sicher, dass sie den richtigen Inhalt zurückgibt. Wenn Ihr Server 200 Statuscodes, aber unleserlichen Text zurückgibt, war Ihre gesamte Überwachung umsonst. Vergessen Sie nicht, auch zu überprüfen, ob Sie CSS und Skripte zurückgeben, wenn diese über eine andere Asset-Pipeline kommen.

Je umfassender Ihre Überwachung und Warnmeldungen sind, desto größer ist Ihre Chance, Probleme zu erkennen, bevor Ihre Kunden davon betroffen sind.

Interne Website-Checks

Um ein vollständiges Bild Ihres Dienstes zu erhalten, müssen Sie den gesamten Stack überwachen, um die Ursache für einen Ausfall zu finden. Dies bedeutet, dass Sie nicht nur eine HTTP-Anfrage oder DNS-Prüfung erhalten, sondern auch hinter Ihren Load Balancer schauen. Möglicherweise liegt der Ausfall einfach an einem Netzwerkproblem.

Durch die Überwachung Ihrer internen, nicht kundenorientierten Systeme können Sie Messdaten korrelieren und so die Ursache für den Ausfall Ihrer Website ermitteln. Wir empfehlen die Verwendung eines Tools, mit dem Sie die Ursache des Ausfalls nicht nur durch einen einfachen Ping ermitteln können, sondern auch ohne Rätselraten. Ist Ihr System aufgrund erhöhten Netzwerkverkehrs langsam oder steckt ein tieferer Grund dahinter? Es ist unerlässlich, die richtige Ursache für Ihren Systemausfall zu finden, um zu verhindern, dass derselbe Ausfall erneut auftritt.

Finden Sie die richtigen Werkzeuge für Sie

Wenn Sie eine Lösung implementieren möchten, schauen Sie sich einige unserer Partner an. Sie können auch mehrere Partner verwenden, um redundante Prüfungen hinzuzufügen und sicherzustellen, dass Sie keine Warnung verpassen.

Eine vollständige Liste unserer sofort einsatzbereiten Integrationen finden Sie auf unserer Integrationsseite . Sie finden Ihr Lieblingstool nicht und möchten, dass wir eine Integration entwickeln? Schreiben Sie uns eine E-Mail an support@pagerduty.com .