- PagerDuty /
- Der Blog /
- Unkategorisiert /
- 10 häufige Serverüberwachungsfehler aus der Praxis
Der Blog
10 häufige Serverüberwachungsfehler aus der Praxis
Dies ist ein Gastbeitrag von Shawn Parrish von NodePing, einem unserer Monitoring-Partner. Er beschreibt, wie man einige der häufigsten Stolpersteine beim Monitoring vermeidet. NodePing bietet einfache und kostengünstige externe Serverüberwachungsdienste. Weitere Informationen zu NodePing finden Sie auf der Website ( https://nodeping.com )
Ich bin seit Jahren für Server und Service-Monitoring verantwortlich und habe wahrscheinlich fast alle Fehler gemacht. Hört euch also die Kriegsgeschichten eines Mannes mit Narben an und lernt aus meinen Fehlern. Hier sind 10 niedrige Brücken, an denen ich mir den Kopf gestoßen habe. Die meisten davon sind selbstverständlich. Vorsicht vor der Lücke.
Hier sind 10 häufige Fehler, die ich bei der Serverüberwachung gemacht habe.
1. Ich überprüfe nicht alle meine Server
Ja, es scheint ein Kinderspiel zu sein, aber wenn ich so viele Eisen im Feuer habe, fällt es mir schwer, daran zu denken, die Serverüberwachung für alle zu konfigurieren. Einige der am häufigsten vergessenen Server sind:
-
Sekundäre DNS- und MX-Server. Diese Server der zweiten Generation werden normalerweise aktiviert, wenn die primären Server wegen Wartungsarbeiten offline sind oder ausgefallen sind. Wenn ich sie nicht im Auge behalte, funktionieren sie möglicherweise nicht, wenn ich sie am dringendsten brauche. Behalten Sie Ihre Failover-Server im Auge.
-
Neue Server. Ah, der Duft frischer Pizzakartons von Dell! Nach all den spannenden Dingen (Betriebssysteminstallation, Konfiguration, Burn-in, Härtung, Tests usw.) sind die beiden am häufigsten vergessenen Must-haves eines neuen Servers das Corporate Asset Tag (benutzt das noch jemand?) und die Einrichtung der Serverüberwachung. Setzen Sie es auf Ihre Checkliste.
-
Cloud-Server. Diese schnellen VPS- und AWS-Instanzen sind einfach einzurichten und die Überwachung wird leicht vergessen.
-
Temporäre/Permanente Server. Sie wissen, welche ich meine. Die „Proof of Concept“-Entwicklungsbox, die aus ausgemusterter Hardware zusammengebastelt wurde und plötzlich als „Produktionsserver“ bezeichnet wird. Auch sie muss überwacht werden.
2. Nicht alle Dienste auf einem Host überprüfen
Wir wissen, dass die meisten Ausfälle die gesamte Anlage lahmlegen. Wenn ich aber nicht jeden Dienst auf einem Host beobachte, kann meine Website zwar laufen, aber mein FTP-Server ist ausgefallen. Am häufigsten vergesse ich, sowohl HTTP als auch HTTPS zu überprüfen. Klar, es ist derselbe „Dienst“, aber die Apache-Konfiguration ist separat, und die Firewall-Regeln sind wahrscheinlich auch separat. Vergessen Sie auch nicht die SSL-Prüfungen, getrennt von den HTTPS-Prüfungen, um sicherzustellen, dass Sie über gültige SSL-Zertifikate verfügen. Ich habe schon peinliche Anrufe bekommen, weil meine Website ausgefallen war, nur um dann festzustellen, dass das Zertifikat abgelaufen war. Ach ja … das sollte ich doch erneuern, oder?
3. Nicht oft genug prüfen
Benutzer und Chefs haben wenig Verständnis für Ausfallzeiten. Das habe ich gelernt, als ich einen billigen Überwachungsdienst mit nur 10-minütigen Prüfintervallen ausprobiert habe. Das bedeutet ein Risiko von bis zu 9,96 Minuten (ziemlich gute Rechnung, oder?), dass mein Server ausfällt, bevor ich benachrichtigt werde. Konfigurieren Sie 1-Minuten-Prüfintervalle für alle Dienste. Selbst wenn ich nicht sofort reagieren muss (z. B. ein Entwicklungsrechner, der mitten in der Nacht ausfällt), weiß ich auf 60 Sekunden genau, wann der Server ausgefallen ist. Das kann hilfreich sein, wenn ich mich später durch die Protokolle quäle, um die Ursache zu analysieren.
4. Keine Überprüfung des HTTP-Inhalts
Die Standard-HTTP-Prüfung ist gut, aber die „Standard“-Seite des Apache-Servers mit der Meldung „In Bearbeitung“ hat mir genau wie meine echte Website den 200-Antwortcode und ein grünes „PASS“ in meinem Überwachungsdienst angezeigt. Wählen Sie im Footer der Seite einen unveränderten Eintrag und führen Sie dort eine HTTP-Inhaltsüberprüfung durch. Verwenden Sie jedoch nicht den Domänennamen – dieser könnte auch auf der „Standard“-Seite erscheinen und die Prüfung dadurch weniger nützlich machen.
Es ist auch wichtig sicherzustellen, dass bestimmte Inhalte NICHT auf einer Seite angezeigt werden. Wir alle haben schon einmal eine CMS-Site besucht, auf der die nette Fehlermeldung „Verbindung zur Datenbank nicht möglich“ angezeigt wurde. Sie möchten wissen, ob das passiert.
5. Falsche Einstellung des richtigen Timeouts
Timeouts für einen Dienst sind sehr subjektiv und sollten in Ihrem Überwachungsdienst konfigurierbar sein. Web-Experten sagen mir, unsere öffentliche Website sollte in weniger als zwei Sekunden geladen werden, sonst würden unsere Besucher woanders hingehen. Wenn meine HTTP-Dienstprüfung 3,5 Sekunden dauert, sollte das als FAIL-Ergebnis gewertet und jemand benachrichtigt werden. Ebenso würde ich, wenn ich in meinem Sendmail eine 4-sekündige „Helo“-Verzögerung konfiguriert hätte, diese auf über fünf Sekunden erhöhen wollen. Zu hohe Timeouts lassen meine Performance-Probleme unbemerkt; zu niedrige Timeouts erhöhen nur meine Benachrichtigungshäufigkeit. Es kostet Zeit, diese auf Dienstebene zu optimieren.
6. Das Vergessen von DNS geht in beide Richtungen
Natürlich führe ich DNS-Checks durch, um sicherzustellen, dass meine Hostnamen zu meinen IPs aufgelöst werden, aber ich vergesse allzu oft, auch die Reverse-DNS-Einträge (rDNS) zu überprüfen. Besonders wichtig für SMTP-Dienste sind korrekt auflösende PTR-Einträge, sonst landen meine E-Mails im Spam-Ordner. Ich überwache dabei immer SPF- und DKIM-Einträge. Ihr Monitoring-Dienst kann das doch, oder?
Selbst wenn ich einen seriösen externen DNS-Dienst nutze, richte ich DNS-Checks ein, um alle NS-Einträge meiner Domains zu überwachen. Eine Fehlkonfiguration meinerseits oder der anderen kann großes Chaos verursachen.
7. Empfindlichkeit zu niedrig/hoch
Manche Server oder Dienste scheinen anfälliger für kleine Aussetzer zu sein, die zwar nicht den Server lahmlegen, aber aufgrund von Datenverkehr, Routing oder Mondphase gelegentlich zu fehlgeschlagenen Prüfungen führen können. Nichts ist ärgerlicher als eine Down-SMS um 3 Uhr morgens für einen Host, der tatsächlich nicht down ist. Manche nennen das einen Fehlalarm oder Flattern – ich nenne es lästig. Natürlich sollte ich nicht jedes Mal ausrasten, wenn ein einziger Ping im Internet verloren geht und jedes SMTP-Hallo unbeantwortet bleibt, denn dann holt mich die Realität ein und es kann zu einer gefährlicheren Situation kommen. Ich könnte versucht sein, Benachrichtigungen zu ignorieren, weil so viele Warnungen mich eigentlich nicht interessieren.
Ein guter Überwachungsdienst bewältigt dies problemlos, indem er mir erlaubt, die Empfindlichkeit jeder Prüfung anzupassen. Ist sie zu niedrig, benötigen meine Benachrichtigungen über legitime Ausfallereignisse zu lange, um mich zu erreichen. Ist sie jedoch zu hoch, werde ich mit nutzlosen Fehlalarmen überhäuft. Auch dies muss pro Dienst konfiguriert werden, und die Anpassung erfordert Zeit.
8. Die falsche Person benachrichtigen
Nichts ruiniert einen Urlaub so sehr wie eine Benachrichtigung über einen Host-Ausfall. Klar, ich habe Backup-Systemadministratoren, die mich vertreten sollten, aber ich vergesse, die PagerDuty Zeitpläne zu ändern, damit die Benachrichtigungen an sie und nicht an mich gesendet werden.
9. Falsche Auswahl des richtigen Benachrichtigungstyps
Kurz nach Punkt 8 muss geklärt werden, welche Art von Benachrichtigung gesendet werden soll. Ich habe den Fehler gemacht, E-Mail-Benachrichtigungen zu senden, wenn der E-Mail-Server ausfällt. Kritische Serverbenachrichtigungen sollten fast immer per SMS, Sprachnachricht oder permanentem Mobile Push gesendet werden.
10. Die E-Mail-Adresse des Benachrichtigungssystems nicht auf die Whitelist setzen
Kurz nach Nr. 9 (wir haben hier viele Heels) kommt die Erkenntnis, dass die E-Mail-Adresse des Überwachungsdienstes im Spam-Ordner landen könnte, wenn ich sie nicht auf die Whitelist setze.
Bonus!
11. Zu viel bezahlen
Ich habe schon Hunderte von Dollar pro Monat für einen mittelmäßigen Überwachungsdienst für ein paar Dutzend Server bezahlt. Das ist einfach nur dumm. NodePing kostet 15 Dollar pro Monat für 200 Server/Dienste im Minutentakt und ist nicht der einzige kostengünstige Überwachungsdienst auf dem Markt. Vergleichen Sie die Angebote, um einen Dienst zu finden, der Ihren Anforderungen entspricht. Kombinieren Sie ihn mit den Bereitschafts-/Übergabefunktionen von PagerDuty und Sie sind auf dem besten Weg, meine Probleme zu vermeiden, ohne Ihr letztes Hemd zu verlieren.
Genug gesagt, wahrer Gläubiger.