Der Blog

So verhindern Sie eine Überlastung durch Warnmeldungen

von Christopher Tozzi 22. Juni 2017 | 5 Minuten Lesezeit

In unserem Zeitalter ständiger Verfügbarkeit, IoT-Unterstützung, Cloud-Anbindung und Big Data stehen wir vor einem großen Paradoxon: Es ist heute einfacher denn je, große Datenmengen zu sammeln. Doch je mehr Daten wir sammeln, desto schwieriger wird es, Situationen effektiv zu überwachen.

Dieses Problem ähnelt dem, was Psychologen als „ Informationsüberflutung „“ – das Phänomen, das dazu führt, dass jemand keine effektiven Entscheidungen treffen kann, weil er mit zu vielen Informationen fertig werden muss.

In manchen Kontexten ist Informationsüberflutung unvermeidlich. Wenn Sie täglich Hunderte von E-Mails erhalten, können Sie möglicherweise nicht viel dagegen tun, sich davon überwältigt zu fühlen, da Sie nicht unbedingt viel Kontrolle darüber haben, wer Ihnen eine E-Mail sendet. Wenn es jedoch um die Infrastruktur von Rechenzentren geht, ist Informationsüberflutung nicht unvermeidlich. Es liegt ganz bei Ihnen, zu entscheiden, wie viel und welche Arten von Daten erfasst werden sollen Wenn Sie feststellen, dass Sie zu viele Daten haben, um sie sinnvoll zu analysieren, müssen Sie Ihre Überwachungspraktiken und Alarmfilterung überdenken.

Wie bereits erwähnt, stehen viele Administratoren vor einem schwierigen Kampf, wenn es darum geht, eine Informationsüberflutung im Rechenzentrum zu verhindern. Das liegt daran, dass die explosionsartige Zunahme der Cloud und die Aufkommen des IoT – und all die kostengünstigen Daten, die diese Trends mit sich bringen – haben es einfacher denn je gemacht, alle möglichen Informationen über Ihre Server und Anwendungen zu sammeln.

Was ist kritisch, was nicht

Deshalb ist es heute wichtiger denn je, zu entscheiden, welche Überwachungsarten Sie tatsächlich benötigen, wofür Sie Benachrichtigungen einrichten und worauf Sie verzichten können. Nur weil die Erweiterung Ihrer Infrastruktur um zusätzliche Überwachungsfunktionen einfach und kostengünstig ist, heißt das nicht, dass Sie dies unbedingt tun sollten.

Wer blindlings Überwachung einführt, schießt sich selbst ins Knie, indem er mehr Daten sammelt, als er jemals verarbeiten oder effektiv nutzen kann. Das führt zu Ermüdung der Bereitschaftsmitarbeiter, Zeitverschwendung bei Problemen mit niedriger Priorität und dazu, dass Probleme mit niedriger Priorität von den kritischen ablenken.

Erfolgreiches Alarmmanagement hängt natürlich von Ihren individuellen Anforderungen ab. Es gibt keinen allgemeingültigen Ansatz. Generell empfiehlt es sich, sich auf den Einsatz von Sensoren zu beschränken, die sich auf die folgenden Informationstypen konzentrieren:

  • Sicherheitsvorfälle: Sie möchten über Dinge wie wiederholte fehlgeschlagene Anmeldeversuche oder Port-Scans benachrichtigt werden, damit Sie Bedrohungen immer einen Schritt voraus sind.
  • Hostfehler: Wenn ein physischer oder virtueller Server nicht gestartet werden kann oder plötzlich abstürzt, ist dies ein wichtiges Ereignis, über das Sie Bescheid wissen sollten.
  • Ressourcenerschöpfung: Sie möchten nicht warten, bis der Datenspeicher oder die Netzwerkbandbreite erschöpft ist, um festzustellen, dass Sie mehr Bandbreite hinzufügen sollten. Verwenden Sie Sensoren, die Sie warnen, wenn sich die Nutzung dem verfügbaren Maximum nähert und länger als kurzzeitig auf diesem Niveau bleibt.

Auch hier kann Ihr Bedarf durchaus variieren. Die obige Liste enthält jedoch die wichtigsten Arten von Ereignissen, über die Sie benachrichtigt werden sollten.

Überwachung vs. Alarme

Es gibt weitere Datentypen, die sich gut überwachen lassen, für die aber möglicherweise kein Alarm erforderlich ist. Dazu gehören beispielsweise:

  • CPU-Auslastung: Diese kann im Tagesverlauf aufgrund verschiedener Faktoren stark schwanken. Sie möchten über allgemeine Trends informiert sein, benötigen aber keinen Alarm, der Sie jedes Mal über einen sprunghaften Anstieg der CPU-Auslastung informiert.
  • Netzwerklast:   Dies fällt in dieselbe Kategorie wie die CPU-Auslastung. Die Netzwerklast schwankt naturgemäß. Sie sollten die Trends Ihres Rechenzentrums kennen, um eine langfristige Erweiterung planen zu können. Es besteht jedoch kein Grund, Alarm auszulösen, nur weil gerade viele Geräte im Netzwerk sind – es sei denn, die Situation ist extrem und hält an.
  • Umweltbedingungen : Sie sollten beispielsweise die Temperatur im Rechenzentrum überwachen. Solche Vorfälle lassen sich jedoch in der Regel automatisiert bewältigen. Anstatt Sensoren zu verwenden, die Sie bei hohen Temperaturen warnen, können Sie Software verwenden, die die Kühlaggregate automatisch hochfährt. Sie benötigen nur dann eine Warnung, wenn die Temperatur einen kritischen Wert erreicht und dort bleibt.

Es ist durchaus möglich, dass ein durch einen Sensor ausgelöstes Problem wie die Länge der Prozessorwarteschlange leicht indirekt mit dem relevanteren Datenpunkt wie der Prozessorauslastung abgedeckt werden kann.

Die richtigen Daten für die richtigen Leute

Eine weitere Möglichkeit, optimale Ergebnisse mit Ihren Sensoren zu erzielen, besteht darin, sicherzustellen, dass die richtigen Vorfallbenachrichtigungen an die richtigen Personen gehen.

Plattformen wie PagerDuty ermöglichen es Ihnen, eine Reihenfolge für die Bearbeitung verschiedener Ereignistypen festzulegen. Anstatt Ihr gesamtes Team mit Vorfallbenachrichtigungen zu überhäufen, stellen Sie sicher, dass nur die richtigen Personen, die Probleme bearbeiten müssen, benachrichtigt werden. Dies minimiert ungeplante Arbeit und Alarmmüdigkeit bei der Beantwortung von Problemen.

Sie können PagerDuty auch so konfigurieren, dass Benachrichtigungen an eine größere Gruppe gesendet werden, wenn die ursprünglichen Empfänger nicht innerhalb einer bestimmten Zeit antworten.

Holen Sie mehr aus Protokollen heraus

Und nicht zuletzt sollten Sie bedenken, dass es viele verschiedene Möglichkeiten gibt, mit Informationen umzugehen. Eine Möglichkeit besteht darin, Warnmeldungen zu generieren. Eine andere besteht darin, Log-Analyse-Tools zu verwenden, um Trends zu erkennen, die sich über eine große Datenmenge erstrecken, die von verschiedenen Überwachungstools erfasst wird.

Indem Sie Ihre Protokollergebnisse auf das Wesentliche reduzieren, können Sie herausfinden, worauf Sie achten sollten, ohne eine große Anzahl von Ereignissen einzeln bearbeiten zu müssen.

Deshalb bietet PagerDuty Funktionen wie Integrationen mit Splunk und anderen Analysetools . Diese eignen sich ideal, um aus Überwachungsdaten einen Nutzen zu ziehen, ohne dass es zu einer Informationsüberflutung kommt.