Der Blog

Überwachung bewährter Methoden aus IT-Ausfällen

von Vivian Au 30. September 2014 | 5 Minuten Lesezeit

Gastbeitrag von Alexis Lê-Quôc, Mitgründer und CTO von Datenhund . Datadog ist ein Überwachungsdienst für IT-, Betriebs- und Entwicklungsteams, die die riesigen Datenmengen, die von ihren Apps, Tools und Diensten produziert werden, in umsetzbare Erkenntnisse umwandeln möchten.

Datadog_Logo Bei Datenhund Wir essen unser eigenes… Hundefutter. Wir verfolgen intern Hunderttausende von Kennzahlen. Es hat einige Zeit gedauert, bis wir gelernt haben, worauf wir aufmerksam machen und was wir überwachen müssen. Nicht alle Kennzahlen sind gleich, und wir haben eine einfache Methode entwickelt, sie zu verwalten, die jeder beherrschen kann. So machen wir es.

Überwachungsziele

Warum sollten Sie Zeit in eine bessere Überwachung investieren?

  1. Um vor Ihren Kunden oder Ihrem Chef über ein Problem informiert zu sein
  2. Um zu wissen, wie Ihre Systeme und Anwendungen funktionieren
  3. Um Ihr Stressniveau zu minimieren

Klassifizieren von Metriken

Welche Metriken erfasst Ihr Monitoring-Tool? Beispiele hierfür sind: CPU-Auslastung, Speicherauslastung, Datenbank- oder Webanfragen. Das sind viele verschiedene Arten von Metriken, die sich in zwei grundlegende Metrikkategorien unterteilen lassen: Arbeit und Ressourcen.

Arbeitsmetriken
Eine Arbeitsmetrik misst, wie viel nützliches Material Ihr System oder Ihre Anwendung produziert. Beispielsweise könnten wir uns die Anzahl der Abfragen ansehen, auf die eine Datenbank antwortet, oder die Anzahl der Seiten, die ein Webserver pro Sekunde bereitstellt. Der Zweck einer Datenbank ist die Beantwortung von Abfragen. Der Zweck eines Webservers ist die Bereitstellung von Seiten. Dies sind also geeignete Arbeitsmetriken.

Eine weitere Arbeitsmetrik wäre beispielsweise, wie viel Geld Ihre Anwendung generiert. Dies ist eine sehr nützliche Arbeitsmetrik, um die Verfügbarkeit zu verfolgen und die Effektivität Ihrer Anwendung und Infrastruktur zu verstehen.

Ressourcenmetriken
Die andere Klasse sind Ressourcenmetriken. Eine Ressource wird verwendet, um etwas Nützliches zu produzieren. Man nutzt eine Ressource, um Arbeit zu erledigen. Eine Ressourcenmetrik misst also, wie viel von etwas verbraucht wird, um Arbeit zu erledigen. Die Frage „Wie viel CPU verbrauche ich in der Datenbank?“ sagt nicht viel darüber aus, ob das nützlich ist oder nicht. Sie besagt lediglich: „Ich habe noch mehr CPU zur Verfügung“ oder „Ich bin am Limit und meine CPU ist komplett ausgelastet.“ Dasselbe gilt für Speicher, Festplatte, Netzwerk usw. Generell verwende ich Ressourcenmetriken eher für die Kapazitätsplanung als für das Verfügbarkeitsmanagement.

Optimieren Sie Ihr Monitoring

Nachdem wir nun Arbeits- und Ressourcenmetriken definiert haben, können wir zu Best Practices übergehen. Klassifizieren Sie Schlüsselmetriken als Arbeit oder Ressource

1. Klassifizieren Sie wichtige Kennzahlen als Arbeit oder Ressource

Sehen Sie sich Ihre wichtigsten Kennzahlen an, insbesondere die, die Ihnen wirklich wichtig sind, und finden Sie heraus, ob es sich dabei um Arbeitskennzahlen oder Ressourcenkennzahlen handelt.

2. Warnen Sie nur bei Arbeitsmetriken

Nachdem Sie diese Klassifizierung vorgenommen haben – und es ist wirklich wichtig, sich dafür Zeit zu nehmen – müssen Sie festlegen, worüber Sie benachrichtigt werden möchten. Sie möchten nur über Arbeitsmetriken benachrichtigt werden.

Mit anderen Worten: Sie möchten über Dinge benachrichtigt werden, die messen, wie nützlich Ihr System ist.

Ich möchte erwähnen, dass es sinnvoll ist, bei bestimmten Ressourcenmetriken Warnmeldungen auszugeben, wenn diese ein Frühindikator für einen Ausfall sind. Beispielsweise ist Speicherplatz eine Ressourcenmetrik. Wenn der Speicherplatz jedoch knapp wird, kommt alles zum Stillstand. Daher ist es auch wichtig, bei diesen Metriken Warnmeldungen auszugeben. Generell sollten Warnmeldungen zu Ressourcenmetriken jedoch selten sein.

3. Warnen Sie nur bei umsetzbaren Arbeitsmetriken

Die Verbesserung gegenüber der vorherigen Best Practice besteht darin, dass Sie wirklich nur bei umsetzbaren Arbeitsmetriken Warnungen ausgeben möchten. Mit anderen Worten: Sie möchten bei Arbeitsmetriken Warnungen ausgeben, bei denen Sie etwas tun können.

Eine aussagekräftige Arbeitsmetrik für einen Webserver ist beispielsweise die Anzahl der fehlerfrei bereitgestellten Webseiten pro Sekunde. Das ist eine Arbeitsmetrik, denn wenn Sie keine Seiten bereitstellen, funktioniert Ihre Website überhaupt nicht – sie ist ausgefallen.

Eine nicht umsetzbare Arbeitsmetrik könnte die Anzahl der 404-Fehler sein, die ich pro Sekunde ausliefere. Dies ist keine umsetzbare Arbeitsmetrik, da sie vollständig davon abhängt, was die Besucher auf Ihrer Website tun. Wenn sie zu nicht existierenden URLs navigieren, werden Sie viele 404-Fehler erhalten. Das bedeutet nicht, dass es schlecht ist, sondern dass sie etwas Unerwartetes tun. Sie sollten daher keine Warnungen zu nicht umsetzbaren Arbeitsmetriken ausgeben.

4. Überprüfen Sie regelmäßig Kennzahlen und Warnmeldungen

Die vierte und vielleicht schwierigste Best Practice besteht darin, diesen Prozess regelmäßig zu überprüfen und zu iterieren. Vielleicht wöchentlich, zweiwöchentlich oder monatlich, aber Sie sollten sich unbedingt etwas Zeit in Ihrem vollen Terminkalender nehmen und mit Ihrem Team eine Überprüfung durchführen.

Zurück zu den Zielen

Lassen Sie uns nun diese Best Practices mit den ursprünglich erwähnten Zielen des Monitorings verknüpfen. Die Klassifizierung wichtiger Kennzahlen als Arbeit oder Ressource ist Voraussetzung für alles.

a. Um vor Ihren Kunden oder Ihrem Chef über ein Problem informiert zu sein

Warnen Sie nur bei Arbeitsmetriken, damit Sie sicher sein können, dass Sie keine Warnmeldungen zu Dingen ausgeben, die nicht nützlich sind, und somit ein viel besseres Ergebnis erzielen.

b. Um Ihr Stressniveau zu minimieren

Geben Sie nur Warnmeldungen zu umsetzbaren Arbeitsmetriken aus, da Sie keine Warnmeldungen zu Dingen erhalten, über die Sie keine Kontrolle haben.

c. Um zu wissen, wie Ihre Systeme und Anwendungen funktionieren

Überprüfen Sie regelmäßig Kennzahlen und Warnmeldungen, damit Sie einen guten Überblick über die Leistung Ihrer Systeme und die Trends haben und wissen, wie Sie Änderungen vornehmen können.

Nutzen Sie diese Best Practices, um Ihre Überwachungsstrategie zu verbessern, und wenn Sie bereit zur Implementierung sind, versuchen Sie es mit einem 14-tägige kostenlose Testversion von Datadog um Ihre umsetzbaren Arbeitsmetriken und alle anderen Metriken und Ereignisse aus über 80 gängigen Infrastrukturtools grafisch darzustellen und Warnmeldungen dazu bereitzustellen.