- PagerDuty /
- Der Blog /
- Best Practices und Einblicke /
- Überwachung aufschlüsseln
Der Blog
Überwachung aufschlüsseln
Überwachung ist entscheidend für die nachhaltige Proaktivität in Ihrem ITOps Architektur. In den letzten Jahren haben wir eine explosionsartige Zunahme sowohl der Anzahl als auch der Arten von Tools erlebt, die als „Monitoring“-Tools klassifiziert werden. Diese stetig wachsende Toollandschaft hat zwar die ITOps-Transparenz deutlich erhöht, doch die Integration dieser vielfältigen Tools führt gelegentlich auch zu noch mehr Transparenz. Das Paradoxon von „Transparenz und Transparenz“ hat die Monitoring-Landschaft für viele IT-Abteilungen zu einem Dilemma gemacht, während andere ihre proaktive Problemlösung optimiert haben. Werfen wir einen Blick auf die Monitoring-Landschaft und bauen wir eine erfolgreiche integrierte Umgebung auf.
Die Überwachung lässt sich nach Werkzeugtypen aufschlüsseln:
- Anwendungsleistungsüberwachung (APM): Nur die Anwendungsschicht betrachten
- Protokollanalyse: Normalerweise auf die Infrastrukturebene ausgerichtet.
- Ausnahmeüberwachung: Einrichten von Warnungen für jeden Ausnahmeblock auf Codeebene.
- Artefaktüberwachung: Stellen Sie sicher, dass alle Artefakte und Komponenten in der Anwendung frei von Schwachstellen und aktuell sind.
- Vorfallmanagement: Integrieren Sie es in jeden beliebigen Teil des Stapels und stellen Sie sicher, dass Sie sofort wissen, wenn etwas schief geht.
Manche Tools umfassen mehrere Überwachungsarten, und manche Organisationen benötigen nur die eine oder die andere. Jede Organisation benötigt jedoch ein Vorfallmanagement, denn unabhängig von der vorgelagerten Überwachung verliert das System seinen Wert, wenn es ohne Überwachung überwacht.
Nachfolgend sind einige typische KPIs aufgeführt, die protokolliert und auf Warnmeldungen überwacht werden:
- Leistung (CPU, Festplatte, Speicher, Netzwerk, Auslastung)
- Dies ist ein kritisches Element jedes Überwachungs-Stacks und umfasst die Leistungs- und Auslastungsüberwachung kritischer Hardware wie CPU, Festplatte, Speicher und Netzwerk. Warnsignale, auf die Sie achten sollten, sind hohe Auslastung, E/A-Fehler oder vorhersehbare Fehler.
- Betriebszeit (Ressourcenverfügbarkeit, Serververfügbarkeit, Netzwerkverfügbarkeit)
- Diese Tickets haben in der Regel eine hohe Priorität, da sie darauf hinweisen, dass einer Ihrer Server, Netzwerkgeräte oder wichtigen Ressourcen nicht mehr funktioniert. Dies lässt sich einfach anhand des Netzwerkzugriffs oder der Dienstverfügbarkeit überwachen.
- Anwendungs-/Systemereignisse (Fehler, Anfragen, Warnungen, Ausfälle)
- In dieser Kategorie verfolgen Sie Fehler und Ereignisse in wichtigen Anwendungen und Systemen. Beispielsweise können Sie HTTP-Fehler und -Anfragen auf einem Webserver überwachen oder Dienste überwachen, die eine bestimmte Anwendungskomponente unterstützen.
- Sicherheit (IDS/IPS, Anmeldeinformationsverwaltung, Vorfallerkennung)
- Alles, was mit Sicherheit und Transparenz zu tun hat. Dazu gehört die Überwachung Ihrer Firewall, Ihrer Endpunkte, Verschlüsselungsdienste und anderer Sicherheitssysteme. Die Überwachung erkannter Eindringlinge und fehlgeschlagener Anmeldeversuche sind nur zwei von vielen Sicherheitswarnungen, die Sie einrichten können.
- Protokollierung (Syslog-Dienste, SNMP, Protokollaggregation, -anreicherung und -benachrichtigung)
- Dienste zur Protokollaggregation und -anreicherung. Beispiele hierfür sind das Senden von Netzwerk- und Sicherheitsbenachrichtigungen an einen Syslog-Server oder ein Drittanbietertool, um Ihre Protokolldaten anzureichern und datengesteuerte Warnungen zu generieren.
Lärm ist der Feind
In jeder IT-Abteilung, ob intern oder als Berater, ist Lärm der Feind. Das ist allgemein anerkannt. Zeit ist unser kostbarstes Gut, und sobald wir unseren Tag mit reaktiver Brandbekämpfung verbringen, müssen wir darüber nachdenken, wie uns eine Optimierung der Überwachungs- und Warnprozesse hätte retten können. Der erste Schritt dazu ist die Sicherstellung einer grundlegenden Überwachungsstrategie. Dazu gehört die Einrichtung einer Vorfallverfolgung für geschäftskritische Stack-Dienste mit hohen SLAs wie Netzwerkverkehr, Serververfügbarkeit, Anwendungsverfügbarkeit, Sicherheitsdienste und Ressourcenauslastung. Sobald diese grundlegende Ebene geschaffen ist, erhalten ITOps-Teams die Transparenz und die entscheidenden Erkenntnisse, um Produkt-SLA-Verstöße zu verhindern.
Die meisten verfügbaren Tools und Systeme verfügen über vorgefertigte Vorlagen, die die Wiederaufnahme der Produktion dieser kritischen Dienste erleichtern. Die Konfiguration geeigneter Schwellenwerte und Vorfallprioritäten ist jedoch entscheidend für eine geringere Störgeräuschreduzierung und höhere Transparenz. Die Konfiguration der Schwellenwerte für CPU, Festplatte, Arbeitsspeicher und Netzwerk entsprechend Ihren ITOps-Anforderungen erfordert einiges Fingerspitzengefühl. Entscheidend ist, diese Schwellenwerte so festzulegen, dass Ihr Team rechtzeitig vorgewarnt ist, um auf Probleme zu reagieren und Vorfälle mit hoher Priorität zu identifizieren.
Sobald das grundlegende Überwachungsframework konfiguriert ist, können intelligentere Service-Überwachungsfunktionen wie Protokollanalyse, Anwendungseinblicke, Betriebsinformationen und Angriffserkennung genutzt werden. Tools wie Splunk können ITOps- und SecOps-Teams umfassende plattformübergreifende Einblicke liefern. Tools wie Rollbar und Errorception helfen Entwicklerteams, Einblicke in Anwendungen zu gewinnen, indem sie Vorfälle für Codefehler generieren. Darüber hinaus können Tools von Rapid7, AlienVault und Threat Stack die Sicherheitsüberwachung und Bedrohungsinformationen optimieren. Unabhängig davon, welches Toolset am besten zu Ihrer Umgebung passt, bleiben die Ziele dieselben: Reduzierung des Alarmrauschens und Beschleunigung der mittleren Zeit bis zur Problemlösung (MTTR).
Zeit, aktiv zu werden
Mit einer soliden Monitoring-Grundlage können wir uns nun auf die Handlungsmöglichkeit konzentrieren. Wie setzen wir Warnmeldungen in Maßnahmen um, insbesondere wenn wir mehrere Tools nutzen, um ein umfassenderes Monitoring-Profil zu erhalten? An diesem Punkt werden die Warnmeldungen mehrerer Monitoring-Tools zu einem Vorfallmanagement-Plattform kann sich enorm auszahlen. Incident-Management-Plattformen wie PagerDuty können nicht nur kritische IT-Dienste vernetzen, sondern auch die generierten Ereignisdaten erfassen und sofort die richtigen Teams rekrutieren und benachrichtigen. Incident-Management-Plattformen wandeln die von Ihren Überwachungssystemen verursachten Probleme in Warnmeldungen und Incidents um. Darüber hinaus ermöglichen automatisierte Eskalationsrichtlinien Ihrem Team eine schnelle und effiziente Lösung des Incidents, indem sie sicherstellen, dass ein Responder das Problem löst. Dies ist der entscheidende Punkt, an dem Sie den ROI Ihrer Überwachungstools maximieren.
Schritte zum Abbau der Überwachung
- Stiftung: Grundlegende und erweiterte Vorfallerkennung
- Anreicherung: Deduplizierung, Schwellenwertbildung und Priorisierung
- Handlungsfähigkeit: Benachrichtigung und Alarmierung
- Erfolg: Erhöhte betriebliche Agilität und reduzierte MTTR
Mit einem soliden Überwachungsrahmen verfügt ITOps über die Tools und Transparenz, um proaktiv zu agieren und schneller auf Vorfälle zu reagieren. Ziel ist es nicht, ITOps mit Warnmeldungen zu überfluten, sondern kritische Warnmeldungen zu generieren und zu erkennen, die sofortiges Handeln erfordern.
Lärm kostet Geld – in Form von Personalkosten, Produktivitätsverlusten, Ausfallzeiten und sogar Umsatzeinbußen. Mit dem richtigen Monitoring-Framework und einer Incident-Management-Plattform, die zentralisiert, klassifiziert und bereichert Veranstaltungen Sie können das Paradoxon „Sichtbarkeit und Lärm“ vermeiden.