PagerDuty
/
Der Blog
/
Vorfallmanagement und -reaktion
/
Silos aufbrechen: Daten zwischen Anbietern korrelieren

Der Blog

Silos aufbrechen: Daten zwischen Anbietern korrelieren

von Chris Riley 21. Februar 2017 | 5 Minuten Lesezeit

Dank der DevOps-Bewegung verstehen wir jetzt, warum Softwarelieferketten Die aus einer Reihe von Silos bestehen, sind schlecht. Sie erschweren die Kommunikation zwischen verschiedenen Teams und führen zu Lieferverzögerungen, Rückverfolgungen und Fehlern.

Beim Incident Management gibt es noch eine weitere Art von Silos, mit denen man sich auseinandersetzen muss: die Art, die Incident-Management-Daten von einem Anbieter oder Produkt zum anderen trennt. Diese Silos erschweren die Incident-Lösung, da sie das Sammeln und Analysieren von Überwachungsdaten aus mehreren Quellen erschweren.

Wie können Sie diese Silos aufbrechen, um einen effizienten Ablauf des Vorfallmanagements aufrechtzuerhalten?

Identifizieren Sie die Silos

Der erste Schritt bei der Überwindung von Silos im Vorfallmanagement besteht darin, zu verstehen, warum Silos überhaupt existieren.

Der Grund ist einfach: Moderne Infrastruktur besteht aus unterschiedlicher Hard- und Software. Die meisten Komponenten haben spezielle Überwachungsanforderungen. Sie geben Informationen in einem bestimmten Format und Rhythmus aus und erfordern eine bestimmte Datenerfassung. Die Überwachungsinformationen der einzelnen Infrastrukturkomponenten befinden sich daher isoliert, da sie nicht ohne Weiteres mit Daten aus anderen Infrastrukturkomponenten vergleichbar sind.

Als einfaches Beispiel nehmen wir ein Rechenzentrum mit zehn Bare-Metal-Servern unter Windows und zehn weiteren unter Linux. In diesem Szenario benötigt das Unternehmen unterschiedliche Überwachungstools für seine Windows- und Linux-Server. Obwohl einige Überwachungsinformationen für beide Betriebssystemtypen (z. B. ob der Host aktiv ist) identisch sind, sind andere Daten unterschiedlich. In jedem Fall müssen die Daten mit Tools erfasst werden, die mit dem jeweiligen Betriebssystem kompatibel sind. Jeder Kontext wird somit zu einem eigenständigen Silo mit einem eigenen Miniatur-Ökosystem. Überwachungstools und Daten .

Dies ist übrigens nur ein einfaches Beispiel. In den meisten realen Umgebungen ist die Situation viel komplizierter: Sie müssen nicht nur zwei verschiedene Arten von Bare-Metal-Servern überwachen, sondern auch virtuelle Server, die auf einem oder mehreren Hypervisoren laufen, Workstations mit unterschiedlichen Desktop-Betriebssystemen und mobile Geräte mit einer Vielzahl von mobilen Betriebssystemen, Versionen usw.

Silos aufbrechen

Wie beseitigen Sie die Silos, die die einzelnen Überwachungskontexte innerhalb Ihrer Infrastruktur trennen, um nahtlose und ganzheitliche Überwachungstransparenz ? Die Lösung besteht aus zwei Teilen.

Schritt 1: Zentralisieren Sie die Datenerfassung

Der erste Schritt besteht darin, eine Incident-Management-Lösung zu implementieren, die Informationen aus verschiedenen Umgebungen sammelt und an einen zentralen Ort weiterleitet. Auf diese Weise können Ingenieure die gesamte Infrastruktur überwachen von einem einzigen Aussichtspunkt aus. Sie müssen nicht in einzelne Silos schauen, um verschiedene Teile der Infrastruktur zu überwachen.

Die zentralisierte Datenerfassung erfordert eine Incident-Management-Lösung, die intelligent genug ist, um Überwachungsinformationen aus verschiedenen Quellen zu aggregieren. Dies ist keine triviale Aufgabe; die Unterstützung einer Vielzahl von Umgebungen und Endpunkten erfordert Integration mit vielen verschiedenen Arten von Überwachungssystemen , manchmal sogar Sonderwerkzeuge.

Schritt 2: Übersetzen der Daten

Der zweite Schritt wird leicht übersehen. Neben der Aggregation von Daten aus zahlreichen Überwachungstools und deren zentraler Bereitstellung müssen Incident-Management-Teams alle Daten auch in ein einheitliches Format übertragen.

Nur durch Datenkonvertierung kann sichergestellt werden, dass jeder Ingenieur Warnmeldungen aus jeder Quelle interpretieren und darauf reagieren kann. Ohne Datenkonvertierung müssten Ingenieure über spezielles Fachwissen zu einem bestimmten Überwachungssystem verfügen oder das Schema eines bestimmten Anbieters kennen, um die Daten dieses Systems zu verstehen. Die zentrale Bereitstellung aller Daten würde daher kaum zum Abbau von Silos beitragen, da weiterhin hohe Barrieren zwischen verschiedenen Überwachungskontexten bestehen würden.

Betrachten wir zum Beispiel die verschiedenen Möglichkeiten, Zabbix Und Nagios Verwenden Sie den Begriff „Alias“. Im ersteren Überwachungssystem dient ein Alias im Wesentlichen als Abkürzung für jede Art von Konfigurationsbegriff. Bei Nagios hingegen ist ein Alias ein bestimmter Name für einen Host. Seine Bedeutung ist spezifischer. Wenn Sie diesen Unterschied nicht verstehen und Daten von Zabbix- und Nagios-Systemen in einem zentralen Dashboard aggregiert sehen, kann dies leicht verwirrend sein.

Für ein effektives Incident Management benötigen Sie eine Lösung, die anbieter- und plattformspezifische Terminologie in eine einheitliche Sprache übersetzt. Nur mit der Ereignisnormalisierung, wie sie durch die PagerDuty Allgemeines Ereignisformat , können die Antwortenden Daten aus mehreren Quellen einfach und genau interpretieren.

Die Komplexität moderner Infrastrukturen erschwert die Vermeidung von Silos. Das bedeutet jedoch nicht, dass Überwachungsinformationen in diesen Silos verbleiben müssen, denn Informationen sind nur dann nützlich, wenn sie verstanden und umgesetzt werden können. Durch die Zusammenführung von Überwachungsinformationen aus verschiedenen Quellen und deren Übersetzung in eine für alle Bereitschaftsteams verständliche Sprache können Incident-Management-Teams die Silos in ihrer Infrastruktur aufbrechen. Sie profitieren dann von nahtloser Kommunikation und einer flexiblen Echtzeitreaktion auf Vorfälle.

^{Dunatov, Devin. „Speeding.“ 17. Juli 2012. Online-Bild. https://www.flickr.com/photos/ddunatov/7588797542 >}

Vorfallmanagement Überwachung

Das könnte Ihnen auch gefallen ...

KI , Ankündigungen , Automatisierung , Digitale Operationen , Vorfallmanagement und -reaktion , Operations Cloud
PagerDuty + Microsoft Build 2025: Kritische Arbeit mit KI und Automatisierung transformieren

Vorfallmanagement und -reaktion , Integrationen
Wie PagerDuty Checkout.com dabei hilft, die DORA-Konformität zu erreichen: Ein Gespräch mit Andy White

Best Practices und Einblicke , Vorfallmanagement und -reaktion
Wie sollten Sie Ihre Mitarbeiter für die Bereitschaft entschädigen?