Was ist ein NOC?
Ein Network Operations Center (NOC) ist der zentrale Standort (im Unternehmen oder virtuell) für das Netzwerkteam eines Unternehmens. Dieses Team überwacht typischerweise Netzwerke, Server, Anwendungsinfrastruktur, Cloud-Nutzung und mehr auf Ereignisse, die zu Serviceverschlechterungen oder -unterbrechungen für Kunden und Nutzer führen und somit Risiken und Kosten für das Unternehmen bedeuten können.
Zu den Aufgaben des NOC gehören häufig:
- Sie sind rund um die Uhr verfügbar und arbeiten je nach Geschäftszeiten in der Regel in 2-3 Schichten
- Achten Sie auf Anomalien, Dienstunterbrechungen und Ausfälle
- Verwalten einer Warteschlange mit Tickets von Personen, die Probleme melden
- Durcharbeiten von Runbooks zur Triage oder Lösung von Problemen
- Benachrichtigen Sie das für einen bestimmten Dienst zuständige Team, wenn ein Ausfall auftritt und das NOC ihn nicht beheben kann.
NOCs sind oft mit Experten verschiedener Ebenen besetzt. Dadurch soll sichergestellt werden, dass möglichst wenige Vorfälle an Fachexperten (SMEs) weitergeleitet werden, um die Kosten niedrig zu halten und gleichzeitig zu verhindern, dass Vorfälle Auswirkungen auf den Kunden haben.
Gängige NOC-Rollen sind:
- L0: Der Begriff „Rolle“ ist für L0 etwas irreführend. Tatsächlich sollte diese Rolle vollständig automatisiert sein und als erste Verteidigungslinie dienen, bevor ein Mensch überhaupt mit einem Problem konfrontiert wird. Dies ist möglich durch ereignisgesteuerte Automatisierung und reduziert redundante Vorfälle von Anfang an und behebt gut verständliche Probleme automatisch.
- L1: Dies ist der erste Mensch, mit dem ein Ereignis in Kontakt kommen sollte. Diese Techniker sind dafür verantwortlich, die beigefügten, vorgegebenen Runbooks abzuarbeiten, um routinemäßige und dokumentierte Probleme zu lösen.
- L2: Wenn ein L1 ein Problem nicht über ein Runbook lösen kann, übernimmt diese Person die weitere Triage und Fehlerbehebung und versucht idealerweise, das Problem mithilfe ihrer zusätzlichen Expertise zu lösen. Sie eskaliert das Problem nur dann an einen SME, wenn sie es nicht selbst lösen kann. Darüber hinaus können L2s dafür verantwortlich sein, einen schwerwiegenden Vorfall zu melden, wenn das Problem die Kriterien erfüllt.
- Direktor, VP oder CIO: Dies ist die Führung des NOC. Der Direktor ist dafür verantwortlich, dass das NOC angemessen besetzt ist, Ressourcen sinnvoll nutzt und alle Ziele und KPIs erreicht. Der VP oder CIO hat einen größeren Verantwortungsbereich als nur das NOC. Das NOC bietet jedoch eine hervorragende Gelegenheit zur Modernisierung, um das Kundenerlebnis zu verbessern, das Geschäftsrisiko zu verringern und die Betriebskosten zu senken.
Lassen Sie uns erläutern, warum dieses Team und die Aufgaben, die es übernimmt, für ein modernes Unternehmen so wichtig sind.
Bedeutung eines NOC
In der heutigen digitalen Landschaft steht das NOC unter enormem Druck, eine wachsende Anzahl geschäftskritischer Dienste kontinuierlich zu überwachen und zu warten, da die Innovationsgeschwindigkeit rasant zunimmt. Aufgrund der zunehmenden Komplexität und des enormen Datenvolumens sind gängige Praktiken eines NOC, wie der traditionelle „Command-and-Control“-Ansatz in Verbindung mit sequenziellen, oft manuellen Arbeitsabläufen, für die heutige Echtzeitwelt nicht mehr geeignet. Unter dem Motto „Mit weniger mehr erreichen“ entwickeln viele Unternehmen NOCs, um den Incident-Management-Prozess zu zentralisieren und zu standardisieren und so die Effizienz in Technologie und Teams zu steigern. Die Vorteile umfassen unter anderem weniger SLA-Strafen, geringere Risiken und Umsatzeinbußen, weniger Unterbrechungen für KMU und eine insgesamt bessere Markenreputation.
Um diesen zukünftigen Zustand zu erreichen, müssen die herkömmlichen NOCs jedoch bestimmte technische, personelle und prozessbezogene Herausforderungen bewältigen, die diesem Ziel im Weg stehen.
Die größten NOC-Herausforderungen
Angesichts der beispiellosen Komplexität muss sich das NOC transformieren, um Kundenbeeinträchtigungen zu vermeiden und Kosten und Risiken für das Unternehmen zu reduzieren. Hier sind die drei größten Herausforderungen:
Zunahme der Ereignisse/Daten: Aufgrund der zunehmenden Komplexität von Anwendungen und Diensten ist die Datenmenge, die im NOC eingeht, erheblich gestiegen. Es ist nicht mehr möglich, Behalten Sie die Augen-auf-Glas-Methoden bei Und die NOC-Techniker müssen den ganzen Tag Bildschirme beobachten, um Probleme zu identifizieren. Es gibt einfach zu viele Datenpunkte, die zusammengefasst werden müssen. Probleme bleiben unbemerkt. Das Ergebnis: Kunden erfahren schneller von Störungen als die Technikteams. Das kostet das Unternehmen Geld und schadet dem Ruf der Marke.
Manuelle Prozesse: Von der Durchführung von Diagnosen über die Suche nach dem richtigen Runbook bis hin zur Weiterleitung von Vorfällen über Catch-and-Dispatch ist das NOC voll von Prozesse, die durch Automatisierung abgewickelt werden können Ohne Automatisierung verbringen NOC-Techniker zu viel Zeit mit der Ausführung der gleichen Routineprozesse für jedes Problem, was die Behebung verzögert. Durch diese mühsame Arbeit sind Unternehmen weniger in der Lage, proaktiv auf Vorfälle zu reagieren. Außerdem gelangen mehr Probleme in die KMU, da das NOC mit der Menge der zu erledigenden Aufgaben zu kämpfen hat.
Sachverstand: NOC-Mitarbeiter kontaktieren KMU oder System-/Dienstbetreiber, wenn bei einer bestimmten Anwendung oder einem bestimmten Dienst ein Vorfall auftritt. Sie sind in der Regel keine Experten für die betroffenen Systeme oder Dienste, da sie die Anwendung oder den Dienst nicht selbst entwickelt haben. Daher kann es im Falle eines Vorfalls schwierig und kostspielig sein, manuelles Navigieren komplexer Eskalationspfade um den für einen bestimmten Dienst oder eine bestimmte Anwendung zuständigen KMU zu finden und zu kontaktieren. Dieser manuelle Eskalationsprozess verlängert die Zeit, die für die Diagnose und Lösung von Problemen benötigt wird, die Kunden aktiv betreffen.
Obwohl die Arbeitsweise traditioneller NOCs einige Herausforderungen mit sich bringt, gibt es viele Möglichkeiten, sie neu zu konzipieren, um die heutigen Echtzeitanforderungen zu erfüllen.
Bewährte Methoden für NOC
Für Organisationen, die ihr NOC aufrüsten möchten, müssen die Teams ihre Denkweise ändern und finden Möglichkeiten zur Nutzung der Automatisierung Als erste Verteidigungslinie und während des gesamten Vorfallmanagementprozesses. Hier sind einige bewährte Taktiken, wie Sie dies in jeder Phase des Vorfallmanagements umsetzen können, um ein gesünderes, produktiveres Team und ein zuverlässigeres System zu gewährleisten.
Erkennen: Stellen Sie sicher, dass alle Ihre Überwachungssysteme Ereignisse in ein zentrales System filtern. Ohne dieses zentrale System ist das Gesamtbild der Schwere eines Problems fragmentiert, sodass die Einsatzkräfte nicht wissen, wie sie es kategorisieren sollen. Da die Überwachung über eine zentrale Informationsquelle erfolgt, können NOCs sofort feststellen, was unternehmensweit priorisiert werden muss, unabhängig davon, wer für den überwachten Dienst verantwortlich ist. Befürchten Sie zusätzliches Rauschen? Nutzen Sie die Automatisierung, um redundante Warnmeldungen zu unterdrücken und zu deduplizieren, selbst über verschiedene Tools hinweg, und sorgen Sie so für ein klares Signal.
Mobilisieren: Die richtige Reaktion erfordert den richtigen Ansatz, sei es durch automatische Fehlerbehebung, L1/2-NOC-Reaktion oder Eskalation an KMU oder Major Incident Management (MIM)-Teams. Schaffen Sie eine Automatisierung, die Probleme kategorisiert und sofort an die richtige Person weiterleitet. Klare Routing-Regeln und Eskalationsrichtlinien helfen, Prozesse zu überbrücken, ohne dass Probleme übersehen werden.
Mildern: Unterscheiden Sie zwischen Problemen mit hoher und niedriger Priorität. Manche Dienste sind nicht kundenorientiert oder haben nur wenige Abhängigkeiten und können aufgrund geringerer Risiken und Auswirkungen auf das Unternehmen auf eine Antwort warten. Ermöglichen Sie automatische Fehlerbehebung, um kundenorientierte Probleme bei gut verständlichen Problemen zu vermeiden. Erstellen Sie Runbooks für Routineprobleme, die eine Reaktion des NOC erfordern, um die Problembehebung so effizient wie möglich zu gestalten. Stellen Sie sicher, dass diese Runbooks werden automatisch ausgefüllt und decken Sie MIM-Kriterien und -Praktiken ab (oder noch besser, automatisieren Sie diese Kriterien), sodass das Major Incident Management bei Bedarf sofort eingeleitet werden kann.
Lösen: Überlassen Sie Maschinen die Arbeit, die sie erledigen können, und binden Sie Menschen nur dann in die Problemlösung ein, wenn die Automatisierung dies nicht mehr kann. Verwenden Sie Runbooks, um Eskalationen gering zu halten, und legen Sie Kriterien fest, wann eine Eskalation erforderlich ist. Versorgen Sie Ihre Einsatzkräfte sofort mit den richtigen Informationen. Nutzen Sie Automatisierung, um Diagnosen abzurufen und kontinuierlich zu aktualisieren, sowie künstliche Intelligenz (KI), um relevante historische Daten wie verwandte oder vergangene Vorfälle und deren Lösungswege abzurufen.
Dokumentieren: Integrieren Sie das System in das übrige technische System des Unternehmens, beispielsweise in Datenerfassungssysteme wie JIRA oder ServiceNow. Dies sind gängige Tools, auf die NOCs angewiesen sind, um Daten abzurufen oder dorthin zu übertragen. Stellen Sie sicher, dass diese Tools für die vom NOC verantwortlichen Dienste hinzugefügt werden, damit alle Daten bei Bedarf verfügbar sind. Automatisieren Sie die Aktualisierung, ohne dass ein Mensch Daten eingeben muss.
Lernen: Führen Sie Nachbesprechungen durch, um zu erkennen, was bei der Reaktion gut lief und was besser hätte laufen können. Nutzen Sie diese Lernmöglichkeiten, um neue Automatisierungen zu entwickeln, die den Einsatzkräften helfen, schneller zu reagieren und den Arbeitsaufwand zu reduzieren. Dieser Feedback-Zyklus ist wichtig, da er direkte Auswirkungen auf Kunden und Unternehmen hat. Die Reduzierung wiederkehrender Vorfälle senkt Risiken und Kosten für das Unternehmen erheblich und verbessert die Arbeitsmoral.
Bedenken Sie, dass diese Best Practices nicht über Nacht umgesetzt werden können. Diese Empfehlungen verbessern zwar die Reaktionsfähigkeit des NOC, die Fehlersuche und -behebung sowie die ganzheitliche Lösung von Vorfällen, sollten aber mit Bedacht betrachtet und durch Dokumentation formalisiert werden.