Was ist ein NOC?
Ein Network Operations Center (NOC) ist der zentrale Standort (vor Ort oder virtuell) für das Netzwerkteam eines Unternehmens. Dieses Team überwacht typischerweise Netzwerke, Server, Anwendungsinfrastruktur, Cloud-Nutzung und vieles mehr auf Ereignisse, die zu Servicebeeinträchtigungen oder -ausfällen für Kunden und Benutzer führen und somit Risiken und Kosten für das Unternehmen verursachen können.
Zu den Aufgaben des NOC gehören häufig:
- 24/7 verfügbar sein und in der Regel je nach Geschäftszeiten in 2-3 Schichten arbeiten.
- Auf Anomalien, Serviceunterbrechungen und Ausfälle achten
- Verwaltung einer Warteschlange von Tickets, die von Nutzern mit Problemen gemeldet werden
- Durchgehen von Runbooks zur Priorisierung und Behebung von Problemen
- Das für einen bestimmten Dienst zuständige Team wird benachrichtigt, wenn ein Ausfall auftritt und das NOC das Problem nicht beheben kann.
NOCs sind häufig mit Mitarbeitern verschiedener Qualifikationsstufen besetzt. Dadurch soll sichergestellt werden, dass möglichst wenige Vorfälle an Fachexperten eskaliert werden müssen, um die Kosten niedrig zu halten und gleichzeitig zu verhindern, dass Vorfälle Auswirkungen auf den Kunden haben.
Gängige NOC-Rollen sind:
- L0: Die Bezeichnung „Rolle“ für L0 ist etwas irreführend. Tatsächlich sollte diese Rolle vollständig automatisiert sein und als erste Verteidigungslinie dienen, bevor ein Mensch überhaupt mit einem Problem in Berührung kommt. Dies ist möglich durch ereignisgesteuerte Automatisierung und reduziert redundante Vorfälle von vornherein und behebt bekannte Probleme automatisch.
- L1: Dies ist die erste Person, mit der ein Ereignis in Kontakt kommen sollte. Diese Ingenieure sind dafür verantwortlich, anhand beigefügter, vordefinierter Handbücher routinemäßige und dokumentierte Probleme zu beheben.
- L2: Kann ein L1-Mitarbeiter ein Problem nicht mithilfe eines Runbooks lösen, übernimmt er die weitere Fehleranalyse und -behebung und versucht idealerweise, das Problem mit seinem Fachwissen zu lösen. Er eskaliert das Problem nur dann an einen Fachexperten, wenn er es selbst nicht beheben kann. Darüber hinaus kann ein L2-Mitarbeiter einen schwerwiegenden Vorfall auslösen, wenn das Problem die entsprechenden Kriterien erfüllt.
- Direktor, Vizepräsident oder CIO: Dies ist die Leitung des NOC. Der Direktor ist dafür verantwortlich, dass das NOC angemessen besetzt ist, Ressourcen effizient einsetzt und alle Ziele und KPIs erreicht werden. Der Vizepräsident oder CIO hat einen umfassenderen Verantwortungsbereich als nur das NOC. Das NOC bietet jedoch eine hervorragende Möglichkeit zur Modernisierung, um bessere Kundenerlebnisse zu erzielen, das Geschäftsrisiko zu minimieren und die Betriebskosten zu senken.
Lassen Sie uns darauf eingehen, warum dieses Team und die von ihm übernommenen Aufgaben für ein modernes Unternehmen so wichtig sind.
Bedeutung eines NOC
In der heutigen digitalen Welt steht das Network Operations Center (NOC) unter enormem Druck, eine stetig wachsende Anzahl geschäftskritischer Dienste zu überwachen und aufrechtzuerhalten, während sich Innovationen rasant weiterentwickeln. Aufgrund dieser zunehmenden Komplexität und des schieren Datenvolumens sind gängige NOC-Praktiken wie der traditionelle „Command-and-Control“-Ansatz in Verbindung mit sequenziellen, oft manuellen Arbeitsabläufen für die heutige Echtzeitwelt nicht mehr geeignet. Angesichts der Notwendigkeit, mit weniger Ressourcen mehr zu erreichen, entwickeln viele Unternehmen ihre NOCs weiter, um das Incident-Management zu zentralisieren und zu standardisieren und so die Effizienz in Technologie und Teams zu steigern. Zu den Vorteilen zählen unter anderem weniger SLA-Strafen, geringeres Risiko und Umsatzeinbußen, weniger Unterbrechungen für KMU und eine insgesamt bessere Markenreputation.
Um diesen zukünftigen Zustand zu erreichen, müssen die etablierten NOCs jedoch bestimmte technische, personelle und prozessuale Herausforderungen bewältigen, die dem im Wege stehen.
Die größten Herausforderungen für NOCs
Angesichts der beispiellosen Komplexität muss sich das NOC transformieren, um Auswirkungen auf die Kunden zu vermeiden und Kosten und Risiken für das Unternehmen zu reduzieren. Hier sind die drei größten Herausforderungen, die sich ihm in den Weg stellen:
Zunahme von Ereignissen/Daten: Aufgrund der gestiegenen Komplexität von Anwendungen und Diensten hat die Datenmenge, die im NOC ankommt, erheblich zugenommen. Es ist nicht mehr möglich, Methoden zur Aufrechterhaltung der Blickrichtung auf die Brille Und so müssen NOC-Ingenieure den ganzen Tag Bildschirme überwachen, um Probleme zu identifizieren. Es gibt einfach zu viele Datenpunkte, um sie auszuwerten. Probleme bleiben unentdeckt. Die Folge: Kunden erfahren schneller von Störungen als die technischen Teams, was dem Unternehmen Geld kostet und dem Markenimage schadet.
Manuelle Prozesse: Von der Durchführung von Diagnosen über die Suche nach dem richtigen Betriebshandbuch bis hin zur Weiterleitung von Vorfällen über das Catch-and-Dispatch-Verfahren – das NOC ist voll davon. Prozesse, die automatisiert werden können Ohne Automatisierung verbringen NOC-Ingenieure zu viel Zeit mit der Bearbeitung derselben Routineprozesse für jedes Problem, was die Behebung verzögert. Durch diese Zeitverschwendung können Unternehmen weniger proaktiv auf Vorfälle reagieren, und immer mehr Probleme werden an Fachexperten weitergegeben, da das NOC mit dem Arbeitsvolumen überfordert ist.
Sachverstand: Die Mitarbeiter des NOC kontaktieren Fachexperten oder System-/Dienstverantwortliche, wenn es bei einer bestimmten Anwendung oder einem Dienst zu einer Störung kommt. Sie verfügen in der Regel nicht über tiefgreifende Fachkenntnisse der betroffenen Systeme oder Dienste, da sie diese nicht selbst entwickelt haben. Daher kann die Behebung einer Störung schwierig und kostspielig sein. Manuelle Navigation durch komplexe Eskalationspfade Um den für einen bestimmten Service oder eine bestimmte Anwendung zuständigen Fachexperten zu finden und zu kontaktieren, ist ein manueller Eskalationsprozess erforderlich. Dieser verlängert die Zeit, die für die Diagnose und Behebung von Problemen benötigt wird, die Kunden aktiv betreffen.
Obwohl die Arbeitsweise traditioneller NOCs mit einigen Herausforderungen verbunden ist, gibt es viele Möglichkeiten, sie neu zu gestalten, um den heutigen Echtzeit-Anforderungen gerecht zu werden.
NOC-Best Practices
Organisationen, die ihr Network Operations Center (NOC) modernisieren möchten, müssen ihre Denkweise ändern und die richtigen Lösungen finden. Möglichkeiten zur Nutzung der Automatisierung Als erste Verteidigungslinie und während des gesamten Vorfallmanagementprozesses. Hier sind einige bewährte Taktiken, wie dies in jeder Phase des Vorfallmanagements gelingen kann und die zu einem gesünderen, produktiveren Team und einem zuverlässigeren System führen.
Erkennen: Stellen Sie sicher, dass alle Ihre Überwachungssysteme Ereignisse in einem zentralen System filtern. Ohne dieses zentrale System ist das Gesamtbild der Schwere eines Problems fragmentiert, und die Einsatzkräfte wissen nicht, wie sie es kategorisieren sollen. Durch die Überwachung über eine einzige Datenquelle können NOCs sofort feststellen, was im gesamten Unternehmen priorisiert werden muss, unabhängig davon, wer für den überwachten Dienst verantwortlich ist. Besorgt über zusätzliche Meldungen? Nutzen Sie Automatisierung, um redundante Warnmeldungen auch über verschiedene Tools hinweg zu unterdrücken und zu deduplizieren, um ein eindeutiges Signal zu erhalten.
Mobilisieren: Die richtige Reaktion erfordert den richtigen Ansatz, sei es durch automatische Fehlerbehebung, Unterstützung durch das L1/2 NOC oder Eskalation an Fachexperten oder das Major Incident Management (MIM). Automatisierte Prozesse kategorisieren und leiten Probleme umgehend an die zuständige Person weiter. Klare Routing-Regeln und Eskalationsrichtlinien helfen, Prozesse zu optimieren und zu verhindern, dass Probleme übersehen werden.
Mildern: Unterscheiden Sie zwischen Problemen mit hoher und niedriger Priorität. Einige Dienste sind nicht kundenorientiert oder haben wenige Abhängigkeiten und können daher auf eine Antwort warten, da das Risiko und die Auswirkungen auf das Geschäft geringer sind. Ermöglichen Sie die automatische Behebung bekannter Probleme, um kundenbezogene Probleme zu vermeiden. Erstellen Sie Handbücher für Routineprobleme, die eine Reaktion des NOC erfordern, um die Problembehebung so effizient wie möglich zu gestalten. Stellen Sie sicher, dass diese Runbooks werden automatisch ausgefüllt und die Kriterien und Praktiken des Major Incident Management (MIM) abdecken (oder noch besser, diese Kriterien automatisieren), damit das Major Incident Management bei Bedarf sofort eingeleitet wird.
Lösen: Lassen Sie Maschinen Aufgaben übernehmen, die sie bewältigen können, und schalten Sie Menschen nur dann ein, wenn die Automatisierung nicht weiterhilft. Nutzen Sie Einsatzpläne, um Eskalationen zu minimieren und legen Sie Kriterien für deren Einleitung fest. Stellen Sie Ihren Einsatzkräften umgehend die richtigen Informationen zur Verfügung, indem Sie Diagnosedaten automatisiert abrufen und kontinuierlich aktualisieren sowie Künstliche Intelligenz (KI) einsetzen, um relevante historische Daten wie ähnliche oder vergangene Vorfälle und deren Lösungen abzurufen.
Dokumentieren: Integrieren Sie das System in die bestehenden technischen Systeme der Organisation, wie z. B. Datenverwaltungssysteme wie JIRA oder ServiceNow. Diese Tools werden von Network Operations Centern (NOCs) häufig genutzt, um Daten abzurufen oder zu übertragen. Stellen Sie sicher, dass diese Tools für die vom NOC betreuten Dienste hinzugefügt werden, damit alle Daten bei Bedarf verfügbar sind. Entwickeln Sie außerdem Automatisierungslösungen, um die Daten ohne manuelle Eingabe zu aktualisieren.
Lernen: Führen Sie Nachbesprechungen durch, um zu ermitteln, was während des Einsatzes gut lief und was hätte verbessert werden können. Nutzen Sie diese Erkenntnisse, um neue Automatisierungslösungen zu entwickeln, die Einsatzkräften helfen, schneller zu handeln und den Arbeitsaufwand zu reduzieren. Dieser Feedback-Zyklus ist wichtig, da er sich direkt auf den Kunden und das Unternehmen auswirkt. Die Reduzierung wiederkehrender Vorfälle senkt das Risiko und die Kosten für das Unternehmen erheblich und verbessert die Mitarbeitermotivation.
Bedenken Sie, dass diese Best Practices nicht über Nacht umgesetzt werden können. Obwohl diese Empfehlungen die Fähigkeit des NOC verbessern, auf Vorfälle zu reagieren, sie zu analysieren und ganzheitlich zu beheben, sollten sie bewusst in Betracht gezogen und dokumentiert werden.