Die Zukunft des NOC

von David Hayes 21. November 2017 | 5 Minuten Lesezeit

Einer der größten Vorteile der Arbeit bei PagerDuty ist, dass unsere Kunden Unsere Nutzer, unsere Fürsprecher und unsere Käufer sind ein und dieselbe Person. Mit dem diesjährigen Vorstoß in Reaktion auf Großereignisse Wir haben viel Zeit damit verbracht, mit Network Operation Centers (NOCs) darüber zu sprechen, was die Zukunft für sie bereithält.

Jeder Beruf verändert sich mit neuen Technologien – manche, wie der Fernverkehr, werden dadurch komplett umgekrempelt. selbstfahrende Lkw — aber nach all den Gesprächen, die wir mit der die besten NOCs in der Umgebung Es sieht so aus, als ob ihre Entwicklung zwar bedeutend, aber beherrschbar sein wird.

Ich habe PagerDuty immer als hilfreich für die Verkürzung der durchschnittlichen Beförderungszeit betrachtet. In diesem Sinne präsentiere ich Ihnen hier einige mögliche Zukunftsszenarien für NOCs.

Site Reliability Engineer

Einer der direktesten Wege führt über die Ausbildung zum Site Reliability Engineer (SRE).

Wenn Sie in diesem Bereich arbeiten möchten, benötigen Sie alle Problemlösungsfähigkeiten eines Systemadministrators, ergänzt durch … tiefes Verständnis der Überwachung Das Ziel eines SRE (Site Reliability Engineer) ist es, Fehler zu erkennen, bevor sie sich zu Problemen entwickeln, die für die Nutzer spürbar werden. Und wenn das nicht gelingt, setzen SREs alles daran, den Betrieb schnellstmöglich wiederherzustellen. SRE-Stellen sind häufig bei großen Cloud- oder Online-Unternehmen wie Amazon, Google, Heroku und sogar Etsy zu finden. Kunden sind oft verärgert, wenn sie nicht sofort einkaufen können, und SREs sorgen dafür, dass dies auch gelingt.

SREs halten die Welt online (zugegeben, das ist eine große Herausforderung). Als SRE arbeiten Sie in einem Team, um den Bedarf vorherzusagen und Maßstab bauen Site Reliability Engineering (SRE) ist die Kunst, dem Nutzer die Anstrengungen des Unternehmens so unauffällig wie möglich zu gestalten. Man arbeitet daran, stets ausreichende Kapazität, Verfügbarkeit, Datenvolumen und Überwachung zu gewährleisten, damit keine unbemerkten Systemausfälle auftreten.

Statt Brände zu bekämpfen, sollten Sie Bauinspektor werden und breitere Flure, nach außen öffnende Türen und mehrere Treppenhäuser (im übertragenen Sinne) planen. Es mag heldenhaft wirken, mit Feuerwehraxt und Schlauch Türen einzureißen und Brandausbrüche zu bekämpfen, aber es ist besser, solche Heldentaten gar nicht erst nötig zu haben, wenn man kluge Richtlinien für Baumaterialien und Gebäudesprinkler hat.

Der operative Bereich wird zur Qualitätssicherung.

Historisch gesehen hatte die Qualitätssicherung (QS) in Softwareunternehmen einen ungerechtfertigten Ruf. Tatsächlich gibt es viele großartige Unternehmen wie Microsoft, in denen es einen parallelen Karriereweg für Softwareentwicklungsingenieure im Testbereich gibt ( SDET Klicktests sind längst zu automatisierten Unit-Tests geworden, die jetzt automatisierte Klick- und API-Tests gegen den Staging-Server sind.

Betrieb und Qualitätssicherung sind die formalisierte Formalisierung von: „Oh je! Etwas ist kaputt.“ Wenn Sie ein solides QA-Team haben, das die Dinge vor der Bereitstellung testet, gibt es weitaus weniger Probleme. weniger unerwartete Stromausfälle Wenn Sie einen haben Operationsteam Sie entwerfen und bauen Dinge mit Bedacht und berücksichtigen dabei Risiken und Leistung, anstatt sie einfach zu installieren und darauf zu hoffen, dass alles reibungslos funktioniert.

Im Kern DevOps Bei Operations geht es darum, Server oder Container so zu gestalten, dass sie die „drei R-Anforderungen“ erfüllen:

  • Zuverlässig: bleibt aktiv oder geht elegant in etwas anderes über.
  • Austauschbar: Sie können ohne besondere Schritte eine neue Serverinstanz starten.
  • Routine: Die Bereitstellung und Außerbetriebnahme von Servern sollte so einfach sein, dass man dafür ein Webformular erstellen kann.

Für mich klingt das auch sehr nach Qualitätssicherung.

DevOps bedeutet, dass Sie, wenn etwas schiefgeht und Sie davon aufwachen, die Möglichkeit haben, den Test zu schreiben, der sicherstellt, dass es nie wieder in die Produktion gelangt – Sie sind bereits der beste Teil der Qualitätssicherung.

Wenn Sie besser werden in Vermeidung von Ausfallzeiten Durch die Behebung von Ausfällen und die Optimierung von Anfragen lässt sich das Volumen leichter skalieren, da keine Einzelanfragen mehr bearbeitet werden müssen. Stellen Sie sich den Unterschied vor: Manuelles Zurücksetzen von Benutzeranmeldungen und ein automatisiertes System dafür. Der Zeitaufwand für die Behebung von Anmeldeproblemen mag gleich sein, aber Sie können zehn- bis zwanzigmal so viele Benutzer betreuen.

NOC als zentraler Anlaufpunkt für die gesamte Technologie

Eines meiner liebsten Network Operations Center (NOCs), das ich besucht habe, ist das eines Telekommunikationsunternehmens in Los Angeles – ein klassisches NOC mit ungewöhnlichem Flair. Ausgehend von der riesigen Wand mit Dashboards ist der Raum in Reihen angeordnet, wobei jede Reihe eine Beförderung innerhalb der Betriebsorganisation symbolisiert. Beförderungen erfolgen im Durchschnitt alle sechs bis zwölf Monate, mit klar definierten Meilensteinen. Man kann in der letzten Reihe (quasi als SRE) landen oder in andere Bereiche des Unternehmens aufsteigen. Angesichts der vielen Unternehmen, die heutzutage den Fachkräftemangel beklagen, gehe ich davon aus, dass dies in Zukunft häufiger vorkommen wird.

Bei PagerDuty behandeln wir unser Support-Team ganz ähnlich: Mitarbeiter unserer Support-Organisation haben sich nicht nur zu Managern oder in technischeren Positionen innerhalb dieser Organisation weiterentwickelt, sondern sind auch in die Entwicklungs-, Marketing- und Vertriebsteams gewechselt, und ich sehe keine Anzeichen dafür, dass sich das ändern wird (was es uns natürlich erleichtert). um großartige Mitarbeiter einzustellen )

Veränderung ist nicht immer schlecht, aber sie kommt immer

Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen; doch klar ist, dass die Zukunft des Network Operations Centers (NOC) nicht darin besteht, dass Menschen vor Bildschirmen sitzen und darauf warten, Knöpfe zu drücken. Für viele Anwendungen, die permanent laufen, wird es weiterhin sinnvoll sein, die Mitarbeiter einsatzbereit zu halten – die Frage ist nur, wie man die restlichen 99 % ihrer Zeit nutzt.

Das NOC hat sich in den letzten Jahren stark verändert und wird dies auch weiterhin tun. Wer sich an die sich wandelnde digitale Landschaft anpasst, wird sich die besten Chancen auf Erfolg sichern, und wir freuen uns darauf, diesen Übergang gemeinsam mit Ihnen zu gestalten.