• PagerDuty
    /
  • Blog
    /
  • KI
    /
  • Was NVIDIA, Okta und Warner Bros. Discovery über die Skalierung von KI-Operationen über die Pilotphase hinaus gelernt haben

Blog

Was NVIDIA, Okta und Warner Bros. Discovery über die Skalierung von KI-Operationen über die Pilotphase hinaus gelernt haben

von PagerDuty 22. Dezember 2025 | 9 Minuten Lesezeit

Eine wichtige Erkenntnis aus AWS re:Invent 2025 Es hat sich eine deutliche Kluft aufgetan zwischen Teams, die noch mit KI experimentieren, und solchen, die einen messbaren Nutzen im großen Maßstab erkennen.

In zwei Sessions kamen PagerDuty -Kunden auf die Bühne, um zu erläutern, wie sie Pilotprojekte zu erfolgreichen KI-Operationen ausgebaut haben.

„Unternehmensresilienz stärken: KI und Automatisierung in der Praxis“, unter der Leitung unseres Senior Vice President of Engineering Rukmini Reddy , mit NVIDIAs Rama Akkiraju und Okta Dennis Henry , die erläuterten, wie sie die Infrastruktur aufbauen, die es KI-Agenten ermöglicht, zuverlässig zu arbeiten, wenn es darauf ankommt.

„KI-gestützte Automatisierung für moderne Betriebsabläufe“, so unser Leiter für Produktstrategie und Wachstum, Nora Jones , sprach mit dem Vizepräsidenten für Site Reliability Engineering von Warner Bros. Discovery, Tom Leaman , über die oft übersehene, aber entscheidende Bedeutung der „langweiligen“ Grundlagenarbeit, die KI-Innovationen erst möglich macht.

Hier einige der wichtigsten Erkenntnisse, die sich aus diesen Diskussionen ergaben.

Disziplin und Infrastruktur als operativer Ermöglicher

Der richtige Einsatz von KI beginnt damit, dass man für Ordnung im System sorgt: dokumentierte Systeme, klare Beziehungen und strukturierte Daten, die sowohl Menschen als auch Maschinen verstehen können.

Während der Session „KI-gestützte Automatisierung“ erklärte Tom Leaman, dass Discovery und Warner Media nach dem Zusammenschluss zu Max neun Monate Zeit hatten, eine völlig neue Streaming-Plattform zu entwickeln. Sie erstellten ein Operational Metadata Schema (OMD) – einen standardisierten Ansatz zur Katalogisierung aller Dienste und Systeme während ihres gesamten Softwareentwicklungszyklus.

„Wir katalogisieren unsere Services und Systeme… damit wir vom Zeitpunkt der Erstellung eines Repositorys an die Hierarchie der Geschäftsfunktionen über die CI/CD-Pipelines bis hin zu unserer bereitgestellten Infrastruktur, Services, Metriken, Protokollen und schließlich den in PagerDuty bearbeiteten Vorfällen leicht nachvollziehen können“, erklärte Tom.

Sie ordneten außerdem alles kritischen Nutzerabläufen (Critical User Journeys, CUJs) zu, also den Funktionen, die für Kunden tatsächlich wichtig sind, wie Videowiedergabe, Anmeldung und das Durchsuchen von Inhalten. Ziel war es, eine gemeinsame Sprache zu schaffen, mit der sowohl Menschen als auch KI arbeiten können.

„Struktur und Organisation steigern die Effizienz, nicht nur für Menschen, sondern auch für künstliche Intelligenz und Automatisierung“, bemerkte er.

Toms Team validierte die Leistungsfähigkeit der KI durch systematische Tests. Bevor sie ihren Agenten zur Schweregradklassifizierung einsetzten, testeten sie ihn anhand dutzender historischer Vorfälle, um sicherzustellen, dass er zu denselben Schlussfolgerungen wie ihre menschlichen Bediener gelangen würde.

Als Ergebnis dieser detaillierten, systematischen Arbeit:

  • Durch die Abbildung von Serviceabhängigkeiten und die intelligente Gruppierung von Warnmeldungen zur Identifizierung gemeinsamer Ursachen konnten die Unterbrechungen um 40–50 % reduziert werden.
  • Die Schweregradklassifizierung erfolgt nun automatisch dank eines gut dokumentierten Schweregradrahmens und der Validierung anhand historischer Vorfälle.
  • KI-generierte Statusaktualisierungen ermöglichen es den Betreibern, sich auf die Schadensbegrenzung zu konzentrieren, wobei die Nutzerwege im Voraus abgebildet werden, sodass die KI versteht, welche Dienste die Kunden tatsächlich beeinflussen.
Die Priorisierung der Befähigung

Die Befähigung im Zeitalter der KI betrifft sowohl Menschen als auch die KI-Agenten, mit denen sie arbeiten. Unternehmen müssen in die Schulung ihrer Mitarbeiter investieren und den Agenten gleichzeitig den Kontext, die Leitsysteme und die Infrastruktur bereitstellen, die für einen effektiven Betrieb erforderlich sind.

„Unternehmen, die der Schulung ihrer Mitarbeiter im Umgang mit LLMs keine Priorität einräumen, verlieren den Wald vor lauter Bäumen nicht“, sagte Dennis Henry von Okta in der von Rukmini geleiteten Session „KI und Automatisierung in Aktion“.

Befähigung, also die Vermittlung von Kenntnissen über die effektive Zusammenarbeit von Menschen mit KI-Agenten, ist von entscheidender Bedeutung.

In derselben Sitzung teilte Rama Akkiraju, die KI-Initiativen bei NVIDIA IT leitet, ein Zitat ihres CEO: Jensen Huang Das fand sie sehr treffend: „IT-Abteilungen werden zunehmend zur Personalabteilung für KI-Agenten.“

Die IT ist verantwortlich für die Einarbeitung von Mitarbeitern mit dem richtigen Unternehmenskontext, die Definition ihrer Zugriffsrechte und Handlungsbefugnisse, die Bewertung der Qualität ihrer Ergebnisse und die langfristige Pflege ihrer Zugriffsrechte und Berechtigungen.

Die Verantwortung für die Befähigung erstreckt sich auch darauf, wie Teams in der Praxis befähigt werden, KI-Systeme zu entwickeln, anzuwenden und ihnen zu vertrauen. NVIDIA hat seine sogenannte „KI-Fabrik“ entwickelt, eine Self-Service-Plattform, die den Teams die notwendigen Bausteine ​​für die effektive Arbeit mit KI bereitstellt:

  • Vorgefertigte Steckverbinder zu Protokollen, Traces, Metriken, Warnungen und Tickets
  • Sichere Datenpipelines sowohl für strukturierte als auch für unstrukturierte Informationen
  • Agentenpläne zur schnellen Zusammenstellung gängiger Arbeitsabläufe
  • Schnittstellen in natürlicher Sprache zur Plattform selbst

Wie Rama erklärte, sind ihre SRE-Teams „so sehr damit beschäftigt, die Systeme am Laufen zu halten, dass sie keine Zeit haben, einen Schritt zurückzutreten und den Prozess zu überdenken oder einige dieser Agenten zu entwickeln.“

Die „KI-Fabrik“ begegnet dieser Einschränkung, indem sie die Agentenentwicklung wiederholbar und selbstbedienbar macht, anstatt von einzelnen Teams zu verlangen, Zeit für die Entwicklung von Einzellösungen aufzuwenden.

KI in den richtigen Situationen einsetzen

Eine der praktischsten Erkenntnisse aus unserem Gespräch mit Tom von Warner Bros. Discovery war dieses einfache Rahmenkonzept, um zu wissen, wo und wie man KI einsetzen kann:

  • Automatisiere das Vertraute.
  • Das teilweise Verstandene erweitern.
  • Sorgen Sie dafür, dass die Menschen sich auf die neuen Situationen konzentrieren.

Gut verstandene Situationen Sie eignen sich hervorragend für die vollständige Automatisierung. Bei größeren Vorfällen stehen die Einsatzteams vor vorhersehbaren, aber zeitaufwändigen Aufgaben, die festgelegten Mustern folgen. Nehmen wir beispielsweise die Vorfallskommunikation.

„Diese Statusberichte sind ein allgemein anerkannter Arbeitsschritt“, erklärte Tom. Wenn ein kritischer Dienst ausfällt, benötigen die Beteiligten regelmäßige Informationen darüber, was passiert und wann das Problem voraussichtlich behoben sein wird.

„Sie wissen, dass Ihre Stakeholder alle 15 Minuten, alle 30 Minuten Nachrichten erwarten, und damit ist ein Syntheseprozess verbunden.“

Es handelt sich um eine wichtige Aufgabe, die jedoch etablierten Mustern folgt und auf bekannte Informationsquellen zurückgreift. Genau solche routinemäßigen, aber entscheidenden Aufgaben kann KI gut bewältigen, sodass sich die Ingenieure auf die eigentliche Problemlösung konzentrieren können.

In teilweise verstandene Szenarien Künstliche Intelligenz kann als Ergänzungswerkzeug glänzen. Diese Situationen erscheinen zwar vertraut, unterscheiden sich aber so stark, dass man vor dem Handeln eine menschliche Bestätigung einholen möchte.

Während eines Vorfalls erhielt Tom Warnmeldungen zu einer Funktion namens „Eingeschränkte kostenlose Nutzung“, die ihm unbekannt war. Anstatt in der laufenden Störung wertvolle Minuten damit zu verbringen, die Funktion und mögliche Auswirkungen zu recherchieren, fragte er den KI-Assistenten nach Kontextinformationen.

„Ich habe meinen praktischen Agenten kontaktiert, und er hat mir sofort einen Bericht mit Informationen zu den Funktionen erstellt“, erklärte Tom. Die KI erklärte ihm schnell, was die eingeschränkte Gratis-Version ist, wie sie funktioniert und welche Dienste sie nutzt, und lieferte ihm so den nötigen Kontext.

Neuartige Situationen erfordert die volle Führung durch einen Menschen, obwohl KI dennoch relevante Kontextinformationen liefern kann.

Dennis Henry von Okta bekräftigte diese Einschätzung während der Session „KI und Automatisierung in der Praxis“.

„LLMs sind hervorragend darin, historische Daten zu analysieren und große Datenmengen auszuwerten. Aber eines können sie erst leisten, wenn wir über AGI verfügen: Lösungen für neue und innovative Probleme finden“, sagte Dennis.

In solchen Situationen kann KI helfen, indem sie schnell relevante historische Daten, ähnliche Muster oder zugehörige Dokumente bereitstellt. Problemlösung, Entscheidungsfindung und kreatives Denken müssen jedoch weiterhin von Menschen geleistet werden. Ziel ist es, Menschen schneller bessere Informationen zur Verfügung zu stellen, damit sie sich auf ihre Kernkompetenzen konzentrieren können.

Governance in der Praxis: Erwartungen, Berechtigungen und Validierung

Mit dem Einsatz von KI-Agenten im Rahmen der Reaktion auf Sicherheitsvorfälle wird Governance für Unternehmen unerlässlich. Teams benötigen klare Standards für die Entscheidungsfindung der Agenten, strenge Kontrollen ihrer Handlungsbefugnisse und Validierungsprozesse, die Vertrauen schaffen, bevor die Agenten produktiv eingesetzt werden.

Auf die Frage in Rukminis Sessions zum Thema „KI und Automatisierung in Aktion“, wie er mit Szenarien umgehen würde, in denen zwei KI-Agenten während eines öffentlichkeitswirksamen Vorfalls unterschiedlicher Meinung sein könnten, sagte Dennis von Okta, es sei dasselbe wie bei Meinungsverschiedenheiten zwischen zwei SREs: „Sie müssen ihre Arbeit nachweisen.“

„Ich brauche dieses Konzept der Rechenarbeit, denn so würde ich mit zwei Menschen umgehen, die mir konkurrierende Theorien präsentieren. Dasselbe erwarte ich von einer KI, die mir ihre Daten präsentiert und sagt: ‚Hey, ich habe diesen Graphen von hier, diese RCA von hier und diese Spur von hier genommen, und aufgrund dieser Dinge denke ich, dass es X ist.‘“

Diese Erwartungshaltung schafft Verantwortlichkeit, doch Verantwortlichkeit allein genügt nicht. Governance erfordert auch klare Grenzen für die zulässigen Aufgaben von KI-Systemen.

„Wir dürfen niemals die Grundvoraussetzungen aus den Augen verlieren, die uns alle leiten sollten, nämlich die Sicherheit unserer Systeme und die Sicherheit unserer Daten“, sagte er.

In der Praxis verwendet sein Team standardmäßig Lesezugriff für Agenten und regelt die Genehmigung für alle Schreibvorgänge – insbesondere für destruktive Aktionen wie das Löschen von Dateien, das Beenden von Diensten oder das Zurücksetzen von Bereitstellungen.

In unserer Session „KI-gesteuerte Automatisierung“ mit Warner Bros. Discovery sagte Tom, dass sein Team umfangreiche Backtests durchführt, bevor ein Agent in Produktion geht.

„Wir haben eine Reihe verschiedener Vorfälle durchgearbeitet, die vom Kundensupport, vom Produktteam und von anderen Ingenieuren gemeldet wurden, diese in den Agenten eingespeist und anschließend validiert – kam dabei der Schweregrad heraus, auf den wir schließlich gelandet sind?“

Die Erkenntnisse aus beiden Sitzungen zeigten, dass sowohl Warner Bros. Discovery als auch Okta einen einheitlichen Ansatz für die KI-Governance verfolgen. KI-Agenten unterliegen denselben Anforderungen wie menschliche Mitarbeiter hinsichtlich der Begründung von Entscheidungen. Sie agieren jedoch innerhalb strengerer Berechtigungsgrenzen und werden vor dem Produktionseinsatz rigoros validiert.

Ein pragmatischer Fahrplan für die Skalierung von KI-Operationen

Im Verlauf der Gespräche auf der AWS re:Invent kristallisierte sich ein einheitliches Muster heraus: Organisationen, die den echten Wert von KI erkennen, streben nicht nach Autonomie um ihrer selbst willen. Sie investieren in operative Disziplin, um sowohl Menschen als auch KI-Systeme effektiv zusammenarbeiten zu lassen, und wenden klare Rahmenbedingungen an, um festzulegen, wo Automatisierung ihren Platz hat.

Das bedeutet, strukturierte Daten und wiederholbare Prozesse mit menschlichem Urteilsvermögen zu kombinieren, von Anfang an für Governance und Sicherheit zu sorgen und KI-Systeme zu validieren, bevor man ihnen in risikoreichen Umgebungen vertraut.

Die Lehre aus re:Invent ist nicht, KI schneller einzuführen, sondern überlegter. Teams, die KI den richtigen Aufgaben zuordnen, sie mit klaren Richtlinien anwenden und in die entsprechende Weiterbildung investieren, wandeln Experimente in nachhaltige operative Vorteile um.

Sehen Sie sich die vollständigen Diskussionen an: