• PagerDuty
    /
  • Blog
    /
  • KI
    /
  • Wir haben einen SRE-Agenten mit Speicher entwickelt, und er revolutioniert die Reaktion auf Sicherheitsvorfälle.

Blog

Wir haben einen SRE-Agenten mit Speicher entwickelt, und er revolutioniert die Reaktion auf Sicherheitsvorfälle.

von Julia Nasser 30. Oktober 2025 | 7 Minuten Lesezeit

Wenn Sie das Gefühl haben, dass sich Ihre Vorfälle häufen, während Ihre Systemarchitektur wöchentlich komplexer wird, sind Sie nicht allein. Die Anzahl der Ereignisse steigt stetig, Signale werden von unzähligen Tools verarbeitet, und die menschlichen Einsatzkräfte sind überlastet. Genau deshalb haben wir die PagerDuty SRE-Agent —ein herstellerunabhängiger KI-Teamkollege, der sich mit jeder Antwort verbessert, um die nächste Antwort schneller, intelligenter und zuverlässiger zu machen.

Als wir dieses Projekt begannen, arbeitete ich bei PagerDuty an verschiedenen KI-Produkten, darunter Alarmkorrelation und neuronale Netze. Uns war bewusst, wie wichtig es für unsere Kunden sein würde, ein sich kontinuierlich verbesserndes Nutzererlebnis zu bieten, aber wir hatten nicht erwartet, wie entscheidend es tatsächlich sein würde. Erinnerung Und zwar nicht irgendein Speicher, sondern die Fähigkeit, Datenpunkte systemübergreifend zu verknüpfen. Genau das macht den SRE-Agenten so hilfreich und präzise.

Kunden berichteten uns, dass die Speicherfunktion entscheidend für den Erfolg sei. Interviews brachten ein Muster ans Licht: Isoliertes Wissen war die versteckte Ursache für ihre größten Ineffizienzen. Die Vielzahl an Supportfällen, die mehrere Fachexperten einbeziehen mussten, der Zeitverlust durch die Kontextsuche und letztendlich die negativen Auswirkungen auf die Kunden – all dies ließ sich auf dieselbe Ursache zurückführen.

Datensilos und fehlende Dokumentation sind keine neuen Probleme. Doch im KI-Boom, als alle dem nächsten bahnbrechenden Modell hinterherjagten, haben wir etwas Grundlegendes vergessen: Modelle sind nur so gut wie die Daten, auf die sie zugreifen können – darunter das institutionelle Wissen, das oft am wertvollsten ist, und die flüchtigen Erkenntnisse, die bei Zwischenfällen verloren gehen.

Die unkontrollierte Verbreitung von Tools und der damit einhergehende Wissensverlust werden uns weiterhin begleiten, doch erstmals verfügen wir über KI, die dieser langjährigen Herausforderung gewachsen ist. Uns ist Folgendes klar geworden: Die Erfassung und Konsolidierung von Wissen über Menschen und Tools hinweg beschleunigt nicht nur die Behebung von Störungen, sondern verändert grundlegend die Art und Weise, wie automatisierte Prozesse sich im Laufe der Zeit anpassen und verbessern.

Warum „Gedächtnis“ für die Reaktion auf reale Vorfälle wichtig ist

Viele Tools können Warnmeldungen zusammenfassen oder sogar korrelieren. Das Gedächtnis funktioniert anders. Der SRE-Agent von PagerDuty merkt sich, was tatsächlich in Ihrer Umgebung passiert – Änderungen, Abhängigkeiten, vergangene Vorfälle, Gesprächsverläufe und vor allem die Schritte, die menschliche Supportmitarbeiter zur Diagnose von Problemen und zur Wiederherstellung des Dienstes unternommen haben. Dieses Gedächtnis wächst mit der Zeit und bietet folgende Vorteile:

  • Es verbessert die Triage, indem es Muster und zusammenhängende Vorfälle über verschiedene Dienste hinweg erkennt.
  • Es beschleunigt die Diagnose, indem es Veränderungsereignisse mit Symptomen und früheren Lösungsansätzen verknüpft.
  • Es optimiert Ihre Abläufe im Laufe der Zeit durch die Erstellung intelligenterer Betriebshandbücher und umsetzbarer Nachbesprechungen von Vorfällen.

Das Ergebnis sind kürzere Einsätze, weniger benötigte Einsatzkräfte und eine geringere kognitive Belastung für die Bereitschaftsdienstleistenden.

Basierend auf dem wichtigsten Signal: Betriebsdaten

PagerDuty verfügt über mehr als 15 Jahre operative Erfahrung, basierend auf realen Vorfalldaten. Diese Erfahrung ermöglicht es dem SRE-Agenten, unstrukturierte, aus verschiedenen Quellen stammende Betriebsdaten in handlungsrelevante Informationen für die Einsatzkräfte umzuwandeln. Er liest nicht nur Protokolle und Metriken, sondern korreliert diese mit der Service-Topologie, kürzlich erfolgten Deployments und der Vorfallhistorie, um Ihnen wahrscheinliche Ereignisse und die nächsten Schritte aufzuzeigen. So beschleunigt und verbessert er den Vorfalllebenszyklus:

  • Erkennen und Triage Mit über 700 Integrationen und einer offenen API sammelt der SRE Agent Daten aus Ihrem gesamten Stack und trennt die relevanten Informationen von irrelevanten.
  • Diagnostizieren Es führt automatisierte Diagnosen durch, fragt Protokolle und Metriken ab und konsultiert Betriebshandbücher und frühere Vorfälle, um wahrscheinliche Ursachen mit Beweisen zu präsentieren.
  • Sanierung Mit menschlicher Genehmigung kann es empfohlene Aktionen ausführen, die Wiederherstellung des Dienstes überprüfen und genau aufzeichnen, was funktioniert hat.
  • Lernen: Gewinnen Sie Kontextinformationen aus den relevanten Vorfällen. Der SRE-Agent verbessert seine Empfehlungen im Laufe der Zeit und generiert neue oder aktualisierte Runbooks, um ein erneutes Auftreten zu verhindern.

Gedächtnis für Aktionen nutzen

Der PagerDuty SRE Agent ist herstellerunabhängig und arbeitet nahtlos mit Observability-, Automatisierungs-, Infrastruktur- und Kollaborationstools zusammen, um ein umfassendes Bild zu liefern, ohne eine Tool-Konsolidierung zu erzwingen. Er wurde speziell für das Incident-Management entwickelt und arbeitet direkt im PagerDuty-System für Intelligenz und Maßnahmen, wo Mobilisierung, Eskalation und Behebung stattfinden. Höchste Zuverlässigkeit auf Enterprise-Niveau ist die Basis, mit Governance- und Sicherheitskontrollen, die Fehlalarme minimieren und die Compliance in risikoreichen Umgebungen gewährleisten. Der Agent setzt auf Automatisierung und Selbstheilung: Er schlägt nicht nur nächste Schritte vor, sondern führt genehmigte Behebungen durch und verifiziert die Ergebnisse – für zunehmend autonome Abläufe. Dank eines Kontextgedächtnisses, das Dienste und Incidents umfasst (nicht nur vordefinierte Kontexte oder monitorgebundenes Gedächtnis), erweitert der SRE Agent das institutionelle Wissen und verbessert die Ergebnisse kontinuierlich.

Da moderne Ökosysteme kollaborativ und nicht monolithisch sind, entwickeln wir Lösungen, die sich mit den Arbeitsumgebungen der Einsatzkräfte verbinden. Der SRE-Agent ist aktuell herstellerunabhängig, und die Unterstützung für MCP wird ihn in ein umfassenderes KI-Ökosystem integrieren, sodass er mit anderen Agenten und Plattformen zusammenarbeiten kann, anstatt mit ihnen zu konkurrieren.

Wie sieht das in der Praxis aus?

In Slack oder der Operations Console stellt der SRE-Agent sofort nach Eintreffen der Einsatzkräfte eine Triage-Analyse bereit. Diese hebt wichtige Erkenntnisse, aktuelle und vergangene relevante Vorfälle, relevante Änderungsereignisse und empfohlene nächste Schritte aus Ihren Runbooks hervor. Anschließend führt er automatisch gezielte Diagnosen durch, ruft Protokolle ab und vergleicht das aktuelle Verhalten mit kürzlich erfolgten Bereitstellungen. So können die Einsatzkräfte optimal auf die jeweiligen Anforderungen vorbereitet sein.

Wenn das System eine Abhilfemaßnahme vorschlägt, werden die zugrundeliegenden Signale und die Historie der Empfehlung erläutert. Nach Genehmigung wird die Maßnahme umgesetzt, und anschließend werden die Wiederherstellung des stabilen Betriebs überprüft und die Ergebnisse zusammengefasst. Im Anschluss daran werden die Nachbesprechung des Vorfalls und die aktualisierten Betriebshandbücher um die bewährten Maßnahmen ergänzt, sodass zukünftige Vorfälle schneller und mit weniger Personalaufwand behoben werden können. Teams berichten uns, dass sich dadurch der Schwerpunkt der Vorfallsbehebung verlagert: Weniger Einberufungen aller Beteiligten in Krisensitzungen, mehr schnelle Fehlerbehebung und die Rückkehr zum Produktivbetrieb.

Wie sich der SRE-Agent von PagerDuty im Vergleich zu Alternativen schlägt

  • Observability-Plattformen Sie sind hervorragend darin, ihre eigenen Daten auszuwerten, aber darüber hinaus begrenzt. Vor allem fehlt ihnen die Vorfallhistorie. Der SRE-Agent korreliert über verschiedene Tools hinweg und verknüpft technische Symptome mit geschäftlichen Auswirkungen und menschlichen Reaktionsmustern – ein Aspekt, den die meisten Anbieter nicht erfassen können. Er kann außerdem Informationen aus vergangenen Vorfällen abrufen.
  • Startups im Bereich Incident-Management Begrenzte Funktionsumfänge und Integrationen, unzureichende Sicherheit und Skalierbarkeit. PagerDuty bietet mit automatisierter Diagnose und Fehlerbehebung umfassendere Möglichkeiten. Zudem bietet PagerDuty umfassende Governance-Kontrollen auf Unternehmensebene, um Compliance und operative Integrität zu gewährleisten.
  • ITSM-Suiten Umfangreiche KI-Strategien sind zwar vorhanden, aber aufwändig zu konfigurieren und nicht für die Geschwindigkeit von SRE-Workflows optimiert. PagerDuty integriert sich in ITSM, um die Compliance zu gewährleisten und gleichzeitig kritische, zeitkritische Probleme schneller zu lösen.

Erinnerung, die Dynamik aufbaut

Der Speicher des SRE-Agenten ist eine grundlegende Komponente und der Motor für kontinuierliche operative Verbesserungen. Er optimiert die Nachbereitung von Vorfällen, indem er automatisch erfasst, was passiert ist und warum, und reduziert so den manuellen Aufwand für die Zusammenstellung von Zeitleisten und Beweismitteln. Er macht Runbooks intelligenter, indem er bewährte Lösungen in dynamische, aktuelle Verfahren umwandelt, sodass Teams keine Zeit mit der Neuerfindung von Reaktionen verschwenden. Er beschleunigt die Problemlösung, indem er das wertvolle Wissen erfahrener Mitarbeiter innerhalb von Wochen statt Jahren im gesamten Team verbreitet. Langfristig entsteht so ein positiver Kreislauf: weniger Tickets, weniger Eskalationen und weniger nächtliche Anrufe.

Was ist jetzt verfügbar?

  • Verfügbare Schnittstellen: ChatOps-Oberfläche (Slack) und Operationskonsole
  • Integrationen zur Einbindung von Signalen aus Observability- und Wissensdatenbanken (z. B. Datadog, Confluence) werden laufend hinzugefügt.
  • Agentische Triage, die Hand in Hand mit den Einsatzkräften arbeitet
  • Automatisierte Diagnose und ein geregelter Weg zur Automatisierung und Fehlerbehebung
  • Kontextinformationen aus vergangenen Vorfällen, Betriebshandbüchern und Gesprächen nutzen, um die Erinnerung zu verbessern und die Behebung zu beschleunigen.

Sind Sie bereit zu sehen, wie der PagerDuty SRE Agent Ihre Reaktion auf Sicherheitsvorfälle verändern kann?

Ihre Vorfälle nehmen nicht ab. Mit einem Teammitglied, das sich erinnert, flexibel reagiert und über Ihre gesamte Systemarchitektur hinweg agiert, sind Sie für den nächsten Vorfall bestens gerüstet. Der SRE-Agent von PagerDuty verwandelt Chaos in Handeln – und jeden Vorfall in eine Chance zur Verbesserung. Probieren Sie den SRE-Agenten aus. Heute noch, oder sehen Sie sich in unserem interaktiven Test an, wie es in der Praxis funktioniert. Produktvorstellung Die