Neue Verbesserungen am PagerDuty SRE-Agenten: Schnellere Priorisierung ohne Aktivierung eines Mitarbeiters
Dieser Blogbeitrag ist Teil der fortlaufenden Serie von PagerDuty darüber, wie wir Kunden auf ihrem Weg zum autonomen Betrieb unterstützen. Lesen Sie weiter, um zu erfahren, wie die kürzlich veröffentlichten EA/GA-Erweiterungen des PagerDuty SRE-Agenten diese Vision voranbringen.
Die Versprechen und die tatsächlichen Fähigkeiten von KI weichen oft voneinander ab. Entwickler berichten zwar häufig von deutlich schnellerer Codeproduktion, aber nicht von ausreichenden Verbesserungen im Umgang mit Störungen. Wenn sich die Geschwindigkeit der Änderungen rasant erhöht, die Reaktionsgeschwindigkeit auf Störungen aber stagniert, verharren Entwickler im Krisenmodus. Und wenn diese Systeme versagen, ist das kostspielig. Laut Stand der KI-gestützten Operationen bei PagerDuty , Mehr als ein Drittel der befragten Unternehmen berichten von Verlusten in Höhe von 500.000 US-Dollar pro Stunde Ausfallzeit. Das ist weder für das Unternehmen noch für die Teams tragbar.
Der richtige Weg ist, Gleiches mit Gleichem zu bekämpfen und sicherzustellen, dass die KI-Werkzeuge, die Entwickler zur Behebung von Fehlern einsetzen, der Intelligenz der Werkzeuge entsprechen, mit denen sie entwickeln. SRE-Agenten haben sich zu einer neuen Kategorie für Teams entwickelt, die den Arbeitsaufwand und die Bearbeitungszeiten reduzieren und mehr Kapazität für die Entwicklung freisetzen wollen.
PagerDuty kündigt Verbesserungen am PagerDuty Advance SRE Agent an, die ihn noch intelligenter und leistungsfähiger machen. Er kann automatisch eine Triage durchführen, die im Rahmen eines Incident-Workflows als Teil der Teamautomatisierung gestartet wird. Dabei nutzt er Agenten-Konnektoren, Tools und Skills als Triage-Datenquelle und stellt Mitarbeitern Informationen bereit, noch bevor diese den Vorfall untersuchen. Während der Bearbeitung des Vorfalls können die Mitarbeiter direkt auf der Seite mit den Vorfalldetails mit dem SRE Agent interagieren. Sehen wir uns diese Verbesserungen genauer an und ihre Bedeutung für eine Welt, die sich rasant in Richtung autonomer Abläufe entwickelt.
Autonome Untersuchungen auslösen
Bei einem Einsatz gibt es so viele konkurrierende Prioritäten, die die Aufmerksamkeit der Einsatzkräfte erfordern. Manchmal bleiben in dem Chaos selbst die einfachsten Maßnahmen unerledigt. Es kann sich anfühlen, als würde man ein wichtiges Teammitglied außen vor lassen.
Um dieses Problem zu lösen, wird der SRE-Agent als echter virtueller Responder fungieren können, der intelligent über Incident-Workflows ausgelöst wird (verfügbar für Früher Zugriff Zur Triage können Benutzer diese Workflows so konfigurieren, dass der SRE-Agent automatisch aktiviert wird, sobald ein Vorfall ausgelöst wird oder bestimmte Kriterien wie Priorität oder Schweregrad erfüllt sind. Dadurch entfällt die Verzögerung, die durch das Warten auf die Bestätigung einer Warnung durch einen Mitarbeiter und den Beginn der manuellen Fehlersuche entstehen würde.
Sobald der SRE-Agent automatisch aktiviert ist, ist er mit relevanten Daten für die Fehlerbehebung vorab ausgestattet, um den Behebungsprozess zu beschleunigen. Er nutzt seine Erfahrung mit früheren Vorfällen, um den aktuellen Zustand Ihrer Systeme zu analysieren und die Ursache zu ermitteln. Und all dies kann geschehen, bevor ein Supportmitarbeiter den Vorfall überhaupt bestätigt.
Schnelle Diagnose mit Agentenkonnektoren, Tools und Fähigkeiten
Ein eigenständiger KI-Agent ist nur so intelligent wie die Daten, die ihm zur Verfügung stehen. Die meisten Teams verlieren wertvolle Zeit, weil die von der KI gewonnenen Erkenntnisse in verschiedenen Tools isoliert bleiben und die Entwickler gezwungen sind, die Lücke manuell zu schließen, die Agenten eigentlich füllen können sollten.
Der SRE-Agent von PagerDuty bietet jetzt folgende Funktionen: neue Konfigurationserlebnisse (EA) die es einfach machen, die Fähigkeiten des Agenten durch Konnektoren und Tools zu erweitern, wobei Skills EA im Mai geplant ist.
- Steckverbinder ermöglicht es Ihnen, den SRE-Agenten in Datenquellen von Drittanbietern wie Grafana, New Relic und Honeycomb einzubinden. und mehr via MCP oder API – einfach Ihre Zugangsdaten eingeben und autorisieren.
- Werkzeuge Der Agent soll in die Lage versetzt werden, Protokolle und Metriken von Observability-Plattformen (Splunk, Dynatrace) abzurufen und Kontextinformationen aus Wissensdatenbanken (Confluence, GitHub) zu extrahieren.
- Fähigkeiten Statten Sie den Agenten mit individuellen Anweisungen, Skripten und Fachwissen aus, um ihm spezialisierte, auf Ihre Umgebung zugeschnittene Fähigkeiten zu verleihen.
Zusammen ermöglichen diese Funktionen dem SRE-Agenten, Fehlerbehebungsschritte intelligent abzuleiten, noch bevor ein Mensch den Vorfall untersucht. Die Triage wird automatisch über Incident-Workflows ausgelöst – sobald die Kriterien erfüllt sind, ruft der Agent die Daten ab und beginnt mit der Analyse. Kein Drehstuhl erforderlich.
Alles zusammenführen für den Menschen, der in den Entscheidungsprozess eingebunden ist
SRE-Agenten können menschliche Erfahrung und Problemlösungskompetenz nicht ersetzen. Gerade bei neuen, komplexen, schwerwiegenden oder nur teilweise verstandenen Problemen ist menschliches Eingreifen unerlässlich, um einen Vorfall erfolgreich abzuschließen. In diesem Fall fungiert der SRE-Agent als hilfreicher Assistent und stellt dem Einsatzteam umgehend die relevanten Daten zur Verfügung, darunter auch Daten von anderen Agenten wie dem Scribe Agent und dem Shift Agent. Darüber hinaus kann er basierend auf dem Kontext des Vorfalls den passenden Workflow empfehlen, die kognitive Belastung der Einsatzkräfte reduzieren und die Problemlösung beschleunigen.
Nutzer können nun direkt über die Seite mit den Vorfalldetails auf den SRE-Agenten zugreifen und zusätzlich über Slack, Microsoft Teams (EA) oder die Operationskonsole mit ihm interagieren. Wo immer ein Einsatzmitarbeiter benötigt wird, steht ihm der SRE-Agent zur Seite.
Da der SRE-Agent alle wichtigen Triage-Daten sofort nach Auftreten eines Vorfalls erfasst, hat er ausreichend Zeit, diesen zu analysieren und Abhilfemaßnahmen vorzuschlagen. Auf der Seite mit den Vorfalldetails, im Chat oder in der Betriebskonsole können die Einsatzkräfte die vorgeschlagenen Abhilfemaßnahmen in verständlicher Sprache einsehen. Um die Ergebnisse weiter zu verbessern, können Benutzer den Agentenspeicher entweder durch Interaktion mit dem Agenten oder durch direkte Aktualisierung des Speichers erweitern. Shared Memory API Der Mensch spielt weiterhin eine Rolle und trifft die Entscheidungen. Doch nun werden Menschen von Anfang an mit wichtigen Informationen aus verschiedenen Quellen versorgt, die so aufbereitet werden, dass sie unter schwierigen Umständen die bestmögliche Entscheidung treffen können.
Eine neue Anatomie eines Vorfalls
Schauen wir uns an, wie diese Zusammenhänge die Entwickler konkret unterstützen. Bisher führte ein Anstieg der Fehlerraten zu einer Fehlermeldung, dem manuellen Auslösen des SRE-Agenten und der mühsamen Auswertung von Daten, die sich nicht eindeutig komplexen Systemen zuordnen ließen.
Mit dem erweiterten SRE-Agenten könnte der Ablauf folgendermaßen aussehen:
- Auslösen: Eine Warnung mit hohem Schweregrad löst einen Incident-Workflow aus.
- Kontextanalyse: Der SRE-Agent verwendet sofort Agentenkonnektoren und Werkzeuge Datadog ruft Protokolle ab. Dabei wird ein spezifischer Anstieg der Datenbankabfragelatenz festgestellt, der einem Muster von vor drei Monaten entspricht. Mithilfe der konfigurierten Einstellungen Fähigkeiten Der Agent kann mithilfe der Dienstabhängigkeiten in PagerDuty einen umfassenden Servicestatus überprüfen.
- Analyse: Innerhalb weniger Sekunden veröffentlicht der SRE-Agent eine Zusammenfassung auf der Seite mit den Vorfalldetails: „15 % mehr Checkout-Fehler festgestellt. Zusammenhang mit der kürzlich erfolgten Datenbankmigration. Drei ähnliche Vorfälle in der Historie gefunden.“
- Empfehlung: Der SRE-Agent schlägt folgende Abhilfemaßnahme vor: „Workflow zur Datenbankoptimierung ausführen“.
- Abhilfe: Der Mitarbeiter klickt nach kurzer, intuitiver Prüfung auf den Button. Der Workflow wird ausgeführt, die Latenz sinkt und der Vorfall ist behoben.
In diesem Beispiel wurden bei wichtigen Entscheidungen, wie etwa der Durchführung der Fehlerbehebung, Experten hinzugezogen. Die Zeit, die für wertschöpfende Tätigkeiten aufgewendet werden musste, konnte jedoch deutlich reduziert werden. Der Entwickler konnte schneller wieder mit der Entwicklung beginnen.
Der Weg zu autonomen Operationen
Ihr Team sollte nicht in Benachrichtigungen ertrinken, während KI die Komplexität vervielfacht. PagerDutys Ansatz für autonome Operationen:
- Setzt intelligente Agenten in großem Umfang ein – sie filtern Störfaktoren, beschleunigen die Problemlösung und halten Sie dort auf dem Laufenden, wo es darauf ankommt.
- Vertieft den gesamten Lebenszyklus des Vorfallmanagements, indem es Teams befähigt, Vorfälle schneller zu beheben.
- Erweitert die Plattform und das Ökosystem um Funktionen, die Teams dabei helfen, Vorfälle zu verhindern.
Der SRE-Agent von PagerDuty ebnet den Weg zu autonomen Abläufen. Durch die Nutzung von Incident-Workflows für die automatisierte Auslösung und neue Agenten-Konnektoren, Tools und Funktionen zum Aufbrechen von Datensilos kann der SRE-Agent Triage und Diagnose durchführen, ohne einen Mitarbeiter zu unterbrechen. Mitarbeiter können Hand in Hand mit dem Agenten arbeiten, um die richtigen Aktionen auszuführen und Probleme über die bevorzugte Oberfläche zu lösen – sei es Chat, die Operationskonsole oder die Seite mit den Incident-Details. Diese Verbesserungen ermöglichen es Entwicklern, wertvolle Zeit zurückzugewinnen und sich mit Unterstützung des SRE-Agenten auf die Fehlerbehebung zu konzentrieren.
Möchten Sie einige der Funktionen aus dem Vorabzugang ausprobieren, über die Sie gelesen haben? Hier anmelden oder wenden Sie sich an Ihr PagerDuty Kundenbetreuungsteam.
Dieser Blog enthält zukunftsgerichtete Aussagen, unter anderem zur erwarteten Verfügbarkeit neuer Funktionen. Diese zukunftsgerichteten Aussagen stellen keine Garantie für zukünftige Leistungen dar und sind mit erheblichen Risiken verbunden, die dazu führen können, dass unsere tatsächlichen Ergebnisse von den in diesen zukunftsgerichteten Aussagen ausgedrückten oder implizierten Ergebnissen abweichen. Eine vollständige Beschreibung dieser Risiken finden Sie im jüngsten Formular 10-K des Unternehmens sowie in den nachfolgenden Einreichungen bei der SEC, die auf der Website der SEC unter http://www.sec.gov eingesehen werden können.