KI-Überwachung und LLMOps mit PagerDuty
Dieser Beitrag wurde verfasst von Mitra Goswami, Ralph Bird, Everaldo Aguiar und Scott Sieper.
Generative KI (GenAI) hat in den letzten zwei Jahren eine rasante Entwicklung durchlaufen – von der anfänglichen Begeisterung für ChatGPT über erste Erkundungen bis hin zum zunehmenden Einsatz von GenAI-gestützten Funktionen in Unternehmen. Angesichts der stetigen Weiterentwicklung dieses Feldes und der fast täglich verkündeten Durchbrüche haben wir bei PagerDuty alle Aspekte dieser Transformation im Blick und überlegen, wie wir GenAI sicher nutzen können, um unser Produkt weiter zu verbessern und Sie bei Ihrem noch besser zu unterstützen.
Der PagerDuty Operations Cloud Das Unternehmen zeichnet sich dadurch aus, wie es KI/ML einsetzt, um Teams dabei zu helfen, Fehlalarme zu minimieren, die Priorisierung zu verbessern, Vorfälle zu verwalten und daraus zu lernen, Aufgaben zu automatisieren und die Kommunikation zu optimieren. Im Mittelpunkt steht dabei unsere kürzlich erfolgte Ankündigung. PagerDuty Advance , wodurch unsere Funktionen um eine Ebene von GenAI-Fähigkeiten erweitert werden und der Incident-Management-Lebenszyklus spürbar verbessert wird.
Tausende von Nutzern verlassen sich darauf, dass wir ihnen ein hohes Maß an Vertrauen in unsere Produkte gewährleisten. Doch genau wie ein Serverausfall dieses Vertrauen untergraben kann, so kann auch eine fehlerhafte Modelldarstellung dieses Vertrauen beeinträchtigen. Während die Überwachung traditioneller Infrastrukturen für uns selbstverständlich ist, stellt die Überwachung von KI-Modellen (insbesondere von LLMs) eine neue Herausforderung dar. Daher möchten wir Ihnen einige Erkenntnisse aus unseren bisherigen Erfahrungen und unsere zukünftigen Perspektiven im Bereich der KI-Überwachung vorstellen.
LLMOps unterscheidet sich in einigen Punkten von anderen Ops-Rollen. Unternehmen, von Startups bis hin zu etablierten Branchenriesen, bieten verschiedene Tools zur Unterstützung dieses Prozesses an. Ob es sich nun um Schutzmechanismen handelt, die unangemessene Inhalte in Echtzeit blockieren, oder um Überwachungsmethoden, die Leistungsprobleme identifizieren – diese Tools bilden zusammen ein Werkzeugset, das Ingenieuren den produktiven Betrieb von GenAI ermöglicht. Doch anders als im traditionellen Ops-Bereich, wo ein System entweder „an“ oder „aus“ ist, stellt sich die Frage: Wie geht man mit einem LLM-Output um, der von Natur aus nicht-deterministisch ist und dessen Ergebnis so stark von den Benutzereingaben abhängt?
Dieser Nichtdeterminismus und die Empfindlichkeit gegenüber Eingabedaten erschweren die Überwachung. Handelt es sich bei dem Signal, das Sie sehen, um ein tatsächliches Problem, eine Änderung im Nutzerverhalten oder eine zufällige Schwankung im LLM-Ausgangssignal? Woran erkennen Sie, ob Sie Ihre Techniker alarmieren oder sie ruhen lassen sollten? Betrachten Sie diese beiden Beispiele:
Sicherheitsüberwachung: Echtzeit-Überwachung und Alarmierung bei Jailbreaks
Sie haben einen Monitor an Ihren Sicherheitsvorkehrungen, der Jailbreaks blockiert. Dieser wurde gerade ausgelöst. Versucht hier jemand, in Ihr System einzudringen und Ihre IP-Adresse zu stehlen? Bevor Sie einen Sicherheitsvorfall melden, müssen Sie feststellen, ob es sich lediglich um einen Anstieg der üblichen Fehlalarme oder um einen gezielten Angriff handelt. Die durch das Ereignis in PagerDuty ausgelöste Automatisierung kann hierbei helfen. Mithilfe eines einfachen Skripts lässt sich ermitteln, ob der Vorfall auf einen einzelnen Kunden zurückzuführen ist (wahrscheinlich ein Angriff – wir sollten die betroffenen Kunden alarmieren) oder auf viele Kunden (wahrscheinlich eher ein Fehlalarm – wir können die betroffenen Kunden ignorieren). Diese automatische Priorisierung ermöglicht es uns, einen niedrigen Schwellenwert für den Monitor festzulegen, um alle Angriffe zu erkennen, während unsere Techniker Fehlalarme ignorieren können.
Qualitätsuhr: Intelligente Überwachung und Echtzeitwarnungen
Viele Unternehmen nutzen Drittanbieter für ihre LLM-Modelle. Diese Abhängigkeit birgt ein potenzielles Fehlerrisiko: Änderungen am Modell können die Ausgabequalität beeinflussen. Doch wie lässt sich ein solcher Fehler erkennen? Im ersten Schritt sollten Sie wichtige Parameter überwachen (wir bevorzugen hier schnelle und kostengünstige Metriken wie die Ausgabelänge oder die Relevanz der Antworten, bewertet mit einem kleinen Modell). So erkennen Sie mögliche Veränderungen. Liegt die Ursache im Modell selbst? Interagieren die Nutzer anders mit dem Produkt? Oder handelt es sich lediglich um eine zufällige Abweichung eines nicht-deterministischen LLM? Am besten lässt sich dies durch einen Testdatensatz mit bekannten Antworten feststellen. Anschließend überprüfen Sie, ob eine Änderung vorliegt (z. B. mithilfe des LLM als Bewertungskriterium). Auch hier können wir die Automatisierung nutzen, um diesen Test auszulösen. So verfügt der alarmierte Entwickler über alle notwendigen Informationen, sobald er mit der Untersuchung des Vorfalls beginnt.
Automatisierung und Arbeitsabläufe
PagerDuty ermöglicht es Teams, Reaktionshandbücher zu erstellen, die Schritte zur Fehlerbehebung und Lösung häufiger LLM-Probleme beschreiben. Diese Handbücher können bei bestimmten Vorfällen automatisch ausgelöst werden und tragen so zu standardisierten und schnelleren Reaktionszeiten im gesamten Team bei. Mit dem Aufkommen agentenbasierter KI werden diese Reaktionshandbücher intelligenter. Anstatt einem vordefinierten Workflow zu folgen, diagnostizieren sie das Problem, führen risikoarme Maßnahmen zur Behebung durch (z. B. das Auslösen eines erneuten Trainings) und alarmieren einen Techniker nur dann, wenn dieser für risikoreichere Aktionen (z. B. das Sperren des Benutzerzugriffs) eine Autorisierung benötigt.
Integrationen
PagerDuty verfügt über Integrationen mit dem LLM Ops Monitoring-Anbieter Arize.
Die Arize- und PagerDuty Integration Arize überwacht Ihre Produktionsmodelle und sendet Benachrichtigungen an PagerDuty , sobald Ihre Modelle einen bestimmten Schwellenwert unterschreiten. Arize und PagerDuty sorgen dafür, dass Ihre Teams stets informiert sind, umfassendere Metadaten über Benachrichtigungen erhalten und Ihre Modelle schneller als je zuvor debuggen können. Arize unterstützt Sie bei der Analyse der ML-Performance, der Überwachung unstrukturierter Daten und der automatisierten Modellüberwachung.
Abschluss
Mit dem zunehmenden Einsatz von KI, insbesondere von GenAI, stehen Unternehmen vor immer größeren Herausforderungen beim zuverlässigen und sicheren Betrieb ihrer Systeme. Monitoring ist dabei ein wichtiger erster Schritt. Doch wie lässt sich der Nutzen für Ihr Unternehmen maximieren und gleichzeitig die Arbeitsbelastung Ihres Teams minimieren, wenn die resultierenden Warnmeldungen nicht adäquat verarbeitet werden? Hier setzt PagerDuty an, insbesondere mit seinen Automatisierungsfunktionen. Durch die Minimierung von Fehlalarmen und die Bereitstellung der benötigten Informationen für Ihre Techniker können Störungen reduziert, die Performance gesteigert und der gewohnte Service für Ihre Kunden sichergestellt werden.