Der Blog

Schluss mit dem Chaos mit PagerDuty Event Intelligence

von David Shackelford 7. Juni 2018 | 4 Minuten Lesezeit

Kunden aus allen Branchen und Betriebsmodellen, die wir bedienen, berichten uns, dass sie Schwierigkeiten haben, in der Datenflut die entscheidenden Signale zu finden. Die Komplexität der Systeme und Serviceteams nimmt jedes Jahr zu, und die Mitarbeiterzahl wächst nie im gleichen Maße.

Das bedeutet, dass das Volumen der Telemetriedaten, mit denen Organisationen zu kämpfen haben, mit den bestehenden Methoden nicht mehr bewältigt werden kann – viele Unternehmen bearbeiten täglich Tausende, manchmal sogar Millionen von Ereignissen. Mehrere Organisationen haben uns berichtet, dass ihre Einsatzkräfte bei einem größeren Vorfall ihre Telefone ausschalten müssen, um zu verhindern, dass sie von einer Flut von Alarmen mit doppelten Benachrichtigungen überflutet werden. Das ist ärgerlich und störend, insbesondere wenn viel auf dem Spiel steht. Schlimmer noch: Es macht es auch unmöglich, das eigentliche Problem schnell zu identifizieren. Für das Unternehmen bedeutet dies verlorene Lösungszeit und zusätzliche Risiken.

Vom Eventmanagement zur Eventintelligenz

Die Reduzierung von Lärm war schon immer Teil der Mission von PagerDuty und unsere Plattform hat dies durch die Automatisierung der Bereitschaftsplanung und Eskalation, die Unterstützung einer effektiven Zusammenarbeit und Reaktion auf Vorfälle sowie die Bereitstellung von Berichten und Einblicken erreicht – und das alles auf eine Weise, die es Teams ermöglicht, ihr Schicksal selbst in die Hand zu nehmen.

Doch jetzt gehen wir noch einen Schritt weiter und bieten ein neues Produkt, das Ihrem Team Superkräfte verleiht, um die wachsende Flut an Signalen aus all Ihren Tools und Ihrer Infrastruktur zu bewältigen.

Ereignisintelligenz bewältigt viele der allgemeinen Probleme im Eventmanagement, darunter das Sammeln von Signalen aller Tools, die Unterdrückung von Störsignalen, die Korrelation von handlungsrelevanten Warnmeldungen und die Übermittlung dieser Informationen an die Einsatzkräfte. Dies geschieht auf eine neue, einzigartige Weise: Durch die Kombination von System- und menschlichen Daten werden Störsignale reduziert, Ihre Reaktion fokussiert und Ihr Team gestärkt.

Intelligente Alarmgruppierung entstand aus einer einfachen Erkenntnis: Mit den umfangreichen Daten aus Ihren Systemen lässt sich viel anfangen – aber genauso wichtig (vielleicht sogar noch wichtiger) ist, was die Einsatzkräfte mit diesen Daten machen. Die Infrastruktur skaliert und verändert sich, Teams entwickeln neue Dienste, die auf unvorhersehbare Weise interagieren, und traditionelle Befehls- und Kontrollansätze können da einfach nicht mithalten.

Indem wir uns jedoch ansehen, wie Benutzer in einem Team mit ihren Betriebsproblemen umgehen, und im Laufe der Zeit aus diesem Verhalten lernen, können wir Warnmeldungen wirksam korrelieren und das Rauschen herausfiltern, selbst wenn das System wächst und sich verändert. Dadurch sparen die Kunden enorm viel Zeit und Geld und ihre Einsatzkräfte können sich auf wichtigere und wirkungsvollere Aufgaben konzentrieren.

 

Sobald Ihre Warnungen einem Vorfall zugeordnet werden können, für den Maßnahmen ergriffen werden müssen, ist es Zeit zu reagieren. Ähnliche Vorfälle Durchsucht den Reaktionsverlauf eines Kontos nach Vorfällen, die mit dem aktuellen Vorfall in Zusammenhang stehen. Mithilfe von Data Science stellt es den Einsatzkräften den genau richtigen Kontext zur Verfügung. Einsatzkräfte können leicht erkennen, ob es sich bei einem Vorfall um einen Routinefehler oder eine potenziell gefährliche Anomalie handelt. Notizen und andere Metadaten zu vergangenen Vorfällen helfen bei der Triage. Durch die Erkennung von Mustern bei Betriebsproblemen, die nur in aggregierter Form auftreten, sind Einsatzkräfte sicherer und effektiver – und sparen wertvolle Zeit, wenn es darauf ankommt.

„Bei ähnlichen Vorfällen ist es, als hätte man einen zusätzlichen Helfer im Team.“ –Corey Burke, Dialpad

Hinter den Kulissen, Erweiterte Ereignisautomatisierung filtert, bereichert und priorisiert Ihre Signale und stellt sicher, dass nichts unnötig einen Menschen benachrichtigt – und dass die Signale, die Tun enthalten den richtigen Kontext, beispielsweise Runbooks und Informationen zur Problembehebung.

Wir haben viele dieser Funktionen auf dem letztjährigen PagerDuty Summit vorgestellt und von Hunderten von Early-Access-Kunden großartiges Feedback erhalten. Sie berichteten uns, dass Event Intelligence manuelle Triage-Prozesse ersetzt, die Lebensqualität ihrer Einsatzkräfte verbessert und ihnen unzählige Stunden an Konfiguration und Wartung erspart hat. Und bei unseren Kunden, die diese Funktionen nutzen, konnten wir eine Gesamtrauschreduzierung von 98 Prozent feststellen, da Signale gefiltert, unterdrückt und intelligent korreliert werden.

Probieren Sie es noch heute aus

Wir freuen uns, Event Intelligence nun allen unseren Kunden anbieten zu können. Um loszulegen, wenden Sie sich noch heute an Ihren PagerDuty -Vertreter oder Melden Sie sich für eine kostenlose Testversion an .