- PagerDuty /
- Der Blog /
- Unkategorisiert /
- Ein tiefer Einblick in die Entwicklung von Advanced Analytics
Der Blog
Ein tiefer Einblick in die Entwicklung von Advanced Analytics
Advanced Analytics heißt jetzt Advanced Reporting und umfasst Team-, System- und Benutzerberichte. PagerDuty Analytics ist ein neues Produkt, das die wichtigsten operativen Erkenntnisse über Ihre Mitarbeiter, Technologien und Prozesse im Zeitverlauf liefert. Weitere Informationen finden Sie unter PagerDuty Analytics .
Advanced Analytics war für uns ein großes Projekt. Es war nicht nur ein großer Schritt, um Betriebsteams dabei zu helfen, ihre Leistung mit verwertbaren Daten zu verbessern, sondern stellte auch eine komplexe Design- und Engineering-Herausforderung dar.
Entwerfen zur Problemlösung
Bei der Entwicklung neuer Funktionen möchten wir stets sicherstellen, dass wir echte Probleme unserer Kunden lösen. Als wir uns genauer ansahen, wie unsere Kunden PagerDuty nutzten und welche Ziele sie für ihre Betriebsteams verfolgten, stellten wir fest, dass einer der größten Schwachpunkte die mangelnde Transparenz ihrer Betriebsabläufe war. Obwohl dieses Problem in jedem Unternehmen anders aussieht, stellten wir fest, dass viele Teams Schwierigkeiten hatten, die problematischsten Bereiche ihres Systems und die Leistung ihrer Teams zu ermitteln.
Design für Zuverlässigkeit und Skalierbarkeit
Wir verarbeiten monatlich Millionen von Vorfällen. Da unsere Kunden sich darauf verlassen, dass wir ihre Verfügbarkeit verbessern, ist die Zuverlässigkeit unseres Produkts ein zentraler Wert für PagerDuty. Wir mussten sicherstellen, dass die Infrastruktur hinter Advanced Analytics unsere Zuverlässigkeits- und Leistungsanforderungen jetzt und in Zukunft erfüllt.
Die Lastmeldung sieht anders aus als die Last in einer mobilen App oder einem Dashboard. Anstatt eine kleine Anzahl von Vorfällen zu benötigen im Augenblick , Sie möchten eine größere Anzahl von Vorfällen mit Berechnungen aus einem größeren Zeitraum.
Wir mussten sicherstellen, dass die Meldeaufrufe unsere Hauptdatenbank und API für Vorfälle nicht überlasten. Daher haben wir eine Reihe entkoppelter Dienste erstellt, die gewährleisten, dass wir Kunden schnell Daten bereitstellen können, ohne dass dabei unsere Hauptalarmierungspipeline, die Web-App und die mobile App beeinträchtigt werden.
Eine Reihe von ETL-Workern greift auf Daten aus einer Produktions-Slave-Datenbank zu, iteriert über die Einträge im Vorfallprotokoll und fasst sie in einer Tabelle mit Rohdaten und spezifischen Metriken zusammen. Ein zweiter Dienst stellt die denormalisierten Rohdaten der Vorfälle zur Anzeige in Drilldown-Tabellen bereit, und ein dritter Dienst nutzt die Rohdaten, um schnell aggregierte Metriken zu berechnen. Wenn Sie auf einen Bericht zugreifen, stellen diese Dienste die von Ihnen angeforderte Mischung aus Zusammenfassung und Rohdaten bereit.
Advanced Analytics greift auf große Datenmengen zu. Daher haben wir die Vorabberechnung einiger Metriken untersucht. Allerdings ist die Vorabberechnung mit Kompromissen hinsichtlich Datenveraltung, Anzahl der Codepfade für vorgefertigte und On-Demand-Berichte und UX-Design verbunden. Daher wollten wir sicherstellen, dass wir genau das richtige Maß verwenden. Tests haben gezeigt, dass wir durch die Vorabberechnung von Metriken pro Vorfall die richtige Balance zwischen Leistung und Flexibilität finden konnten.
Wir wussten von Anfang an, dass Advanced Analytics die Grundlage dafür bilden würde, unseren Kunden so viele neue Daten zugänglich zu machen – mehr, als wir vorhersehen konnten. Deshalb haben wir unser Analyse-Framework so konzipiert, dass es mit Veränderungen umgehen kann. Wenn wir neue und bessere Methoden zur Berechnung wertvoller Kennzahlen entwickeln oder noch umfangreichere Nutzungsdaten bereitstellen, können wir die Daten ohne Funktionsunterbrechung erneut verarbeiten. Kunden sehen die neuen Funktionen einfach, sobald alle Daten verfügbar sind. In der Praxis ermöglicht uns dies auch, vorübergehende Schwankungen der Datenverfügbarkeit oder -integrität ohne Ausfallzeiten zu bewältigen.
In der Praxis ist diese Arbeit für den Benutzer unsichtbar – er geht auf unsere Berichtsseite, wählt aus, was er sehen möchte, und sieht schnell seine Daten. Uns ist es jedoch wichtig, dass wir unsere Funktionen mit dem gleichen Maßstab und der gleichen Zuverlässigkeit entwickeln, für die wir bekannt sind.
Kommen wir zum „Na und?“
Es wäre einfach gewesen, unsere vorhandenen Berichte zu übernehmen und Filter hinzuzufügen, aber wir wollten mehr tun. Wir wollten den Benutzern den Kontext und die Flexibilität bieten, echte, umsetzbare Erkenntnisse aus den Berichten zu gewinnen.
Wir haben dies auf drei Arten getan:
- Präsentieren Sie einzelne Kennzahlen neben aggregierten Zusammenfassungen, damit Kunden die Leistung eines bestimmten Teams oder Dienstes im Vergleich zum Gesamtbild einschätzen können.
- Zeigt, wie sich die Messwerte seit dem letzten Zeitraum geändert haben, sodass Kunden auf hoher Ebene verstehen, ob sie ihre Leistung verbessern.
- Bietet schnelles, einfaches Drilldown zu den zugrunde liegenden Vorfällen, Diensten, Eskalationsrichtlinien und Benutzern, sodass Kunden auf die detaillierten Details ihrer Betriebsaktivitäten zugreifen können.
Lernen und Iterieren
Während des gesamten Design- und Entwicklungsprozesses sammelten wir Kundenfeedback. Um die Auslieferungsbereitschaft sicherzustellen, führten wir einen umfassenden Betatest mit ausgewählten Kundengruppen durch. Während dieses Prozesses erhielten wir wertvolles Feedback, das uns half, die bestmögliche Lösung zu entwickeln.
Beta-Kunden waren von den neuen Berichten sofort begeistert. Sie freuten sich über die bessere Transparenz ihrer Systeme und Mitarbeiter und teilten gerne mit, wie sie die Funktion nutzen wollten, um positive Veränderungen in ihren Teams zu bewirken. Einige unserer beliebtesten Anwendungsfälle:
- Identifizierung der Teams (Eskalationsrichtlinien) mit den kürzesten durchschnittlichen Lösungszeiten, sodass andere Teams im selben Unternehmen von deren Betriebspraktiken lernen und die Betriebskennzahlen unternehmensweit verbessern können
- Verwenden Sie den Teambericht für wöchentliche Teambesprechungen, überprüfen Sie, wie sich wichtige Kennzahlen gegenüber der Vorwoche verändert haben, und betrachten Sie eskalierte Vorfälle, um herauszufinden, was schiefgelaufen ist.
- Mithilfe der Vorfall-Drilldown-Funktion können Sie feststellen, wo ähnliche Vorfälle gleichzeitig aufgetreten sind, und doppelte oder störende Warnungen finden, um Abhilfe zu schaffen.
Durch Gespräche mit Beta-Kunden erhielten wir außerdem viel UX-Feedback. Während der Alpha- und Betaphase haben wir UX- und Usability-Optimierungen vorgenommen, um sicherzustellen, dass unsere Interaktionen die Bedürfnisse unserer vielfältigen Kundenbasis unterstützen – von Kunden mit nur einem oder zwei Benutzern und Diensten bis hin zu Kunden mit Hunderten von Benutzern und Diensten.
Wir freuen uns, diese umfassende Lösung für die Betriebsberichterstattung anbieten zu können, sehen dies jedoch nur als ersten Schritt auf dem Weg zur Analyse von PagerDuty. Wir freuen uns darauf, unsere Kunden weiterhin dabei zu unterstützen, ihre Betriebszeit und Zuverlässigkeit durch Analysen zu verbessern.
Sagen Sie uns Ihre Meinung!
Advanced Analytics ist für alle Kunden als 30-tägige Vorschau verfügbar und wird danach in unserem Enterprise-Plan integriert. Wir freuen uns auf Ihre Meinung – per E-Mail support@pagerduty.com über jedes Feedback und wir versprechen, dass wir jedes einzelne davon lesen werden.
