- PagerDuty /
- Der Blog /
- Best Practices und Einblicke /
- PagerDuty + Datadog optimal nutzen
Der Blog
PagerDuty + Datadog optimal nutzen
Damit Ihr Team effektiv auf Vorfälle reagieren kann, benötigen Sie eine gemeinsame, eindeutige Vorfalldefinition, damit Sie erkennen können, wann ein Vorfall eingetreten ist, und ihm den entsprechenden Schweregrad zuordnen können. Definitionen eines Vorfalls unterscheiden sich von Team zu Team, aber welche Definition Sie auch verwenden, das Identifizieren und Überwachen wichtiger Service Level Indicators (SLIs) kann Ihnen dabei helfen zu verstehen, wann Ihr Service normal funktioniert – und wann seine Leistung soweit nachgelassen hat, dass Sie einen Vorfall auslösen müssen.
Datenhund kann Ihnen dabei helfen, Ihre Infrastruktur- und Anwendungsleistungsmetriken – einschließlich Ihrer SLIs – zu überwachen und entsprechende Warnmeldungen zu senden. In diesem Beitrag gehen wir vier Best Practices für die Verwendung von PagerDuty mit Datadog durch, um Ihren Vorfallreaktionsprozess zu verbessern und zu beschleunigen und Ihre mittlere Zeit bis zur Lösung (MTTR) zu verkürzen.
- Basieren Sie Vorfälle auf aussagekräftigen SLIs
Datadog macht es einfach, Sammeln Sie alle Metriken die für Sie möglicherweise nützlich sind, aber nicht alle Metriken sind SLIs. Eine gute SLI ist eine Metrik, die ein Verhalten misst, das für die Bereitstellung Ihres beabsichtigten Servicelevels von Bedeutung ist. Wenn Sie beispielsweise eine API betreiben und Ihr Ziel darin besteht, die Latenz zu minimieren, sollten Sie die Reaktionszeit als SLI verwenden, auch wenn Sie möglicherweise auch die Reaktionsrate, die Fehlerrate und die Systemlast der API-Server überwachen.
Service Level Objectives (SLOs) sind die Ziele Ihres Teams für die Leistung Ihres Dienstes oder Ihrer Anwendung. Das obige Beispiel-SLI (Reaktionszeit) kann verwendet werden, um ein SLO wie „Beantworten Sie 99,99 Prozent der Anfragen in weniger als 300 ms“ zu definieren. Service Level Agreements (SLAs) sind die Verpflichtungen Ihres Unternehmens gegenüber Ihren Kunden. Jedes SLA besteht aus einem SLO plus einer Konsequenz bei Nichterfüllung dieses SLO, beispielsweise einer teilweisen Rückerstattung der vom Kunden gezahlten monatlichen Gebühren.
Damit Ihr Unternehmen seine SLAs einhalten kann, muss Ihr Team Ihre SLOs erfolgreich einhalten. Um Ihren Fortschritt zu verfolgen, sollten Sie die richtigen SLIs identifizieren und darauf aufmerksam machen. Wenn ein SLI verletzt wird, ist das eine klare Priorität: Sie sollten einen Vorfall erstellen und sich auf PagerDuty und den Vorfallreaktionsprozess Ihres Teams verlassen, um jedes Verhalten zu korrigieren, das Ihr SLO nicht erfüllt.
- Automatisches Auslösen von Vorfällen aus SLI-Warnungen
Um einen Vorfall zuverlässig zu erkennen und schnell reagieren zu können, sollten Sie den Prozess der Auslösung eines Vorfalls automatisieren, wenn ein SLI einen Schwellenwert überschreitet. Wenn Sie Integrieren Sie PagerDuty mit Datadog , eine Warnung in Datadog kann sofort einen Vorfall in PagerDuty auslösen und so den Vorfallreaktionsprozess Ihres Teams starten. Um einen Vorfall automatisch zu erstellen, definieren Sie eine Warnung in Datadog basierend auf einem SLI und @-erwähnen Sie PagerDuty im Text der Warnung.
Wenn der Alarm ausgelöst wird, wird ein Ereignis in Ihrem Datadog-Ereignisstrom angezeigt und die Integration erstellt einen Vorfall in PagerDuty. Wenn die Metrik von selbst in einen nicht alarmierenden Zustand zurückkehrt, löst die Integration den Vorfall automatisch in PagerDuty. Auf diese Weise muss Ihr Vorfallreaktionsteam nicht handeln, aber PagerDuty behält den Verlauf des Vorfalls zur zukünftigen Bezugnahme bei.
Durch das automatische Auslösen von Vorfällen können Sie nicht nur Ihren Reaktionsprozess beschleunigen, sondern auch sicherstellen, dass Sie über einen zuverlässigen Verlauf der Fälle verfügen, in denen Ihr Team Ihre SLOs versäumt hat. Sie können diese historischen Daten im PagerDuty Vorfalltrends Bericht, der zeigt, wie viele Vorfälle ausgelöst wurden, wann und welche PagerDuty Dienste betroffen waren.
- Starten Sie gut informiert in Ihre Incident Response
Um die Lösung von Vorfällen zu beschleunigen, benötigen Ihre Einsatzkräfte Kontext und aktuelle Informationen zu jedem Vorfall – einschließlich aktueller Überwachungsdaten der beteiligten Dienste sowie aller potenziell betroffenen Abhängigkeiten. Sie können jeden PagerDuty Dienst so konfigurieren, dass er in jedem Vorfall ein relevantes Datadog-Diagramm oder ein vollständiges Dashboard enthält. Auf diese Weise können Einsatzkräfte Daten anzeigen, die den Status und den Verlauf des zugrunde liegenden SLI eines Vorfalls sowie zugehörige Metriken anzeigen, mit denen sie den Zustand aller vor- und/oder nachgelagerten Komponenten und Dienste beurteilen können.
Wenn Sie synthetische Tests in Datadog, um die Verfügbarkeit und Leistung von API-Endpunkten zu bestätigen, auf die Ihr Dienst oder Ihre Anwendung angewiesen ist, können Sie die Testergebnisse in die Datadog-Dashboards aufnehmen, die auf Ihren PagerDuty Vorfallseiten angezeigt werden. Auf diese Weise können die Einsatzkräfte während eines Vorfalls sofort den Status der Upstream-Dienste sehen. Wenn das Dashboard anzeigt, dass ein Vorfall durch einen Ausfall in einem Abhängigkeit von Drittanbietern , können Sie Ihre Anwendung so neu konfigurieren, dass stattdessen ein anderer Dienst verwendet wird.
Sie können auch Überwachungsdaten von den internen Komponenten Ihrer Anwendung (wie Endpunkten, Datenbanken, Caching-Engines und DNS) sammeln und diese auf Ihren Vorfall-Dashboards anzeigen, wie im Screenshot oben gezeigt. Die Überwachung der Leistung dieser Komponenten kann Ihnen helfen, Probleme zu erkennen, die die Ursache eines Vorfalls erklären könnten.
- Integrieren Sie in beide Richtungen
Durch die Integration von PagerDuty mit Datadog können Sie nahtlos Echtzeit-Vorfallinformationen auf beiden Plattformen hinzufügen und aktualisieren, um sicherzustellen, dass die Teammitglieder vollständige und aktuelle Informationen immer zur Hand haben.
Vorfallinformationen, die Sie in PagerDuty sammeln oder erstellen, können automatisch an Datadog gesendet werden, um sicherzustellen, dass alle Teams über Informationen zum Vorfall verfügen. Sie können konfigurieren die Integration um Ihren Datadog-Ereignisstrom kontinuierlich mit Informationen aus Ihren PagerDuty Vorfällen zu aktualisieren – beispielsweise, wenn ein Vorfall bestätigt oder delegiert wird. Sie können diese Ereignisse auf Datadog-Diagrammen überlagern, um sie mit Metriken zu korrelieren, sodass Sie den Umfang, die Auswirkungen und die möglichen Ursachen eines Vorfalls untersuchen können.
Wenn Ihr Team einen Vorfall in PagerDuty aktualisiert, beispielsweise um den Vorfall zu lösen oder ihn durch Hinzufügen einer Notiz im **Anmerkungen** Feld in der PagerDuty Benutzeroberfläche – Sie können sehen, dass diese Änderungen automatisch im Datadog-Ereignisstream angezeigt werden.
Sie können die Integration auch so konfigurieren, dass Ihre Datadog-Überwachungsinformationen automatisch zu Ihren PagerDuty Vorfällen hinzugefügt werden. Wenn in Datadog ein Alarm ausgelöst wird, kann automatisch ein Vorfall in PagerDuty erstellt werden. Sie können jedoch auch jederzeit manuell einen Vorfall erstellen, indem Sie ein Ereignis veröffentlichen, das Folgendes erwähnt: @ PagerDuty
in Ihrem Datadog-Ereignisstrom.
Um den Vorfall direkt aus dem Ereignisstrom zu bestätigen oder zu lösen, fügen Sie dem Ereignis einen Kommentar hinzu, in dem Folgendes erwähnt wird: @ PagerDuty-bestätigen
oder @ PagerDuty-auflösen
. Das Ergebnis ist, dass der Vorfall aktualisiert – bestätigt und gelöst – wird, als ob diese Änderungen innerhalb der PagerDuty Benutzeroberfläche vorgenommen worden wären, wie im Screenshot unten gezeigt.
Machen Sie das Beste aus PagerDuty + Datadog
Eine schnelle und effektive Reaktion auf Vorfälle kann Ihnen helfen, negative Auswirkungen auf Ihre Benutzer und Ihr Unternehmen zu minimieren. Integrieren Sie PagerDuty mit Datadog, um Vorfälle automatisch auszulösen, relevante Daten in einer einzigen Ansicht zu visualisieren und Ihre MTTR zu reduzieren. Wenn Sie Datadog noch nicht verwenden, können Sie mit einem 14 Tage kostenlos testen.