Herzschlagereignisüberwachung
Überwachen Sie die Systemverbindung und erkennen Sie fehlende Herzschläge mithilfe der Herzschlagereignisüberwachung von PagerDuty.
Erweitertes Zustandsmanagement
Die manuelle Heartbeat-Verwaltung entfällt durch eine Automatisierung, die mithilfe von Cache-Variablen und Ereignisorchestrierung zwischen Wartungsfenstern und tatsächlichen Systemausfällen unterscheidet.
Serviceorientierter Kontext
Erhalten Sie sofortigen Einblick in die betroffenen Geschäftsdienste, deren Abhängigkeiten und die Auswirkungen auf die Kunden, wenn Heartbeats ausfallen.
Automatische Lösung
Beschleunigen Sie die Reaktionszeiten durch automatische Alarmbehebung, sobald die Herzschläge wieder aufgenommen werden, und durch die Erstellung von Vorfällen, die die Teams auf die tatsächlichen Probleme und nicht auf Störungen fokussieren.
Wie kann PagerDuty Advance Ihnen heute helfen?
Problem
Organisationen, die auf veraltete Heartbeat-Überwachungssysteme setzen, stoßen auf operative blinde Flecken bei einfachen binären Statusprüfungen, die eine manuelle Zuordnung zwischen Heartbeat-Fehlern und tatsächlichen Systemproblemen erfordern. Dies führt zu Störungen durch veraltete Warnmeldungen und einem Mangel an Kontextinformationen über die Auswirkungen auf den Service oder die geschäftlichen Konsequenzen.
Lösung
PagerDutys AIOps-gestützte Heartbeat-Überwachung wandelt einfache Verbindungsprüfungen in ein intelligentes Betriebsmanagement mit automatisierter Statusverfolgung, regelbasierter Zuordnung und serviceorientiertem Kontext um, wodurch Störungen reduziert und gleichzeitig die Lösungszeiten durch umfassende Transparenz der Geschäftsauswirkungen beschleunigt werden.
Technische Arbeitsschritte
1a. Ereignisdaten-Cache-Variable erstellen
- Für Ereignisse, bei denen event_action = “trigger”
- Extrahieren Sie das Feld dedup_key aus dem aktuellen Ereignis.
1b. Ereigniszähler-Cache-Variable erstellen
- Für Ereignisse, bei denen event_action = “trigger”
- Legen Sie die Dauer für Ihre gewünschtes Herzschlag-Zeitfenster
2. Orchestrierungsregel zur Behebung von Warnungen erstellen
Zustand
- Für Ereignisse, bei denen event_action = “trigger”
- Ereignisanzahl-Cache-Variable >= 1
- Ereignisdaten-Cache-Variable existiert
Aktion
Alarm aussetzen für gewünschtes Herzschlag-Zeitfenster + 5 Sekunden (Die zusätzliche Zeit dient als Puffer, damit der Webhook die vorherige Warnung auflösen kann.)
Webhook bei Alarmaussetzung auslösen
- URL: https://events.pagerduty.com/v2/enqueue
- Routing_key: COPY INTEGRATION KEY FROM EO
- Dedup_key : {{EVENT DATA CACHE VARIABLE NAME}}
- Ereignisaktion: „resolve“
- *Zusätzliche Felder* (Bitte beachten Sie, dass je nach den Routing-Regeln innerhalb der Ereignisorchestrierung möglicherweise weitere Felder erforderlich sind, damit das Ereignis an den richtigen Dienst weitergeleitet wird, um die Warnung zu beheben. Dies ist nicht erforderlich, wenn die globale Deduplizierung für die Ereignisorchestrierung konfiguriert ist.)
3. Orchestrierungsregel erstellen, um das erste Heartbeat-Ereignis zu erfassen
Zustand
- Für Ereignisse, bei denen event_action = “trigger”
- Variable für Ereignisanzahl im Cache
Aktion
- Alarm aussetzen für gewünschtes Herzschlag-Zeitfenster + 5 Sekunden