- PagerDuty /
- Blog /
- Automatisierung /
- Vom Chaos zu umsetzbaren Erkenntnissen mit PagerDuty -Integrationen und -Automatisierung
Blog
Vom Chaos zu umsetzbaren Erkenntnissen mit PagerDuty -Integrationen und -Automatisierung
Wir schreiben das Jahr 2023. In der heutigen Zeit ist jedes Unternehmen und jeder Einzelne, branchenunabhängig, auf Software angewiesen, um die Produktivität zu steigern. Unsere Nutzer erwarten, dass unsere Technologie jederzeit verfügbar und zuverlässig ist. Wenn Ihre Software von Unternehmen innerhalb eines Landes während der üblichen Geschäftszeiten genutzt wird, erwarten diese, dass sie während dieser gesamten Zeit verfügbar ist. Ganz einfach, oder?
Wenn Ihre Software jedoch Kunden weltweit rund um die Uhr mit dem Bedarf an geringer Latenz bedient, müssen Sie Ihre Dienste in mehreren Regionen betreiben und Teams einsetzen, die Kunden an verschiedenen Standorten betreuen.
Auch wenn das zweite Szenario komplexer erscheinen mag, gelten dieselben Prinzipien. Unweigerlich wird etwas unerwartet ausfallen, und in Stresssituationen wie Zwischenfällen und Serviceausfällen wird Chaos entstehen. Seien Sie also vorbereitet.
Dem Chaos einen Sinn geben
Unsere Dienste sind heute dezentralisiert und nutzen verschiedene Plattformen, Hardware- und Softwarekomponenten, von denen wir einige nicht einmal selbst verwalten. Sobald etwas ausfällt, befinden wir uns im „Problemlösungsmodus“. Obwohl ich mit den Abenteuern von Sherlock Holmes aufgewachsen bin, macht mir das unter Zeitdruck keinen Spaß. Das muss sich ändern!
PagerDuty Operations Cloud dient als zentrale Plattform für alle Ereignisse Ihrer bestehenden Tools. Sie müssen weder Ihre CI/CD-Plattform noch Ihre ITSM- oder Monitoring-Tools ändern. Integrieren Sie diese einfach mit PagerDuty , indem Sie unsere über 700 integrierten Integrationen nutzen oder Ihre eigene Integration mithilfe unserer Ereignis- oder REST-APIs erstellen.
Sobald Sie die Integrationen für Ihre Dienste aktivieren, verarbeitet und aggregiert die AIOps-Funktion von PagerDuty Ereignisse intelligent und ordnet sie den Zieldiensten zu. Dadurch wird die Anzahl der erstellten Incidents reduziert und bestehende Incidents werden mit relevanten Informationen angereichert, die Ihnen helfen, die Ursache des Problems zu ermitteln.
Aus Sicht eines Incident-Response-Teams ist es wichtig, sofort nach Auftreten eines Problems benachrichtigt zu werden und Zugriff auf alle Informationen zu haben, die vor und nach dem Vorfall vorliegen. Die PagerDuty Integration mit Amazon CloudWatch ist ein Beispiel für eine solche Integration, die Sie benachrichtigt, sobald Ihre Ressourcen einen Alarmzustand erreichen. In AWS ausgelöste Alarme generieren Warnmeldungen in PagerDuty , die zu Incidents führen können.


Ein weiteres Beispiel ist, dass GitHub alle Änderungen an der Codebasis an PagerDuty sendet, damit der Incident Responder weiß, wann etwas Neues bereitgestellt wurde und die potenziellen Auswirkungen dieser Änderungen analysieren kann.

Nutzung der APIs
Es kann Situationen geben, in denen die integrierten Integrationen nicht ausreichen und Sie eigene Integrationen erstellen müssen. Dies kann entweder durch die Verwendung von … erfolgen. Events API oder die REST-API Die
Für Integrationen, die eine höhere Frequenz erfordern, wie z. B. Monitoring- oder Observability-Tools, empfehlen wir die Events API aufgrund ihrer höheren Ratenbegrenzungen und Zuverlässigkeit. Es ist jedoch wichtig, Folgendes zu beachten: API-Antwortcodes und Vorgehensweisen zum Wiederholen Ihre Anfragen im Fehlerfall.
Ereignisse, die über die API gesendet werden, werden an einen PagerDuty -Dienst weitergeleitet und verarbeitet. Sie können zur Erstellung einer neuen Warnung und/oder eines neuen Vorfalls oder zur Aktualisierung oder Behebung eines bestehenden Vorfalls führen.
Die Events-API unterstützt zwei Arten von Ereignissen:
- Veranstaltungen – Die Überwachungstools sollten je nach Ereignistyp ein Trigger-Ereignis an PagerDuty senden, um ein neues Problem zu melden oder ein laufendes Problem zu aktualisieren.
- Änderungsereignisse Die Change Events API ermöglicht das Senden von Informationsereignissen über kürzlich erfolgte Änderungen, wie z. B. Code-Deployments und Systemkonfigurationsänderungen, von jedem System, das eine ausgehende HTTP-Verbindung herstellen kann. Diese Ereignisse erstellen keine Incidents und versenden keine Benachrichtigungen, werden aber im Kontext von Incidents im selben PagerDuty Dienst angezeigt.
Um Ihre Ereignisse effektiv weiterzuleiten, verwendet die Events API zwei verschiedene Endpunkte: https://events [.eu].pagerduty.com/v2/enqueue für Alarmereignisse , Und https://events [.eu].pagerduty.com/v2/change/enqueue für Ereignisse ändern Sobald Sie Fügen Sie die Events API v2-Integration hinzu. Sie erhalten für Ihren Dienst die URLs für Ihr Konto sowie einen Integrationsschlüssel für Ihren Dienst (siehe Abbildung unten).

Damit können Sie praktisch jeden Dienst, jedes Tool oder jede Plattform in PagerDuty Operations Cloud integrieren, ohne auf die von PagerDuty bereitgestellten nativen Integrationen angewiesen zu sein.
Dormain Drewitz, PagerDutys Vizepräsidentin für Plattform-Advocacy, unterhielt sich kürzlich mit Nakul Bhagat aus dem Produktteam über die APIs von PagerDuty. Aufpassen Wenn Sie mehr Details zur Verwendung dieser Produkte suchen.
Die richtigen Leute zur richtigen Zeit
Nachdem nun alle Dateneinblicke in PagerDuty Operations Cloud fließen und an die richtigen Dienste weitergeleitet werden, müssen Sie die richtigen Personen zum richtigen Zeitpunkt einbeziehen. Einsatzkräfte Dies wird erreicht durch die Definition Teams , Bereitschaftspläne Und Eskalationsrichtlinien . Für andere Interessengruppen Dies geschieht typischerweise durch die Verwendung von Statusseiten , Statusaktualisierungen oder durch Sie als Abonnenten zu einem aktiven Vorfall hinzufügen Die
Zusätzlich zu den auf Benutzerkonten konfigurierten Benachrichtigungsmechanismen bietet PagerDuty eine Reihe von Integrationen und Erweiterungen, die es Teams ermöglichen, in den Tools zu bleiben, die sie bereits täglich verwenden. Dadurch wird der Bedarf an Kontextwechseln reduziert und die Akzeptanz erleichtert.
Wenn Sie beispielsweise PagerDuty Integrationen für bestehende Kommunikationsplattformen wie Slack oder Microsoft Teams aktivieren, ermöglichen Sie es jeder Person im Unternehmen, benachrichtigt zu werden, sich einzubringen und über den Stand eines bestimmten Vorfalls informiert zu sein, der potenziell Probleme in verschiedenen Bereichen des Unternehmens verursachen kann. Die Erstellung von Vorfallskanälen und das Hinzufügen relevanter Ansprechpartner und Stakeholder können automatisiert werden. Arbeitsabläufe bei Vorfällen Die

Wenn Sie diese Schritte befolgen, sind Sie bestens gerüstet, um einen optimalen Kundenservice zu bieten. Dadurch werden Ihre Kunden zufriedener sein als zuvor. Aber geht da noch mehr?
Zeit sparen durch Automatisierung
Die Automatisierung spielt in PagerDuty Operations Cloud eine wichtige Rolle, da sie es Ihnen ermöglicht, wiederkehrende Aufgaben zu automatisieren und anderen Nutzern im Self-Service-Verfahren eingeschränkte Funktionen sicher bereitzustellen (siehe Beispiele). Hier Durch die Integration von Automatisierung in Ihren Arbeitsablauf können Sie die Fehlerwahrscheinlichkeit verringern und die Effizienz der Ingenieure, die diese nutzen, steigern.
Beim Betrieb von Diensten auf einer Cloud-Plattform gibt es zahlreiche potenzielle Fehlerquellen, noch bevor die Anwendung erreicht wird. Sie können die Plattformdiagnose automatisieren mit Prozessautomatisierung oder Runbook-Automatisierung innerhalb Arbeitsabläufe bei Vorfällen Anstatt die vollständigen Protokolle auszugeben, können Sie diese Diagnosedaten in einem lesbaren Format in Ihre Vorfall-Timeline ausgeben.

Screenshot-Beispiel für aus der Prozessautomatisierung hinzugefügte Vorfallnotizen.
Dadurch können nicht nur die Einsatzkräfte schnell erkennen, wo die Probleme liegen, sondern auch andere Beteiligte können sich über die Maßnahmen zur Behebung des Vorfalls informieren.
Schritt für Schritt
In diesem Blogbeitrag haben Sie die Funktionen von PagerDuty Operations Cloud zur Reduzierung von Störungen und zur effektiven Störungsbehebung kennengelernt. Eine gut implementierte Strategie für den Umgang mit Störungen und die Rufbereitschaft bietet erhebliche Vorteile. Ihre Kunden werden zufriedener sein, Ihr Unternehmen wird florieren und Ihre Teams werden mit ihrer Arbeit und dem erworbenen Wissen zufriedener sein.
Man sollte jedoch die Bedeutung von Werkzeugen allein nicht unterschätzen. Gehen Sie es langsam an, sammeln Sie Erkenntnisse, beziehen Sie andere ein und konzentrieren Sie sich auf das, was für Ihre Kunden und Ihr Unternehmen relevant ist.
Teilen Sie uns Ihre Meinung mit!
Haben Sie bereits unsere REST- oder Event-APIs in Betrieb genommen? Teilen Sie uns dies bitte mit, indem Sie dieses kurze Formular ausfüllen. Umfrage !
Schließen Sie sich auch unserer an Community-Foren oder wenden Sie sich an community-team@pagerduty.com Wir würden gerne Ihre Meinung zu den neuen Funktionen hören und erfahren, was Sie sich für die Zukunft wünschen.