- PagerDuty /
- Der Blog /
- Integrationen /
- PagerDuty + Atlassian: Moderne Incident Response im Griff
Der Blog
PagerDuty + Atlassian: Moderne Incident Response im Griff
Um den steigenden Kundenanforderungen und der Erwartung „immer in Echtzeit“ gerecht zu werden, verändern digitale Abläufe die Arbeitsweise der Menschen. Und einer der interessantesten Makrotrends ist zu sehen, wie sich dies nicht nur auf Ihre IT-Betriebs- und Entwicklungsteams auswirkt, sondern auch darauf, wie das gesamte Unternehmen daran beteiligt wird, die Reaktionsfähigkeit gegenüber Kunden zu erhöhen. Ob gut oder schlecht, die Reaktion auf Vorfälle ist ein hervorragendes Beispiel dafür – sowohl wegen des damit verbundenen Zeitdrucks als auch wegen der Bemühungen Ihres gesamten Unternehmens (einschließlich Kundensupport, Führungskräfte, Kommunikation/Marketing, Vertrieb usw.), eine wirksame Antwort zu formulieren. Größere Vorfälle sind ein Geschäftsproblem, kein Produktproblem. Und gute Kommunikation und Zusammenarbeit sind unerlässlich für moderne Reaktion auf Vorfälle .
Atlassian ist sich dieser Realität bewusst. Zusätzlich zu unserem bereits umfangreichen Set an Integrationen mit JIRA, HipChat und StatusPage freuen wir uns, die allgemeine Verfügbarkeit unserer PagerDuty Stride-Erweiterung bekannt zu geben. Schreiten ist die komplette Teamkommunikationslösung, die sich hervorragend eignet, um die Sichtbarkeit in Ihrem Team zu erhöhen, wenn ein PagerDuty Vorfall ausgelöst wird. Aber das Beste daran ist, wie Stride Ihre Organisation in Krisenzeiten, wie beispielsweise während eines größeren Vorfalls, auf Kurs halten kann. Insbesondere bietet es eine große Bandbreite an Funktionen für Einsatzleiter, Stellvertreter und Schreiber, um eine effektive Reaktion auf Vorfälle zu gewährleisten. (Sie kennen Einsatzleiter nicht? Werfen Sie einen kurzen Blick auf unsere Best Practices: https://response.pagerduty.com/ .)
Hier sind einige unserer beliebtesten Stride-Funktionen für Einsatzleitung .
Die PagerDuty Stride-Seitenleiste
Während PagerDuty die Ehre hat, mit der Entstehung von ChatOps (Quelle: GitHub) Eine der häufigsten Arten, wie ChatOps missbraucht wird, besteht darin, neue Mitarbeiter dazu zu zwingen, das gesamte Chatprotokoll durchzulesen, um die Einzelheiten zu einem Vorfall zu erfahren. Die Seitenleiste von Stride bietet einen Ort, an dem eine Momentaufnahme der wichtigsten Informationen zum Vorfall gespeichert werden kann. Die ausführlichen Gespräche zum Vorfall finden im Raum statt, während der aktive Vorfall in der Seitenleiste eine Zusammenfassung der Auswirkungen, Ereignisse, wichtigen Entscheidungen und ergriffenen Maßnahmen enthält.
Diese Art von Informationen muss der Scribe genau erfassen und eignet sich perfekt sowohl zum Aufholen in Echtzeit als auch zum späteren Zusammenstellen der Post-Mortem-Zeitleiste. Gemeinsamkeiten ist ein Schlüsselkonzept in der Kommunikation und besonders wichtig für die Reaktion auf Vorfälle. Einsatzleiter werden auch darin geschult, solche Zusammenfassungen regelmäßig zu erstellen (oft mündlich im Telefonat), um diese gemeinsame Basis aufrechtzuerhalten. Hören Sie auf, die Leute zu zwingen, „das Chatprotokoll zu lesen“, um auf den neuesten Stand zu kommen! (Dan Slimmon von Exosite hat eine fantastisches Gespräch von Velocity Santa Clara 2016 zu genau diesem Thema, falls Sie interessiert sind.)
Schrittentscheidungen
Eines der wichtigsten Prinzipien einer effektiven Reaktion auf Vorfälle ist, dass alle Entscheidungsbefugnis dem Einsatzleiter übertragen wird. Dies ist besonders wichtig bei einem größeren Vorfall, bei dem riskantere Entscheidungen erforderlich sein können, um die Auswirkungen auf die Kunden zu mildern. Ein Beispiel, das wir in unseren Schulungen verwenden: Normalerweise würden Sie nicht alle Ihre Webserver gleichzeitig neu starten, da dies zu Ausfallzeiten führen würde. Wenn jedoch alle Ihre Kunden bereits auf andere Weise betroffen sind, kann die Entscheidung hierfür anstelle eines rollierenden Neustarts die richtige Entscheidung sein.
Mit Stride Decisions können Sie diese schwierigen Entscheidungen ganz einfach inline aufzeichnen, während die Antwort geschrieben wird. Diese Art von Entscheidungspunkten ist eine großartige Möglichkeit, den gemeinsamen Nenner in Ihrem Antwortteam auf den neuesten Stand zu bringen. Denken Sie daran: Obwohl Sie die Entscheidungsbefugnis haben, sollten Sie immer die Expertise Ihrer Fachexperten nutzen. Sie brauchen keine Genehmigung für Ihre Entscheidungen, aber es ist immer eine gute Idee, vor dem Fortfahren nach „starken Einwänden“ zu fragen, um einen Rückschaufehler zu vermeiden.
Schrittaktionen
Es kann schwierig sein, während der intensiven Einsatzleitung organisiert zu bleiben. Sobald eine Entscheidung getroffen wurde, folgen oft verschiedene Maßnahmen. Stride Actions eignen sich perfekt zum Verfolgen der verschiedenen Untersuchungen und Experimente, die erforderlich sind, um das Ausmaß der Auswirkungen auf den Kunden zu verstehen und zu erfahren, wie diese möglicherweise gemildert werden können.
Für diese Art von zeitkritischen Aktionen empfehlen wir außerdem dringend drei Punkte:
- Weisen Sie ihnen zu, entweder einer Einzelperson nach Namen („Dave Cliffe“) oder nach Funktion („Netzwerk auf Abruf“) zugeordnet.
- Setzen Sie ihnen eine Zeitbegrenzung, So weiß die Person, wie viel Zeit vergeht, bevor sie mit weiteren Informationen zurückkommen sollte (dies trägt auch dazu bei, implizit eine gewisse Dringlichkeit zu erzeugen).
- Empfangene Bestätigung, damit der Einsatzleiter weiß, dass er die Aufgabe verstanden hat.
Vernachlässigen Sie die Obduktion nicht
Wenn das Chaos abgeebbt ist und die Auswirkungen auf die Kunden gemildert wurden, sollte ein Einsatzleiter als letztes die Post-Mortem-Analyse anordnen. Denken Sie daran, dass jeder Vorfall eine Lerngelegenheit ist – und das nicht nur in Bezug auf die technischen Aspekte Ihrer Systeme. Wenn Sie verstehen, wie Ihre Teams kommunizieren, können Sie zukünftige Reaktionsbemühungen noch erfolgreicher gestalten. Überprüfen Sie daher regelmäßig Ihren Vorfallreaktionsprozess. PagerDuty JIRA-Integration bietet außerdem eine hervorragende Möglichkeit, die von Ihrem Reaktionsteam ermittelten Aktionspunkte weiter zu verfolgen.
Modernes Incident Response erfordert einen neuen Ansatz, der verteilte Verantwortung berücksichtigt und gleichzeitig eine präzise, automatisierte und kollaborative Reaktion ermöglicht, die sich durch Iteration und Lernen verbessert. Durch die Verwendung der PagerDuty Stride-Erweiterung in Verbindung mit den JIRA- und StatusPage-Integrationen bieten PagerDuty und Atlassian eine großartige Plattform für effektive Abläufe. Probieren Sie es aus und teilen Sie uns Ihre Meinung mit!
Zusätzliche Ressourcen: