Blog

PagerDuty + Atlassian: Moderne Incident-Response-Lösungen im Handumdrehen

von Dave Cliffe 31. Mai 2018 | 5 Minuten Lesezeit

Um den steigenden Kundenanforderungen und der Erwartung ständiger Echtzeitverfügbarkeit gerecht zu werden, verändern digitale Prozesse die Arbeitsweise. Besonders interessant ist dabei, wie sich dies nicht nur auf IT-Betriebs- und Entwicklungsteams auswirkt, sondern wie das gesamte Unternehmen in die Verbesserung der Kundenreaktionsfähigkeit eingebunden wird. Die Reaktion auf Sicherheitsvorfälle ist hierfür ein gutes Beispiel – sowohl aufgrund des hohen Zeitdrucks als auch der unternehmensweiten Anstrengungen (Kundensupport, Führungskräfte, Kommunikation/Marketing, Vertrieb usw.), eine effektive Reaktion zu entwickeln. Schwerwiegende Vorfälle sind ein Geschäftsproblem, kein Produktproblem. Gute Kommunikation und Zusammenarbeit sind daher unerlässlich. moderne Vorfallsreaktion Die

Atlassian ist sich dieser Realität bewusst. Zusätzlich zu unseren bereits umfangreichen Integrationen mit JIRA, HipChat und StatusPage freuen wir uns, die allgemeine Verfügbarkeit unserer PagerDuty Stride-Erweiterung bekannt zu geben. Schreiten Stride ist die Komplettlösung für die Teamkommunikation und ideal, um die Transparenz im Team zu erhöhen, sobald ein PagerDuty Vorfall ausgelöst wird. Besonders hervorzuheben ist jedoch, wie Stride Ihre Organisation in Krisenzeiten, beispielsweise bei einem Großschadensereignis, optimal unterstützt. Insbesondere bietet es Einsatzleitern, ihren Stellvertretern und Protokollanten hervorragende Funktionen für eine effektive Reaktion auf Vorfälle. (Sie sind mit der Einsatzleitung noch nicht vertraut? Werfen Sie einen kurzen Blick auf unsere Best Practices:) https://response.pagerduty.com/ .)

Hier sind einige unserer Lieblingsfunktionen von Stride für Einsatzleitung Die

Die PagerDuty Stride Sidebar

PagerDuty gebührt die Ehre, mit der Entstehung von ... in Verbindung gebracht zu werden. ChatOps (Mit freundlicher Genehmigung von GitHub) Eine der häufigsten Arten, wie ChatOps missbraucht wird, besteht darin, neue Mitarbeiter zu zwingen, den gesamten Chatverlauf durchzulesen, um die Details eines Vorfalls zu erfassen. Die Seitenleiste von Stride bietet eine Übersicht über die wichtigsten Informationen zum Vorfall. Die ausführlichen Gespräche zum Vorfall finden im Chatraum statt, während der aktive Vorfall in der Seitenleiste eine Zusammenfassung der Auswirkungen, Ereignisse, wichtigen Entscheidungen und ergriffenen Maßnahmen enthält.

Diese Art von Informationen ist genau das, was der Protokollführer erfassen muss, und eignet sich perfekt sowohl für die Echtzeit-Aktualisierung als auch für die spätere Zusammenstellung der postmortalen Chronologie. Gemeinsame Basis ist ein Schlüsselkonzept in der Kommunikation und besonders wichtig für die Reaktion auf Vorfälle. Einsatzleiter werden darin geschult, solche Zusammenfassungen regelmäßig zu erstellen (oft mündlich im Telefonat), um ein gemeinsames Verständnis zu gewährleisten. Man sollte die Leute nicht mehr zwingen, den Chatverlauf zu lesen, um auf dem Laufenden zu sein! (Dan Slimmon von Exosite hat dazu eine Anmerkung.) fantastisches Gespräch (Falls es Sie interessiert: Ein Vortrag von Velocity Santa Clara 2016 zu genau diesem Thema.)

Schrittentscheidungen

Eines der wichtigsten Prinzipien effektiver Reaktion auf Sicherheitsvorfälle ist, dass die gesamte Entscheidungsbefugnis beim Einsatzleiter liegt. Dies ist besonders wichtig bei größeren Vorfällen, bei denen risikoreichere Entscheidungen notwendig sein können, um die Auswirkungen auf die Kunden zu minimieren. Ein Beispiel aus unseren Schulungen: Normalerweise würde man nicht alle Webserver gleichzeitig neu starten, da dies zu Ausfallzeiten führen würde. Sind jedoch alle Kunden bereits anderweitig betroffen, kann ein gleichzeitiger Neustart anstelle eines schrittweisen Neustarts die richtige Entscheidung sein.

Stride Decisions ermöglicht es Ihnen, schwierige Entscheidungen direkt während der Protokollierung der Reaktion festzuhalten. Solche Entscheidungspunkte sind eine hervorragende Möglichkeit, den Konsens innerhalb Ihres Einsatzteams zu aktualisieren. Denken Sie daran: Auch wenn Sie die Entscheidungsbefugnis haben, sollten Sie stets das Fachwissen Ihrer Fachexperten einbeziehen. Sie benötigen keine Genehmigung für Ihre Entscheidungen, aber es ist ratsam, vor dem weiteren Vorgehen nach möglichen Einwänden zu fragen, um einen nachträglichen Beurteilungsfehler zu vermeiden.

Schrittaktionen

In der Hektik einer Krisenleitung kann es schwierig sein, den Überblick zu behalten. Sobald eine Entscheidung getroffen wurde, folgen oft verschiedene Maßnahmen. Stride Actions eignen sich perfekt, um die unterschiedlichen Untersuchungen und Experimente zu verfolgen, die notwendig sind, um das Ausmaß der Auswirkungen auf die Kunden zu verstehen und mögliche Minderungsmaßnahmen zu entwickeln.

Für solche zeitkritischen Aktionen empfehlen wir außerdem dringend drei Punkte:

  1. Weisen Sie sie zu, entweder an eine Person namentlich („Dave Cliffe“) oder an eine Funktion („Netzwerk-Bereitschaftsdienst“).
  2. Setzen Sie ihnen ein Zeitlimit. So weiß die Person, wie viel Zeit ihr bleibt, bevor sie mit weiteren Informationen zurückkommen soll (dies trägt auch dazu bei, implizit ein gewisses Maß an Dringlichkeit zu erzeugen).
  3. Empfangsbestätigung erhalten, damit der Einsatzleiter weiß, dass sie die Aufgabe verstanden haben.

Vernachlässigen Sie nicht die Postmortem-Analyse.

Sobald sich die Lage beruhigt hat und die Auswirkungen auf die Kunden minimiert wurden, sollte der Einsatzleiter als eine der letzten Aufgaben die Nachbesprechung des Vorfalls anordnen. Denken Sie daran, dass jeder Vorfall eine Lernmöglichkeit bietet – und zwar nicht nur in Bezug auf die technischen Aspekte Ihrer Systeme. Ein besseres Verständnis der Kommunikation Ihrer Teams kann zukünftige Reaktionsmaßnahmen noch erfolgreicher gestalten. Überprüfen Sie daher Ihren Prozess zur Reaktion auf Vorfälle regelmäßig. PagerDuty JIRA-Integration bietet außerdem eine hervorragende Möglichkeit, die von Ihrem Einsatzteam identifizierten Maßnahmen weiterzuverfolgen.

Moderne Incident-Response erfordert einen neuen Ansatz, der verteilte Verantwortung fördert und eine präzise, ​​automatisierte und kollaborative Reaktion ermöglicht, die sich durch Iteration und Lernen stetig verbessert. Mit der PagerDuty Stride-Erweiterung in Kombination mit den JIRA- und StatusPage-Integrationen bieten PagerDuty und Atlassian eine hervorragende Plattform für effektive Einsätze. Testen Sie es und teilen Sie uns Ihre Meinung mit!

 

Weitere Ressourcen:

  • Erste Schritte mit Stride
  • Modernes Training zur Reaktion auf Zwischenfälle
  • Bewährte Verfahren für die Reaktion auf Sicherheitsvorfälle