- PagerDuty /
- Blog /
- Vorfallmanagement und Reaktion /
- 5 Einsatzmanagement-Tools, die Sie während eines Feuergefechts benötigen
Blog
5 Einsatzmanagement-Tools, die Sie während eines Feuergefechts benötigen
Es ist entscheidend, die richtigen Werkzeuge parat zu haben, bevor es zu einem Notfall kommt. Fehlen diese, wird es deutlich schwieriger, einen größeren Ausfall zu erkennen, zu organisieren, zu bekämpfen und zu beheben. Dies gilt insbesondere dann, wenn Teams mit der Bekämpfung des Problems beschäftigt sind, anstatt mit internen und externen Stakeholdern zu kommunizieren. Sind bewährte Vorgehensweisen im Vorfeld etabliert, lässt sich ein schwieriger Vorfall wesentlich reibungsloser bewältigen.
Die folgende Liste der Bereiche, die vor einem Ausfall geplant werden sollten, ist nicht vollständig, aber sie wird die Fähigkeit Ihrer Organisation, sich zu koordinieren und auf jedes Problem vorbereitet zu sein, erheblich verbessern.
1. Interne Kommunikation
Die interne Kommunikation findet üblicherweise per E-Mail statt. Dies ist aus mehreren Gründen problematisch. E-Mails sind ein Eins-zu-eins-Medium. Sie sind standardmäßig geschlossen, d. h. sie sind nur für Absender und Empfänger lesbar und zudem von Natur aus umfangreich und schwer zu durchsuchen, wenn schnell Statusinformationen benötigt werden. Permanente Kollaborationsumgebungen wie Locker HipChat bietet eine extern gehostete Plattform zur Informationsverbreitung. Beide Plattformen stellen zudem öffentliche, optional abonnierbare Themenkanäle zur Verfügung, die ebenfalls zur Informationsverbreitung genutzt werden können. Auf kritischer Ebene können Statusaktualisierungen (oder Meldungen, dass das Problem bereits bekannt ist und bearbeitet wird) nahezu in Echtzeit an wichtige Mitarbeiter (Support, Führungsebene) übermittelt werden.
2. Überwachung der Anwendungsleistung und Infrastruktur
Idealerweise erkennt das Team ein Problem mit einer Anwendung, bevor der Kunde es bemerkt. Anwendung und Infrastruktur Überwachungstechnologie kann dazu beitragen, dass dies der Fall ist, und kann inmitten des Ausfalls wertvolle Informationen darüber liefern, ob eine Fehlerbehebung oder ein Update wie vorgesehen funktioniert ( New Relic für Anwendungsüberwachung Und AWS CloudWatch (zwei solcher Technologien sind beispielsweise PagerDuty.) Es ist außerdem wichtig, sowohl die Anwendungs- als auch die Infrastrukturleistung zu überwachen und idealerweise beide mit einer Lösung wie PagerDuty zu verknüpfen, um alle Daten zu konsolidieren. Gesundheitsdienst Die Daten werden in einer einzigen Ansicht zusammengeführt und der Bereitschaftsdienst wird benachrichtigt, falls ein Problem dringendes Eingreifen erfordert. Die Fehlersuche gestaltet sich deutlich einfacher, wenn beide Ebenen einsehbar sind und die Ursache identifiziert werden kann.
3. Statusaktualisierungen
Bei Leistungsproblemen werden Support-Teams mit Update-Anfragen überflutet. Um diesen Ansturm zu bewältigen, bieten sich Twitter, eine Statusseite oder die Einbindung von Geschäftspartnern mithilfe eines Produkts wie PagerDuty an. Diese Systeme sind von Ihrer primären Infrastruktur getrennt und sollten selbst bei flächendeckenden Ausfällen stabil bleiben. Auf Twitter können Nutzer bei Problemen einfach nach angepinnten Tweets und aktuellen Antworten suchen. statusapp.com für alle „gelben“ oder „roten“ Statusmeldungen. Eine übersichtliche Statusseite wie die von statuspage.io ist eine entscheidende Komponente, um Ihre Kunden während eines Ausfalls zu informieren. Nutzer gewinnen Vertrauen in die Seite, wenn sie korrekte Informationen enthält und auch kleinere Störungen meldet – und damit auch in Ihr Unternehmen. Die Seite sollte außerdem Updates zur Fehlerbehebung sowie den Status jeder wichtigen Unterkomponente anzeigen. Diese Updates sollten innerhalb weniger Minuten verfügbar sein, um vollständige Transparenz zu gewährleisten. Schließlich bieten Funktionen wie Einbindung der Interessengruppen von PagerDuty Jeder Mitarbeiter im Krisenmanagement kann unkompliziert Statusaktualisierungen an vordefinierte Gruppen von Geschäftspartnern über den bevorzugten Benachrichtigungskanal – Telefon, SMS, E-Mail oder Push-Benachrichtigung – senden. Die Geschäftspartner können Statusaktualisierungen auch abonnieren, um in Echtzeit Informationen zu allen kundenrelevanten Problemen zu erhalten.
4. Ticketing-Lösung
Eine Ticketing-Lösung wie ZenDesk Ein effizientes Ticketmanagementsystem ist für das Management von Ausfällen unerlässlich. Ein längerer Ausfall kann erhebliche Störungen verursachen und das Vertrauen der Kunden schädigen. Es hilft, intermittierende Probleme zu identifizieren, die einem Anwendungsmonitor möglicherweise entgangen sind. Zudem erfasst und verteilt es Informationen im Zusammenhang mit einem Anstieg von Supportanfragen. Eskalationsprozesse decken potenzielle Probleme schneller auf als individuelle Beurteilungen, insbesondere in größeren Supportteams. Vorgefertigte Nachrichtenvorlagen sorgen für eine einheitliche und präzise Kommunikation während eines Ausfalls, und „Verwandt mit“-Tags erleichtern die Nachbesprechung eines Problems nach dessen Behebung.
5. Verfahrensverfolgung
Mit geeigneten Verfahren kann eine Organisation potenzielle Probleme ihrer Anwendungen frühzeitig erkennen und ihnen vorbeugen. Diese Szenarien sollten im Vorfeld dokumentiert werden. Informationen zu Fehlerbehebung, Risikominderung und -behebung sollten dokumentiert und dem Team zur Verfügung gestellt werden. Das Verfahren kann auch eine Aufgabenliste enthalten, die festlegt, wer welche Aufgaben übernimmt, Notfallnummern angibt und die Rufbereitschaft dokumentiert. Sofern die Ressourcen vorhanden sind, ist eine Planspielübung mit einem simulierten Systemausfall äußerst hilfreich, um Schwachstellen vor einem größeren Ausfall zu identifizieren. Im Anschluss an die Übung sollte eine Nachbesprechung mit dem Team durchgeführt werden. post mortem Verbessern Sie Ihre Abläufe. Es wird erneut zu Ausfällen kommen, und jede zusätzliche Information, die Sie Ihrem Prozess hinzufügen können, beschleunigt die Wiederherstellung. Wie bei den anderen oben genannten Punkten ist es möglich, dass Ihre lokale Architektur nicht mehr verfügbar ist. Daher empfiehlt es sich, diese Abläufe in einem extern gehosteten Repository zu speichern oder sie mit einer Lösung wie PagerDuty zu automatisieren.
Diese Tools stellen lediglich eine erste Auswahl dar. Ihre Wirksamkeit im Notfall hängt maßgeblich von der Zeit ab, die im Vorfeld für ihre korrekte Konfiguration und ihr Verständnis aufgewendet wurde. Die Kommunikation mit internen und externen Stakeholdern ist in jeder Krisensituation von entscheidender Bedeutung, insbesondere innerhalb des Unternehmens. ES wie in jeder anderen Funktion oder Branche.