Der Blog

Nicht alles Kritische ist dringend. Lernen Sie den Unterschied

von Dave Cliffe 17. September 2015 | 3 Minuten Lesezeit

„Kritisch“ versus „Dringend“

Nehmen wir an, eine Staging-Umgebung wird so eingerichtet, dass sie die Produktionsumgebung hinsichtlich Konfiguration, Daten usw. möglichst genau widerspiegelt. Sie ist ein sehr wichtiger Teil der Bereitstellungspipeline und während des Arbeitstages für alle Ingenieure, die sie benötigen, praktisch geschäftskritisch. Sie wird ständig überwacht, um sicherzustellen, dass sie ordnungsgemäß funktioniert, die Produktion bestmöglich widerspiegelt und für Bereitstellungen verfügbar ist.

Dann geht etwas schief, und Sie sehen überall „KRITISCH“ oder „FEHLER“. Oh … ich habe vergessen zu erwähnen, dass es bei Ihnen 3 Uhr morgens ist. Ist es in diesem Moment wirklich „kritisch“? Nun, technisch gesehen schon. Die Umgebung ist immer noch kaputt. Aber wollen Sie das Problem jetzt beheben? Ist es dringend?

Was bedeutet „kritisch“ überhaupt?

Das Incident-Response-Modell von PagerDuty basierte ursprünglich auf der Annahme, dass es ein Problem gibt und Sie JETZT jemanden brauchen: Wir rufen den primären Bereitschaftsdienst wiederholt an, wir eskalieren, wenn dieser nicht verfügbar oder verhindert ist, aber komme, was wolle: Wir werden sofort und zuverlässig jemanden schicken – garantiert So können Sie nachts beruhigt schlafen. Im Ernstfall können Sie auf uns zählen: Wir kümmern uns um Sie.

Aber was bedeutet „kritisch“? Wer definiert es? Einige unserer Kunden verwenden das ITIL-Framework, um Vorfallpriorität . (Tatsächlich wurde es bis zur Einführung von ITIL v3 „Vorfallschweregrad“ genannt.) Die Mehrheit unserer Kunden verlässt sich jedoch auf ihre Überwachungstools, um einen Schweregrad/eine Priorität zu definieren: Welcher Schwellenwert wurde überschritten? Wie oft ist es in den letzten 60 Sekunden zu einem Fehler gekommen? Ist es größtenteils tot oder alle tot?

Es lief darauf hinaus, eine zentrale Frage zu stellen: Muss ich jetzt sofort etwas dagegen unternehmen? Oder anders ausgedrückt: Ist es dringend?

Es mag „kritisch“ sein, aber ist es „dringend“?

Eine Reihe von Alarmreaktionen zu haben, ist unglaublich nützlich, denn es bedeutet oft, dass Sie frühzeitig über einen beginnenden „schlechten“ Trend informiert werden, bevor es tatsächlich „schlecht“ wird. Nur weil etwas nicht dringend ist heißt nicht, dass es nicht wichtig ist , und da alle Ihre Vorfälle, ob groß oder klein, in PagerDuty sind, erhalten Sie wertvolle Analysen zu Problemen, die sich möglicherweise anbahnen.

Leider haben einige unserer Kunden festgestellt, dass die Umwandlung jeder Warnung in einen PagerDuty Vorfall ein Rezept für schlaflose Nächte sein kann. miserable Bereitschaftsdienste und Burnout. Also jetzt, mit Dringlichkeit von Vorfällen , können Sie vermeiden, für Dinge geweckt zu werden, von denen Sie wissen, dass sie keine dringende Aufmerksamkeit erfordern, und Sie können herausfinden, was jetzt wichtig ist und was warten kann.

Nur wecken lassen, wenn es „dringend“ ist

Wenn Sie immer noch für Dinge geweckt werden, die nicht dringend sind, verwenden Sie das folgende Runbook:

  1. Verschieben Sie es bis zum Morgen! Kümmern Sie sich dann am nächsten Tag darum.
  2. Nutzen Sie jetzt unsere Dringlichkeit von Vorfällen Funktionen zum Definieren dieser Ereignisse als Ereignisse mit geringer Dringlichkeit oder abhängig von der Tageszeit.

Und wie immer können Sie uns Feedback senden an support@pagerduty.com ! Jeden Tag, zu jeder Zeit. Seien Sie einfach nicht verärgert, wenn es uns nicht aufweckt!

Monitoring_Ebook_728_90