Der Blog

Überwachung von Geschäftsmetriken und Verbesserung der Reaktion auf Ausfälle

von Dave Cliffe 4. Juni 2015 | 4 Minuten Lesezeit

Argumente für die Überwachung von Geschäftsmetriken

Ob die CPU Ihres Servers zu 100% ausgelastet ist oder jemand fällt Ihren Regenwald ab PagerDuty hat keine Meinung dazu, wie Sie unsere Plattform nutzen, um eine Reaktion Ihres Bereitschaftsteams auszulösen. Aber in einem Bereich haben wir eine klare Meinung: bei der Alarmierung von Geschäftskennzahlen. Nutzen Sie es.

Was meinen wir nun mit „Geschäftsmetriken“? Da Überwachungstools die Erfassung von Betriebsmetriken wie Festplattenauslastung, Anforderungslatenz usw. immer einfacher machen, ist es noch einfacher geworden, Warnmeldungen an PagerDuty zu konfigurieren, wenn diese Metriken zu schwanken beginnen.

Den großen roten Knopf drücken

Grundsätzlich betrachten wir diese Kennzahlen als Indikatoren für einen größeren, geschäftsschädigenden Ausfall. Es ist absolut entscheidend, die Informationen Ihrer Kennzahlen zu verstehen, bevor ein größerer Ausfall eintritt. Diese sind oft komplex und schwer zu vermitteln. Tatsächlich ist es etwas, das viele erfahrene NOC-Mitarbeiter einfach als eine Art „sechsten Sinn“ entwickeln. (Interessanterweise ist es auch etwas, das nicht effektiv trainiert werden kann. Kathy Sierras Buch Badass: Benutzer großartig machen spricht über das Konzept des „Wahrnehmungswissens“ und wie das Gehirn durch das Üben der Mustererkennung viel besser lernen kann als durch den Versuch, das Training zu verbalisieren, und zwar anhand von Beispielen von Geschlechtsbestimmung von Küken Und Flugausbildung Dies scheint angesichts der Kombinationen von Betriebskennzahlen, die auf einen Ausfall hinweisen, gleichermaßen zu gelten.) Unabhängig davon, ob Sie ein NOC oder ein verteiltes Bereitschaftsteam einsetzen, gibt es eine (vermutlich) von einem Menschen getroffene Untersuchung und Triage-Entscheidung, die zu einer dringenden, koordinierten Reaktion führt. Bei PagerDuty nennen wir das „den großen roten Knopf drücken“. Es funktioniert. Es erfordert jedoch immer menschliches Eingreifen, um ein potenziell weit verbreitetes Problem zu bestätigen.

Seien Sie dem Ausfall zuvorkommen, indem Sie Geschäftsmetriken in Echtzeit überwachen

Was ist einfacher? Beginnen Sie mit der Überwachung Ihrer Geschäftskennzahlen in Echtzeit. Ihr CFO, Ihre Business-Analysten und sogar Ihre Produktmanager sehen sich diese Daten bereits regelmäßig, vielleicht sogar täglich, an. Der Schlüssel liegt darin, diese Daten zu operationalisieren. Vielleicht sind Sie ein E-Commerce-Unternehmen, das stark auf einen Einkaufswagen angewiesen ist, der im Laufe eines Arbeitstages typischerweise Tausende von Artikeln Ihres gesamten Kundenstamms enthält. Was passiert, wenn der Einkaufswagen plötzlich überall Nullen anzeigt? Hinweis: Etwas stimmt nicht, und Sie müssen alle so schnell wie möglich daran arbeiten lassen. Genau das tun die effektivsten Unternehmen. Amazon schlägt Alarm, wenn die Bestellungen pro Sekunde spürbar zurückgehen. Netflix überwacht die Stream-Starts pro Sekunde. Unerwartete Änderungen dieser wichtigen Kennzahlen lösen eine umfassende Untersuchung und Notfallmaßnahmen aus.

So überwachen wir intern Geschäftskennzahlen

Bei PagerDuty leben wir nach einem Zuverlässigkeitskodex: Wir müssen leistungsfähiger sein als unsere Anbieter, die Rechenzentren, in denen wir gehostet werden, und Sie. Unser Service-Level-Agreement (SLA) ist uns heilig, und sein Herzstück ist unsere Pipeline für die Ereigniserfassung und Alarmierung. Wir haben unser System so konzipiert, dass jede Verlangsamung unserer Pipeline zehn Personen gleichzeitig alarmiert und sofort eine dringende, kritische Reaktion auslöst. Eine menschliche Triage ist nicht erforderlich. Wir wissen, dass wir das Notfallteam sofort benötigen, da unsere Geschäftskennzahlen darauf hinweisen, dass etwas nicht stimmt.

Engineering bedeutet Geschäft

Als Ingenieure sollten wir stets verstehen, welchen Mehrwert wir dem Unternehmen bieten. Sie sind mehr als nur dafür verantwortlich, den Betrieb Ihres Unternehmens am Laufen zu halten, insbesondere wenn es wächst, skaliert und neue Wege findet, Kunden zu begeistern. Es geht um mehr als nur Serververfügbarkeit. Wechseln Sie Ihre Perspektive und setzen Sie auf einen geschäftsorientierten, kundenorientierten Monitoring-Ansatz. Um dies selbst umzusetzen, ermitteln Sie die Kennzahlen, die IHR Unternehmen widerspiegeln, überwachen Sie diese in Echtzeit, lernen Sie, Anomalien zu erkennen und bei Störungen entsprechend zu reagieren.

Denken Sie daran: Eine 100-prozentige CPU-Auslastung kann sowohl schlimm (Vorbote eines Ausfalls) als auch vorteilhaft (maximale Ressourcennutzung) sein. Sie werden es nicht wissen, wenn Sie nicht verstehen, wie sich dies auf Ihre Kunden und Ihr Unternehmen auswirkt.

eBook_440_220