Der Blog

Verwenden von Incident-Management-Daten zur Messung der Teamleistung

von Patrick O Fallon 21. September 2016 | 5 Minuten Lesezeit

Bei der Verwaltung Ihrer ITOps Team ist es wichtig, Key Performance Indicators (KPIs) basierend auf realen und umsetzbaren Daten zu etablieren. Mit der Weiterentwicklung der ITOps-Landschaft wachsen auch die Verantwortung und die potenzielle Größe Ihres Teams. Dies ermöglicht die Verwaltung von mehr Ressourcen und Benutzern sowie eine größere Variabilität in Bezug auf Rechenumgebungen, Konfigurationen und Sicherheit. Mehr denn je benötigen Sie eine Plattform, die Ihnen ein klares Bild der Leistung und Gesamteffektivität Ihres Teams liefert.

Was sich in den Analysen verbirgt

Unternehmen setzen eine Incident-Management-Plattform ein, um die Reaktion auf Incidents von einem reaktiven zu einem proaktiven Prozess zu machen. Die Lösung kann Ihnen sagen, was schiefgeht, und die Daten liefern, die eine schnelle Lösung ermöglichen. Dieser Wert liegt auf der Hand. Als ich jedoch mit PagerDuty zu arbeiten begann, entdeckte ich einen verborgenen Vorteil, der die Plattform über das reine Incident-Management hinausging. Ich konnte die integrierten Analysefunktionen nutzen, um die Leistung und Effektivität meines Teams mit einem neuen Maß an Transparenz zu messen.

pagerduty-analytics-dashboard-reports Quelle: PagerDuty Analytics Dashboard

Top-Mitwirkende erkennen

Mithilfe der Daten von PagerDuty konnten wir ein System einrichten, um diejenigen zu belohnen, die auf Vorfälle reagierten.

Es kommt immer wieder vor, dass ein Bereitschaftstechniker Anrufe auslässt oder bei dringenden Vorfällen notorisch verpasst. Dies mindert nicht nur die Effektivität des Teams, sondern zwingt auch die verantwortlichen Teammitglieder, einen größeren Teil der Arbeit zu tragen. Durch die Analyse benutzerzentrierter Vorfallmanagement-Analysen konnten wir schnell herausfinden, welche Teammitglieder Vorfälle nicht nur zur Kenntnis nehmen und darauf reagieren, sondern auch, wie viel Prozent der Teammitglieder in einem bestimmten Zeitraum daran teilgenommen und ihre Aufgaben ausgeführt haben. Natürlich gilt auch das Gegenteil, aber wir gehen mit gutem Beispiel voran.

Wenn Sie die Daten Ihrem Team zugänglich machen, können diese auch zur Selbstkontrolle genutzt werden. Wenn beispielsweise ein Benutzer häufig Eskalationen aufgrund von Inaktivität oder „Timeout-Eskalationen“ aufweist, kann diese Transparenz dem Team helfen, proaktiv die richtigen Maßnahmen zur Verbesserung der Effektivität zu ergreifen, bevor es zu Problemen bei der Vorfallsreaktion kommt, die sich auf das SLA auswirken könnten.

Keine Reaktion auf Vorfälle im luftleeren Raum

Ein weiteres Problem bestand darin, dass Vorfälle im luftleeren Raum erkannt und behoben wurden. Mangels Analyse- und Berichtsfunktionen konnten die Ingenieure auf Vorfälle reagieren, ohne dass der Rest des Teams davon wusste und überhaupt wusste, was passiert war. Dies führt zu einem Teufelskreis für ITOps-Teams, da die Leistungsträger unter Druck geraten und keine Anreize haben, ihre hervorragende Arbeit fortzusetzen. In manchen Fällen kann dies zu einer Fluktuation der Ingenieure führen. Außerdem werden wichtige Gelegenheiten verpasst, aus früheren Problemen zu lernen.

Metrikbasierte Belohnungen

Auf Grundlage der Analysen haben wir ein Anreizprogramm entwickelt, das sich an die monatlichen Mitarbeiter richtet, die die meisten Vorfälle erkannt und gelöst haben. Dies hat dazu beigetragen, den Wettbewerb um die Produktivität der Ingenieure anzukurbeln.

Ein weiteres Beispiel wäre die Belohnung Ihres ITOps-Eskalationsteams, wenn es die MTTA unter einer Minute und die MTTR unter einer Stunde hält (oder welche Kennzahlen auch immer für Ihr Team sinnvoll sind). Diese Anreizprogramme motivieren nicht nur Ihre Ingenieure und das gesamte Eskalationsteam, sondern tragen auch zur Effektivität bei der Einhaltung Ihrer SLAs bei.

Nachfolgend finden Sie einige Ideen, wie Sie Anreize für Ihr Incident-Response-Team schaffen können:

  • Motivieren Sie den „Top Incident Responder“ des Monats.
    • Dies könnte die Person sein, die die meisten Vorfälle für das Team zur Kenntnis nimmt.
    • Dies könnte die Person sein, die die meisten ungelösten Vorfälle für das Team eskaliert.
  • Schaffen Sie Anreize für die leistungsbasierten Kennzahlen Ihres Teams.
    • Dies könnte die Beibehaltung von Problemen mit hoher Dringlichkeit innerhalb eines bestimmten Kriteriensatzes sein.
    • Belohnen Sie den Benutzer mit den ihm zugewiesenen Vorfällen mit der höchsten Dringlichkeit.
    • Schaffen Sie Anreize für zielorientierte Zeit zur Anerkennung und Zeit zur Lösung.
  • Anreize für Kennzahlen und Reaktionsfähigkeit im Laufe der Zeit schaffen
    • Belohnen Sie Ihr Team dafür, dass es im Vergleich zum letzten Monat besser ist.
  • Disziplinmetriken, die unter Ihrem SLA liegen
    • Die „Bereitschaftszeit“ ist hoch, während die „Anzahl der bestätigten Vorfälle“ niedrig ist.
    • Häufiges Auftreten von „Timeout-Eskalationen“ durch bestimmte Teammitglieder
    • „Zeit bis zur Bestätigung“ und „Zeit bis zur Lösung“ höher als geplant

pagerduty-analytics-dashboard-team-reports Quelle: PagerDuty Analytics Dashboard

 

Da die Service-Level-Anforderungen an ITOps immer strenger werden, steigen nicht nur die operativen, sondern auch die Management-Herausforderungen. Wenn ITOps-Teams vorhandene Tools nutzen, um proaktiv zu lernen, ihre Teams zu messen und zu motivieren, profitieren sie sowohl von der operativen Effizienz als auch von der Teamproduktivität. Incident-Management-Analysen in Plattformen wie PagerDuty ist für uns zu einer unschätzbar wertvollen Ressource geworden, nicht nur um den wachsenden Anforderungen an die IT gerecht zu werden, sondern auch um die Effektivität zu optimieren und die Zufriedenheit der Teammitglieder zu steigern. Es hat uns mehr Transparenz, besseres Lernen und eine hervorragende Möglichkeit geboten, jedes Mitglied unseres Teams zu bewerten und zu motivieren.

 

Bereit, PagerDuty auszuprobieren? Melden Sie sich für eine kostenlose Testversion an.