PagerDuty image

Der verbesserte Incident-Management-Prozess von Honeycomb beseitigt Engpässe und führt zu hervorragenden Ergebnissen im gesamten Unternehmen.

PagerDuty image

Größe: 201-500

Industrie: Technologie

Standort: San Francisco, Kalifornien

Wichtige Integrationen:

Locker
Zoom

Vor Jeli

Honeycomb hat sich mit einem innovativen Team an der Spitze schnell zu einem führenden Anbieter im Bereich Observability entwickelt. Während einer Phase unglaublichen Wachstums spürte das SRE-Team den steigenden Bedarf an Analysen und Erkenntnissen aus Vorfällen:

  • Der Prozess war ziemlich arbeitsintensiv und beinhaltete das manuelle Kopieren und Einfügen von Slack-Kanalnachrichten in Google Docs, das Verständnis wichtiger Zeitpunkte in verschiedenen Systemen und Tools, und das alles in einem kleinen Team.
  • Die Kommunikation und Koordination zwischen den internen Teams während eines laufenden Einsatzes war mangelhaft, da es an klaren Zuständigkeiten mangelte.
  • Vorfälle führten häufig dazu, dass interne Teams einen gemeinsamen Slack-Kanal für operative Angelegenheiten nutzten, um Fragen zu stellen. Dies erschwerte es den Einsatzkräften, sich auf ihre eigentliche Aufgabe – die Diagnose und Behebung des Vorfalls – zu konzentrieren. Die entscheidende Änderung, die Jeli ermöglicht hat, besteht darin, dass jedes relevante Problem nun in einem eigenen Jeli-Kanal erstellt wird.

Das Entwicklungsteam von Honeycomb suchte nach einer besseren Methode, aus den aufgetretenen Vorfällen zu lernen (später, nach längerer Nutzung von Jeli, wurde die Anwendung auch auf die Zusammenarbeit mit internen Teams wie Vertrieb und Kundenservice bei Vorfällen ausgeweitet). Das Team wollte Muster und Trends erkennen, um Schwachstellen in den Systemen und Verbesserungspotenziale in technischen und nicht-technischen Teams aufzudecken. Honeycomb suchte nach einer Lösung, die es ermöglichte, aus Vorfällen zu lernen, und erhielt genau das und noch viel mehr – Jeli unterstützt das Team nun auch bei der effizienteren Reaktion auf und Analyse von Vorfällen.

Eine Lösung finden

Honeycomb begann mit dem Einsatz von Jeli zur Vorfallanalyse, um zunächst das SRE-Team zu skalieren und Single Points of Failure im Vorfallmanagement zu minimieren. Zudem wollten sie die Erkenntnisse aus ihren Vorfällen mit Stakeholdern aus Vertrieb, Kundenerfolg, Management und anderen Bereichen teilen.

Da eine Lernkultur bereits fest in der Unternehmenskultur verankert war, bestand der nächste Schritt darin, einige der Herausforderungen zu bewältigen, die mit der Information der Stakeholder während eines Vorfalls einhergehen. Honeycomb wandte sich an Jeli's Incident Response Bot, um die Incident-Management-Praxis weiter auszubauen, insbesondere angesichts des stetigen Wachstums der Teams.

„Das sind die Inhalte, die man mit Jeli bekommt, einem temporären Kanal, der an einem einzigen Ort zu finden ist. Jeder weiß, was es ist. Jeder kann es machen.“

– Ian Smith , Engineering Manager, Honeycomb

Die Ergebnisse

Heute hat Honeycomb seine Incident-Management-Praxis erfolgreich von einer einzelnen Person auf das gesamte Platform Engineering-Team ausgebaut, das nun sowohl an der Reaktion auf Vorfälle als auch an den Lernanalysen beteiligt ist.

  • Der IR-Bot von Jeli erleichtert es den Mitarbeitern, mit ihren Teammitgliedern zu kommunizieren – Nachrichten werden automatisch an wichtige Slack-Kanäle gesendet, um Aktualisierungen mit anderen Teams in Vertrieb, Kundensupport und der Führungsebene zu teilen.
  • Durch den automatischen Import von Nachrichten und Slack-Threads in Jeli wird die Analyse von Vorfällen zum Kinderspiel im Vergleich zur vorherigen Methode, Nachrichten in ein Google Doc zu kopieren und einzufügen.
  • Jelis Narrative Builder half Honeycomb dabei, einen Prozess zu entwickeln, der es den Ingenieuren ermöglicht, mehr Zeit mit dem Verfassen hochwertiger Berichte zu verbringen und weniger Zeit mit der Informationssuche. Sie können sich stattdessen auf die Untersuchung von Vorfällen konzentrieren, die ihrem Team Lern- und Entwicklungsmöglichkeiten eröffnen. Dies gelang ihnen durch die Nutzung des Narrative Builders, um auf einfache und angenehme Weise eine Zeitleiste zu erstellen, die den Ablauf des Vorfalls anschaulich darstellt.

    „Als wir Jeli evaluierten, führte ich ein Experiment durch, bei dem ich einen größeren Vorfall (Dauer über 7 Stunden) manuell annotierte. Das dauerte etwa 4 Tage (vermutlich 18 bis 25 Stunden). Später analysierte ich den Vorfall erneut mit Jeli, und das dauerte nur noch etwa 6 Stunden. Diese kurze Analysedauer war einer der Hauptgründe für den Wechsel zu Jeli.“

    -Fred Herbert , Mitarbeiter SRE, Honeycomb

Zusammenfassung

Durch die Einführung von Jeli als zentralem Bestandteil des Incident-Management-Programms von Honeycomb konnte der Incident-Management-Prozess deutlich effizienter und nutzbringender gestaltet werden. Der IR-Bot von Jeli verschafft den Mitarbeitern mehr Zeit, sich auf die Problembehebung zu konzentrieren und qualitativ hochwertigere Nachbesprechungen von Vorfällen zu erstellen, die Fakten und Erfahrungen dokumentieren und wichtige Gespräche im gesamten Unternehmen anstoßen.

„Unser Managementteam nutzt Vorfallanalysen in Jeli, um fundierte Entscheidungen bei unserer Roadmap-Planung zu treffen. Die Plattform ermöglicht es uns, auf Dokumente und Erkenntnisse zurückzugreifen, um die kontinuierliche Verbesserung unserer Software voranzutreiben.“

– Ian Smith , Engineering Manager, Honeycomb

Jeli ist mittlerweile ein wichtiger Bestandteil des Onboarding-Prozesses von Honeycomb für neue Bereitschaftsingenieure und sorgt so für einen einfachen und wiederholbaren Prozess, während das Unternehmen weiter wächst.