Le processus amélioré de gestion des incidents de Honeycomb élimine les goulots d'étranglement et génère d'excellents résultats pour l'ensemble de l'organisation.
Taille: 201-500
Industrie: Technologie
Emplacement: San Francisco, Californie
Intégrations clés :
Zoom Avant Jeli
Honeycomb s'est rapidement imposé comme un leader dans le domaine de l'observabilité grâce à une équipe innovante à sa tête. Au cours d'une période de croissance fulgurante, son équipe SRE a constaté les besoins croissants en matière d'analyse et d'apprentissage des incidents.
- Le processus était assez laborieux et impliquait de copier-coller manuellement des messages de canaux Slack dans Google Docs, de comprendre les moments clés dans le temps à travers des systèmes et des outils disparates, le tout avec une petite équipe.
- La communication et la coordination entre les équipes internes pendant un incident en cours manquaient de clarté quant aux responsabilités.
- Les incidents amenaient souvent les équipes internes à utiliser un canal Slack partagé pour poser des questions, ce qui empêchait les intervenants de se concentrer sur leur tâche principale : diagnostiquer et résoudre l’incident. Le principal changement apporté par Jeli est que dès qu’un problème semble intéressant, il est désormais automatiquement transféré vers un canal Jeli dédié.
L'équipe d'ingénierie de Honeycomb cherchait une meilleure façon de tirer des enseignements des incidents qu'elle rencontrait (après avoir utilisé Jeli pendant un certain temps, elle a étendu son utilisation pour améliorer sa collaboration avec les équipes internes, telles que les ventes et le service client, lors d'incidents). L'équipe souhaitait identifier des thèmes et des tendances permettant de repérer les failles de ses systèmes et les axes d'amélioration, tant pour les équipes techniques que non techniques. Honeycomb recherchait une solution pour apprendre de ses incidents, et elle a obtenu bien plus : Jeli aide désormais l'équipe à réagir et à analyser les incidents plus efficacement.
Identifier une solution
Honeycomb a commencé à utiliser Jeli pour l'analyse des incidents, avec pour objectif initial de développer son équipe SRE et de minimiser les points de défaillance uniques dans la gestion des incidents. L'entreprise souhaitait également partager les enseignements tirés de ses incidents avec les parties prenantes des ventes, du succès client, de la direction et d'autres services.
L'entreprise ayant déjà intégré une culture d'apprentissage, l'étape suivante consistait à résoudre les difficultés liées à l'information des parties prenantes pendant un incident. Honeycomb s'est tournée vers le bot de réponse aux incidents de Jeli pour l'aider à développer ses pratiques de gestion des incidents, notamment face à la croissance continue de ses équipes.
« C'est le genre de contenu qu'on trouve sur Jeli, une chaîne éphémère, accessible en un seul endroit. Tout le monde sait ce que c'est. Tout le monde peut l'utiliser. »
– Ian Smith Responsable de l'ingénierie, Honeycomb
Les résultats
Aujourd'hui, Honeycomb a réussi à faire évoluer (et à développer) sa pratique de gestion des incidents, passant d'une seule personne à toute l'équipe d'ingénierie de la plateforme, qui participe désormais à la fois à la réponse aux incidents et aux revues d'apprentissage.
- Le bot IR de Jeli facilite la communication entre les intervenants et les membres de l'équipe, en diffusant automatiquement des messages sur les canaux Slack critiques afin de partager les mises à jour avec les autres équipes des ventes, du support client et de la direction.
- L'importation automatique des messages et des fils de discussion Slack dans Jeli facilite grandement l'analyse des incidents par rapport à la méthode précédente qui consistait à copier-coller les messages dans un document Google.
- L'outil de création de récits de Jeli a permis à Honeycomb de mettre en place un processus permettant aux ingénieurs de consacrer plus de temps à la rédaction de rapports de qualité et moins à la recherche d'informations. Ils peuvent ainsi se concentrer sur l'analyse des incidents, source d'apprentissage et de développement pour leur équipe. Pour ce faire, ils ont utilisé l'outil de création de récits afin de concevoir une chronologie simple et agréable, retraçant le déroulement de l'incident.
« Lors de l'évaluation de Jeli, j'ai mené une expérience : j'ai annoté manuellement un incident majeur (d'une durée de plus de 7 heures), ce qui m'a pris environ 4 jours (soit probablement entre 18 et 25 heures). J'ai ensuite réanalysé cet incident avec Jeli et cela m'a pris environ 6 heures. Ce temps d'analyse a été un facteur déterminant dans notre décision d'adopter Jeli. »
-Fred Herbert , SRE du personnel, Honeycomb
Résumé
L'intégration de Jeli comme composant clé du programme de gestion des incidents de Honeycomb a permis d'optimiser considérablement le cycle de vie de cette gestion. Le bot de gestion des incidents de Jeli a libéré du temps précieux, permettant aux équipes de se concentrer sur la résolution des problèmes et de rédiger des analyses post-incident de meilleure qualité, reflétant les faits et les expériences vécues et favorisant les échanges essentiels au sein de l'organisation.
« Notre équipe de direction utilise les analyses d'incidents de Jeli pour prendre des décisions éclairées dans la planification de notre feuille de route. La plateforme nous permet de consulter des documents et des enseignements pour favoriser l'amélioration continue de notre logiciel. »
– Ian Smith Responsable de l'ingénierie, Honeycomb
Jeli est désormais un élément clé du processus d'intégration des nouveaux ingénieurs d'astreinte chez Honeycomb, créant ainsi un processus simple et reproductible à mesure que l'entreprise continue de croître.