Blog

Du temps de ticket au temps réel : changer le statu quo du travail opérationnel

par PagerDuty 15 juin 2021 | 7 minutes de lecture

Ce blog était publié précédemment le 27 mai 2021.


2020 a été… difficile

Maintenir une entreprise numérique en activité n'a jamais été une tâche facile, surtout au cours de la dernière année. 2020 a forcé de nombreuses entreprises à accélérer leurs initiatives de transformation numérique Plus vite que quiconque l'imaginait ! Les clients exigent davantage de capacité et de fiabilité, les entreprises lancent de nouveaux services à un rythme sans précédent, et les entreprises apprennent à utiliser de nouveaux modèles de télétravail, mettant à rude épreuve leurs systèmes et leurs collaborateurs.

La complexité est la nouvelle norme

Dans les opérations, il y a toujours eu un mélange d'applications existantes et nouvelles. Mais la complexité des systèmes a augmenté avec l'essor du cloud public, des conteneurs et des microservices, même pour les entreprises SaaS de taille moyenne.

Représentation visuelle des services pour une entreprise SaaS de taille moyenne

Les équipes opérationnelles sont habituées à gérer les défaillances. Cependant, avec l'ampleur et la complexité croissantes des services actuels, les problèmes et les défaillances sont plus fréquents et peuvent être beaucoup plus difficiles à résoudre. À cela s'ajoute la pression d'ouvrir les processus pour accélérer l'organisation, mais aussi pour sécuriser les processus et maintenir la conformité.

Il va sans dire que garder une longueur d'avance n'est pas chose aisée. Comment une entreprise peut-elle progresser plus vite tout en évitant les risques ? C'est là qu'intervient le concept d'opérations en temps réel.

Pourquoi des opérations en temps réel ?

Tout le monde s'accorde à dire que la rapidité est un avantage concurrentiel. Alors, comment une entreprise peut-elle accélérer ses opérations ? C'est quasiment impossible si les opérations sont réactives. Malheureusement, c'est le cas de nombreuses entreprises aujourd'hui. On appelle cela des opérations réactives, dites « opérations au moment du ticket ».

La vie au sein des opérations a toujours été un mélange de travail planifié et imprévu. Les équipes opérationnelles sont fréquemment interrompues par quelqu'un qui leur demande quelque chose ou qui leur demande quelque chose.

Il s'agit d'un flux incessant de demandes sous forme de tickets, demandant souvent de refaire la même tâche à maintes reprises. Par exemple, les équipes de développement peuvent demander à l'équipe réseau de modifier une règle de pare-feu à chaque nouvelle version. L'équipe réseau doit interrompre son travail pour effectuer la modification… mais cette modification doit également être approuvée par l'équipe sécurité avant sa mise en ligne. L'équipe réseau interrompt alors l'équipe sécurité et attend son aide. Pendant ce temps, chacun jongle avec son travail.

L'industrie s'est habituée à cette façon de travailler, et les résultats ne sont pas encourageants. Les ingénieurs se sentent frustrés, surmenés et sous-utilisés, tandis que les chefs d'entreprise ont l'impression que tout prend trop de temps, coûte trop cher et tombe en panne trop souvent.

Voilà où nous en sommes aujourd'hui. Les exigences des opérations informatiques poussent les choses à leur paroxysme. Il n'est plus viable de fonctionner avec le fardeau lent, explosif et coûteux d'un modèle d'exploitation basé sur les tickets. Les opérations doivent désormais évoluer vers ce que nous appelons des opérations en temps réel.

Qu'entend-on par « temps réel » ? Le temps réel désigne la capacité à prendre des décisions et à agir au rythme de l'entreprise. Il implique une communication et une prise de décision instantanées. Au lieu de cloisonner l'information et le contrôle, il s'agit de distribuer le contrôle à l'ensemble de l'organisation et de permettre à chacun de travailler à son rythme et de bénéficier d'un contrôle de bout en bout.

Trois façons de permettre des opérations en temps réel

1. Surveillance, observabilité et AIOps

La surveillance est une pratique ancestrale, traditionnellement réservée au service Opérations. Elle consiste à rechercher des tendances ou des événements similaires à ceux observés précédemment et à alerter les personnes concernées lorsque ces conditions se produisent.

Le « nouveau » est l'observabilité, qui mesure la capacité à comprendre les états internes d'un système à partir de ses sorties externes. Les outils et méthodes d'observabilité nous aident à interroger nos services pour comprendre ce qui se passe réellement.

Il est construit sur :

  • Événements: Cet événement discret est-il quelque chose qui s’est déjà produit ?
  • Métrique :En regardant ces événements, on se demande : les choses s’améliorent-elles ou empirent-elles ?
  • Traçage distribué : Examinez les nouvelles infrastructures distribuées et comprenez comment ces événements traversent chaque composant.

Bien que la surveillance soit traditionnellement du ressort des opérations, nous constatons que l'observabilité est également portée par les développeurs. La surveillance et l'observabilité permettent d'assurer des opérations en temps réel en offrant une meilleure visibilité entre les équipes et nous aident à comprendre le fonctionnement quotidien des systèmes.

Enfin, et surtout, il y a l'AIOps. L'AIOps consiste à combiner les fonctionnalités des outils pour comprendre ce qui se passe en temps réel. Il offre des solutions similaires aux solutions de gestion d'événements existantes, mais inclut des fonctionnalités supplémentaires indispensables aux environnements complexes et modernes d'aujourd'hui, telles que l'apprentissage automatique, l'automatisation, la collecte et l'ingestion flexibles de données, des visualisations performantes, etc. Il s'agit de collecter toutes les informations et tous les signaux de l'infrastructure, d'agréger les métriques, de réduire le bruit, d'améliorer la corrélation et la compréhension, et d'identifier les tendances. Découvrez comment utiliser l'AIOps pour une meilleure gestion des incidents.

2. Propriété du service

Dans un monde numérique de plus en plus complexe, la notion de propriété des services devient de plus en plus importante.

Les organisations doivent savoir :

  • Que se passe-t-il lorsque quelque chose ne va pas ?
  • Quelles sont les dépendances ?
  • Et qui est la personne responsable ?

La pratique de propriété des services permet de créer une carte qui répond à ces questions et aide les entreprises à comprendre l’interaction entre les équipes et les systèmes techniques avec lesquels elles interagissent.

Les services échoueront, c'est une réalité. La façon dont une entreprise réagit face à une défaillance peut faire toute la différence entre conserver ou perdre des clients.

La gestion complète des services simplifie le cycle de réponse aux incidents en permettant aux ingénieurs de maîtriser leurs services en production, ce qui réduit le nombre de transferts et peut considérablement réduire le temps moyen de réparation (MTTR) en cas d'incident. Placer des experts métier, connaissant directement les systèmes qu'ils prennent en charge, dans le rôle de premiers intervenants contribue à atténuer le chaos et la panique inévitables liés à l'incertitude.

3. Opérations en libre-service

Pour les organisations qui tentent de passer d’une approche réactive basée sur les tickets à une approche proactive, le modèle d’opérations en libre-service est un outil clé pour les opérations en temps réel.

Que signifie « temps réel » en matière de libre-service ? Plutôt que de confiner l'information et le contrôle à des silos fonctionnels, le libre-service délègue le contrôle aux bonnes personnes au sein de l'organisation.

Le libre-service consiste notamment à communiquer des informations, comme le contexte du système, la visibilité, la propriété des services, les bons runbooks et l'aide à la décision. Il permet également aux experts métier de se consacrer à des tâches à valeur ajoutée pour l'entreprise, sans être constamment interrompus par des demandes.

Dans un scénario de gestion d'incident, cela signifie que les premiers intervenants disposent des informations et du contrôle nécessaires pour intervenir ou demander à l'IA d'intervenir en leur nom. Cela se traduit par une résolution plus rapide et moins d'escalades perturbatrices !

Libre-service avec automatisation du Runbook

Vous pouvez créer un libre-service avec l’automatisation du runbook. Automatisation du cahier des charges permet aux experts en la matière de définir des flux de travail qui couvrent différents outils, scripts, API, autorisations, informations d'identification et procédures de ligne de commande et de déléguer ce processus aux personnes qui en ont besoin.

L'automatisation des cahiers d'exécution permet aux bonnes personnes d'effectuer en toute sécurité des tâches auparavant réservées aux experts métier. Elle permet également à vos experts métier de transposer leurs meilleures pratiques en pratiques communes.

L'automatisation des runbooks peut être utilisée tout au long du cycle de vie. En cas d'incident, les intervenants peuvent diagnostiquer un problème et disposer d'actions automatisées qu'ils devraient normalement transmettre à des experts. Cela fonctionne également pour les demandes de service courantes. Pour les tâches de provisionnement, de modification et de maintenance, au lieu d'attendre constamment que quelqu'un intervienne, l'automatisation des runbooks permet aux utilisateurs d'effectuer eux-mêmes les tâches. En savoir plus sur les opérations en libre-service.

Notre opportunité de transformer la façon dont les opérations sont réalisées couvre l'ensemble du cycle de vie des opérations. Appliquer une approche opérationnelle en temps réel à ces autres tâches opérationnelles peut faire une grande différence pour améliorer la productivité de l'entreprise ! Pour découvrir comment PagerDuty peut vous aider, inscrivez-vous pour un essai gratuit de 14 jours aujourd'hui.