- PagerDuty /
- Blog /
- Communauté /
- Qu’est-ce que la maturité opérationnelle ?
Blog
Qu’est-ce que la maturité opérationnelle ?

PagerDuty et les leaders d'opinion DevOps se réunissent pour répondre aux questions sur la maturité opérationnelle.
Mercredi soir, PagerDuty a organisé un événement où Dropbox, Flipboard et Splunk, clients de longue PagerDuty , ont partagé leur expérience, leurs anecdotes et leurs enseignements sur les opérations à grande échelle. Ils ont également prodigué des conseils sur la manière dont ces enseignements peuvent être appliqués à d'autres équipes. Nous avons été ravis d'échanger avec nos clients, partenaires et l'ensemble de la communauté sur la notion de maturité opérationnelle. Voici ce qui a été dit à ce sujet :
Qu’est-ce que la maturité opérationnelle ?
Andrew Fong, responsable de l'infrastructure chez Dropbox :
Les cultures opérationnellement matures sont celles qui sont capables de comprendre les compromis qu'elles font dans un environnement de production et l'impact que cela a sur l'entreprise.
Joey Parsons, responsable de la plateforme et des opérations chez Flipboard :
Pour nous, la maturité opérationnelle repose sur la compréhension des répercussions des incidents, tant sur l'activité que sur le bien-être des employés. Être d'astreinte peut être une expérience enrichissante ou négative pour la personne intervenante. Il est essentiel de disposer des outils et processus opérationnels nécessaires pour prendre des décisions éclairées et pertinentes pour l'entreprise.
Sean Jacobs, responsable des opérations d'infrastructure et de centre de données chez Splunk :
Chez Splunk, la maturité opérationnelle se mesure souvent à l'aune de notre capacité de réaction en situation de crise. En tant qu'entreprise spécialisée dans le Big Data, nous collectons des informations sur presque tous les aspects de notre infrastructure, mais disposer des données et disposer de données pertinentes sont deux défis bien différents.
Tim Armandpour, vice-président de l'ingénierie chez PagerDuty :
La maturité opérationnelle implique d'évoluer dans un environnement axé sur les tests, où les incidents critiques dus à des bogues sont rares et mesurés. Elle implique également de faire partie d'une organisation où chaque équipe participe à un système d'astreinte et utilise le même système et la même méthodologie de gestion des incidents pour une transparence et une collaboration optimales. Dans une entreprise opérationnellement mature, la fiabilité et la responsabilité sont considérées comme des facteurs clés de succès. Plus une entreprise est mature, plus elle est agile, capable de s'adapter rapidement et d'évoluer au rythme du marché.
Qu'est-ce qui, dans votre travail, vous permet d'atteindre une maturité opérationnelle ?
Andrew Fong, responsable de l'infrastructure chez Dropbox :
Auparavant, notre processus de gestion des incidents (SEV) chez Dropbox était informel et sans responsable clairement identifié, hormis les ingénieurs seniors. Au cours de l'année écoulée, nous avons mis en place un processus qui désigne un responsable dédié à la coordination et à la résolution des incidents. Nous avons défini des critères précis et développé des outils adaptés afin de pouvoir accompagner plus de 350 ingénieurs, ainsi que les équipes Produit, Communication et Juridique. De plus, chez Dropbox, les incidents peuvent concerner aussi bien les serveurs que les clients (nous proposons des logiciels de bureau !). Il nous fallait donc un processus efficace pour tous.
Joey Parsons, responsable de la plateforme et des opérations chez Flipboard :
L'acquisition de maturité a largement contribué à l'évolution de nos politiques d'astreinte et d'escalade. La surveillance est un processus continu qui nécessite une refonte constante pour garantir la qualité de l'activité et le bien-être des employés. Un système d'alerte défaillant engendre très rapidement l'insatisfaction de ces derniers.
Sean Jacobs, responsable des opérations d'infrastructure et de centre de données chez Splunk :
Nous déployons des efforts considérables pour que nos systèmes d'alerte et de surveillance soient réellement utiles, et non pas simplement une surveillance généralisée. De plus, nous accordons une grande importance à l'analyse rétrospective afin d'itérer et d'améliorer nos processus, plutôt que de devoir réagir aux mêmes problèmes chaque semaine.
Tim Armandpour, vice-président de l'ingénierie chez PagerDuty :
Chaque vendredi chez PagerDuty Vendredi de l'échec Dans ce cadre, nos ingénieurs mettent volontairement des services hors service et tentent de perturber notre système afin de garantir le bon fonctionnement de tous nos mécanismes de sécurité. La fiabilité est primordiale pour nous : nous disposons de trois centres de données actifs, ce qui nous permet de rester en ligne même si l'un d'eux est indisponible. Nous avons également mis en place une politique de gestion des incidents rigoureuse et avons éliminé les alertes non exploitables, si bien que nos ingénieurs d'astreinte n'en reçoivent que quelques-unes par mois au maximum.
