- PagerDuty /
- Blog /
- Meilleures pratiques et perspectives /
- Construire et développer votre équipe SRE
Blog
Construire et développer votre équipe SRE
Construire des équipes d'ingénierie de fiabilité de site (SRE) est complexe ! Il existe tellement d'articles et d'explications sur ce que signifie SRE qu'il est facile de s'y perdre. Le véritable défi consiste à aller au-delà de la compréhension du rôle individuel d'un SRE et à développer une équipe de SRE. Il est important de trouver les bonnes informations pour vous aider à faire progresser votre équipe SRE.
Dans une récente Allez-y jusqu'à la limite épisode de podcast avec Gremlin Tammy Bryant, directrice SRE, nous avons discuté de l'importance du SRE et de la manière de constituer des équipes avec la bonne culture. S'appuyant sur certaines des meilleures pratiques présentées par Tammy, cet article va au-delà de la simple définition du rôle d'un SRE et explore des moyens pratiques de constituer et de faire évoluer vos équipes SRE.
Qu'est-ce qu'un SRE ?
L'objectif ici n'est pas de réinventer la définition d'ingénieur en fiabilité de site (SRE). Le terme SRE a été défini à plusieurs reprises (pour des informations plus complètes, consultez Le livre SRE de Google ). L'une de mes explications préférées de ce qu'est un SRE vient de Tammy Bryant elle-même : « Ils [les SRE] travaillent avec toutes les équipes d'une organisation pour garantir l'atteinte constante des objectifs de fiabilité. Ce sont des ingénieurs, des formateurs, des mentors, des automatistes, des experts en données et ils accordent la priorité au client. »
L'une des missions les plus importantes d'un SRE est de protéger, d'assurer et de faire évoluer les logiciels et les systèmes qui sous-tendent les services essentiels que les utilisateurs utilisent et utilisent au quotidien. Il est donc essentiel de surveiller en permanence la durabilité, la disponibilité, la latence, les performances et la capacité.
– Tammy Bryant , Directeur SRE, Gremlin
En général, un SRE cherche à combler le fossé entre les équipes de développement et d'exploitation pour garantir la fiabilité des systèmes et est responsable de disponibilité, latence, performances, efficacité, gestion des changements et surveillance.

Dans le monde du DevOps, on confond souvent DevOps et SRE. Malgré des points communs, le DevOps se concentre davantage sur le « quoi » à réaliser, tandis que l'ingénierie de fiabilité du site se concentre davantage sur le « comment » y parvenir.

Compétences et responsabilités SRE
Le SRE est un rôle/une équipe essentielle dans le monde numérique d'aujourd'hui. Comme le dit Tammy : « Si votre système et vos services ne sont pas opérationnels, vos clients ne peuvent même pas les utiliser. »
Comme mentionné précédemment, les rôles et responsabilités des SRE sont axés sur la performance et la fiabilité. Un SRE n'est pas seulement un « opérateur qui code » : il possède des compétences en automatisation, déploiement, gestion de la configuration, surveillance, ainsi qu'en analyse et métriques. Les meilleurs SRE cherchent à collaborer avec les ingénieurs pour concevoir et fournir une plateforme fiable, évolutive, sécurisée et performante. Au-delà de ce partenariat, les SRE et leurs équipes cherchent à améliorer l'expérience client et à se tenir au courant des tendances techniques afin de trouver des outils et des approches innovants pour résoudre les problèmes.
Compte tenu des responsabilités globales de l'automatisation, axées sur l'expérience client et la fiabilité, les SRE doivent posséder les compétences nécessaires pour résoudre les problèmes en écrivant du code pour automatiser les processus manuels. Ils sont souvent responsables de l'exécution de services critiques dont dépendent les clients (internes et externes). Il est important qu'ils comprennent l'impact et l'importance de l'optimisation opérationnelle sur un produit, ainsi que ses répercussions positives sur l'ensemble de l'organisation. Ils doivent également faire preuve d'empathie et d'écoute, et être capables de prendre en compte les avis et suggestions et de les traduire en opportunités pour trouver rapidement des solutions techniques.
Mise en place d'une équipe SRE
Lors de la constitution d'une équipe SRE, il est important d'établir des lignes directrices qui reflètent les objectifs de l'équipe. Chez PagerDuty, nos SRE disposent d'un ensemble de lignes directrices qui les aident dans leur prise de décision. Dave Bresci, responsable de l'ingénierie de fiabilité des sites chez PagerDuty, nous a fait part de ces lignes directrices, que nous pouvons consulter ici :
- Veiller à ce que notre travail soit lié aux objectifs organisationnels.
- Travailler en partenariat avec les parties prenantes de l'ingénierie pour définir une architecture de service supportable et performante (route pavée).
- Nous nous efforçons continuellement d'améliorer l'expérience client : support complet du cycle de vie (création, développement, déploiement, retrait), observabilité, connectivité flexible et surveillance.
- Privilégiez les solutions gérées, soutenues commercialement ou acceptées par l’industrie plutôt que les systèmes construits en interne.
- Informer de manière proactive l’organisation de tout changement important dans l’infrastructure.
- Mesurer le succès par l’adoption.
- Revoyez les choix de conception et les composants devenus obsolètes et voyez ce qui peut être remplacé par des pièces gérées ou prêtes à l’emploi, ou considérablement simplifié.
- Partagez l’expertise SRE au service de l’ensemble de l’organisation PagerDuty .
- Tenez compte des coûts opérationnels dans la prise de décision en matière d’architecture et de plateforme.
Des objectifs clairement énoncés, écrits et visibles pour l'ensemble de l'organisation renforcent la culture organisationnelle grâce à la transparence, la clarté et le partage d'informations. Voici un exemple d'objectif d'équipe spécifique : celui de l'équipe de mise en œuvre SRE de PagerDuty : Donner aux propriétaires de services les moyens de fournir des outils, des modèles et des partenariats pour leur permettre de créer rapidement des services fiables, opérationnels et performants à grande échelle. En plus de ces objectifs SRE généraux chez PagerDuty, nos équipes SRE individuelles ont toutes leurs propres objectifs individuels écrits.
Réfléchir aux moyens de partager des informations telles que les progrès et les objectifs est essentiel lors de la création et du déploiement d'une SRE. Nous examinons également ces objectifs lors de nos réunions générales sur les produits. Quels que soient vos objectifs, définissez-les clairement, partagez-les avec l'organisation et faites connaître largement la vision et la mission de votre équipe. Chez PagerDuty, nous utilisons un wiki interne ouvert à tous pour partager nos objectifs, et nous les examinons également lors de nos réunions générales sur les produits.
Le fonctionnement d'une équipe SRE varie selon l'organisation. Les rôles SRE peuvent être entièrement intégrés à une équipe, partagés entre plusieurs équipes ou partagés avec une équipe autonome. Comprendre où vous en êtes dans le processus de transformation organisationnelle et quel est l'objectif global que vous souhaitez atteindre avec une équipe SRE vous aidera à déterminer la structure souhaitée pour votre équipe.
Développer votre équipe SRE
Comme pour toute équipe en pleine croissance, il est essentiel de comprendre que le recrutement et l'intégration prennent du temps. Il faut parfois de 3 à 12 mois aux nouveaux arrivants pour se familiariser avec les nouveaux systèmes, les nouvelles méthodes de travail et la dynamique culturelle des nouvelles organisations et équipes.
Gardez toujours à l'esprit que la transformation ne se fait pas du jour au lendemain, tout comme la création et/ou le développement de nouvelles équipes. Une façon de rester sur la bonne voie est de toujours garder un œil sur l'horizon et d'anticiper l'avenir. Fixez-vous des objectifs d'équipe pour les deux ou trois prochaines années, en fonction de vos objectifs. N'oubliez pas que les équipes SRE ne sont pas isolées et que leur responsabilité ne se limite pas à construire l'avenir, mais aussi à soutenir l'environnement existant. On ne sait jamais quand les systèmes actuels tomberont en panne ou quand une pandémie éclatera soudainement et qu'il faudra adapter radicalement son environnement.
Comprendre que la mise à l'échelle et la correction des équipes SRE peuvent mettre en suspens les projets d'optimisation en cours et le communiquer à l'équipe est essentiel pour qu'elle reste concentrée sur les besoins de l'entreprise et du client. Après tout, les équipes seront frustrées par la gestion de tous les systèmes existants. Elles voudront tout détruire et tout réparer. C'est pourquoi il est important de rappeler aux équipes que la migration et la progression prennent du temps, et que ces progrès ne se reflètent pas toujours dans la gestion quotidienne des problèmes. Une solution consiste à rappeler régulièrement à l'équipe les petites avancées qui se sont accumulées. Posez-lui des questions telles que : « Vous souvenez-vous où nous en étions il y a six mois ? » L'utilisation de données pour étayer les taux de progression est un excellent moyen de les aider à se concentrer sur des éléments tels que : « Voici notre taux d'adoption de ce nouvel outil au fil du temps » ou « Il y a un an, nous avions cinq services conteneurisés et nous en avons maintenant plus de 100 ».
Au final, constituer et faire évoluer des équipes n'est pas chose aisée. Nous espérons que cet article vous aura apporté, à vous et à votre organisation, des pistes de réflexion pour vous lancer dans l'aventure SRE. Nous serions ravis de connaître vos témoignages, conseils et réflexions.
Continuez la conversation avec nous ici à communauté.pagerduty.com Si vous souhaitez plus d'informations sur la création et le développement de vos équipes SRE, consultez Conférence de Tammy Bryant au Sommet PagerDuty et la page jusqu'à la limite épisode de podcast sur SRE .