Nelnet augmente la disponibilité, améliore la productivité des employés et réduit les coûts grâce à PagerDuty.
Taille: 3 000 +
Industrie: Services financiers
Emplacement: Lincoln, Nebraska
Client depuis : 2014
Avec pour valeur fondamentale la satisfaction client, Nelnet propose des services éducatifs innovants en matière de gestion de prêts, de traitement des paiements, de planification des études et de gestion d'actifs. Ces produits et services aident les étudiants et leurs familles à planifier, préparer et financer leurs études, tout en optimisant les processus administratifs et financiers pour les établissements scolaires et les organismes financiers. Basée à Lincoln, dans le Nebraska, l'entreprise compte plus de 3 400 collaborateurs qui accompagnent les clients tout au long de leur parcours éducatif.
Le département informatique de Nelnet est structuré en plusieurs niveaux de service : réception des incidents, astreinte, escalade, et équipes produit et architectes. Ryan Regnier, responsable informatique chez Nelnet, encadre l'équipe de niveau 2, chargée de l'astreinte, de l'escalade des incidents et de la résolution des pannes dès leur apparition. La gestion d'une telle équipe implique le traitement d'un grand nombre d'alertes d'incidents critiques et la mise en place de procédures d'escalade vers les niveaux de service supérieurs. C'est pourquoi Ryan et l'entreprise recherchaient une solution permettant de simplifier ces processus.
Surmonter les processus manuels pour gérer la planification des astreintes et l'escalade des incidents
Nelnet surveille l'ensemble de son infrastructure, des serveurs web traitant les paiements par carte bancaire aux équipements réseau acheminant le trafic vers les serveurs web et de bases de données. L'entreprise surveille simultanément 35 000 événements, ce qui génère des alertes 24 h/24 et 7 j/7. Avant la mise en place de PagerDuty, la gestion des astreintes et des escalades était complexe en raison des processus manuels existants. En cas de panne d'une application, les membres de l'équipe des opérations réseau (NOC) devaient parcourir manuellement des pages de tableurs pour identifier les personnes à contacter. Ces tableurs détaillaient les actions à entreprendre en cas d'alerte, les personnes à qui escalader le problème et la procédure à suivre pour chaque incident. Ce processus manuel était difficilement extensible, ce qui nuisait à l'efficacité des équipes et allongeait la durée des interruptions de service. Outre Nelnet, cela avait un impact négatif sur les clients : si le site principal de traitement des paiements était hors service, les clients ne pouvaient pas effectuer de paiements, ce qui entraînait des pertes de revenus et leur insatisfaction.
L'identification des personnes à contacter en cas d'incident posait également problème ; malgré une équipe NOC disponible 24 h/24 et 7 j/7, les mauvaises personnes étaient contactées, et au mauvais moment. Outre la frustration engendrée, il était impossible d'automatiser ou de personnaliser la réception des alertes. Tous ces obstacles ont entraîné des retards dans la résolution des incidents, des impossibilités de paiement pour les clients et une baisse de productivité due à la complexité et à la longueur du processus manuel.
Accroître l'efficacité opérationnelle et réduire les coûts
Nelnet a adopté PagerDuty pour simplifier la planification, les alertes, la gestion des astreintes et réduire ses coûts. L'un des leviers d'économies a été la réduction des coûts au sein de l'équipe NOC. Grâce à la plateforme de gestion des incidents automatisée et fiable de PagerDuty, Nelnet n'a plus besoin de financer un environnement NOC fonctionnant 24h/24 et 7j/7. « Avant d'adopter PagerDuty, nous cherchions des solutions pour réduire nos coûts et améliorer la gestion de nos interventions. PagerDuty s'est avéré être la solution idéale pour Nelnet. PagerDuty nous simplifie la vie », a déclaré Regnier.
On estime à 35 000 le nombre d'incidents générés par les outils de surveillance de Nelnet. Ces incidents, provenant de transferts de fichiers et de sites web externes, notamment ceux hébergés sur Amazon Web Services, sont directement transmis à PagerDuty. L'équipe d'astreinte est généralement confrontée à des problèmes survenant sur l'un de ses serveurs ou services. PagerDuty alerte l'équipe d'astreinte en quelques secondes. Celle-ci peut ainsi identifier le problème, le signaler si nécessaire et le résoudre.
Actuellement, Nelnet dispose de 80 procédures d'escalade, utilisées plusieurs fois par jour. Par exemple, lors d'un incident majeur nécessitant l'intervention de plusieurs équipes, l'équipe de gestion des incidents s'est connectée à PagerDuty pour envoyer un e-mail d'alerte aux personnes concernées. La solution a alors permis aux personnes d'astreinte de contacter directement ces personnes, évitant ainsi une diffusion massive de l'alerte à tous les membres des équipes. Toutes les personnes impliquées ont pu rejoindre la réunion d'incident, à l'exception d'une personne qui a été appelée toutes les 5 minutes jusqu'au déclenchement de la procédure d'escalade au bout de 20 minutes. Grâce à cette fonctionnalité, l'intervenant de secours a pu accuser réception de l'alerte et contribuer à la résolution du problème.
« Je recommande vivement à tous d'envisager l'utilisation de PagerDuty. Les économies réalisées sont considérables. Avec PagerDuty, la personne de garde est alertée automatiquement à chaque incident. La grande flexibilité offerte par la planification et l'alerte des personnes concernées rend le choix d'utiliser PagerDuty évident. »
– Ryan Regnier, Responsable informatique, Nelnet
PagerDuty offre à Nelnet la flexibilité de contacter ses utilisateurs de différentes manières, notamment par SMS ou e-mail. «PagerDuty simplifie le travail de mon équipe et nous apporte une meilleure organisation. Lorsqu'il s'agit de trouver un remplaçant pour une personne d'astreinte, la solution lui offre la possibilité d'être contacté de diverses façons », explique Regnier. Nelnet est ainsi en mesure de rétablir ses services plus rapidement, permettant à ses clients de les utiliser et de poursuivre leurs activités. « En journée, nous avons des personnes d'astreinte qui peuvent intervenir en quelques minutes en cas de panne de serveur. Selon la complexité ou la nature du problème, nous pouvons rétablir le service en 10 minutes, voire moins. Nous sommes informés de ces alertes en quelques secondes et pouvons y répondre en quelques minutes », précise Regnier. Grâce à une disponibilité accrue et à une productivité améliorée des employés, PagerDuty a permis à Nelnet d'économiser 650 000 $ par an.
Améliorer la disponibilité, l'agilité et la satisfaction des employés
Avant PagerDuty , il était difficile de suivre les pannes. Désormais, les données essentielles sont accessibles instantanément. Chaque incident ou événement déclenché, même sur une période allant jusqu'à un an, peut être consulté. « Lors de notre évaluation de PagerDuty, nous avons constaté qu'aucune autre organisation ne proposait une offre aussi complète, ni un ensemble de fonctionnalités aussi riche, et que leurs solutions n'étaient pas aussi intuitives », a déclaré Regnier. PagerDuty aide Nelnet à améliorer la disponibilité de ses systèmes et la productivité de ses employés, à offrir plus de flexibilité à ses équipes et à garantir la prise en charge systématique des incidents.