Tokopedia automatise la réponse aux incidents et renforce la responsabilisation des ingénieurs grâce à PagerDuty
Taille: 1 001 à 5 000 employés
Industrie: Technologie
Emplacement: Jakarta, Indonésie
Client depuis : 2018
Intégrations clés :
Firebase
Grafana
New Relic
Prométhée
Scalyr
StackStorm Tokopedia, entreprise technologique indonésienne, est l'une des plus importantes plateformes de vente en ligne d'Asie du Sud-Est, avec plus de 100 millions d'utilisateurs actifs mensuels et plus de 9 millions de marchands inscrits. Tokopedia se targue d'être bien plus qu'une simple place de marché : l'entreprise propose une technologie qui permet à des millions de marchands de se lancer dans le commerce électronique.
Rajesh Gopala Krishnan est vice-président adjoint de l'ingénierie et de la productivité chez Tokopedia. Il met en œuvre la vision de la plateforme en matière de technologies et de services partagés. « La mission de Tokopedia est de démocratiser le commerce grâce à la technologie », explique-t-il. « Nous aidons les petits commerçants à devenir de grandes marques, leur permettant ainsi d'atteindre une clientèle plus diversifiée et de faciliter leurs activités en Indonésie et à l'international. »
Créée en 2009, Tokopedia, entreprise née avec le numérique, s'est engagée dans une transformation digitale il y a deux ans, face à une croissance rapide de sa clientèle. Elle a modernisé son infrastructure technologique, passant d'une architecture monolithique à une architecture multicloud basée sur des microservices, et hébergeant plus de 350 services.

La complexité croissante entraîne un ralentissement de la réponse aux incidents.
Cependant, cette transition vers une architecture plus dynamique et évolutive a rendu difficile pour les outils de gestion des incidents internes de Tokopedia de suivre le rythme des alertes et pour ses équipes d'y répondre efficacement. De ce fait, la réponse aux incidents était plus longue et les ressources d'ingénierie étaient mobilisées au détriment de l'amélioration de l'expérience client et du développement de nouveaux services pour les marchands et les clients. Tokopedia a également subi un volume important d'alertes parasites, ce qui a compliqué la priorisation des incidents.
« Nos outils permettaient d'identifier les incidents, mais leur résolution était trop longue », explique Krishnan. « La plupart prenaient généralement 30 minutes, car nous devions rechercher manuellement le responsable de chaque service avant d'avertir les ingénieurs et de mettre en place des cellules de crise. Nous avons rapidement compris qu'il nous fallait un processus de réponse aux incidents moderne et automatisé pour avoir une meilleure visibilité sur cet environnement complexe, et c'est pourquoi nous nous sommes tournés vers PagerDuty. »
Automatisation de la réponse aux incidents avec PagerDuty
Depuis l'adoption de PagerDuty, Tokopedia automatise ses processus de réponse aux incidents et réduit considérablement le temps de résolution. Après une première intégration de PagerDuty avec cinq services, Tokopedia a constaté des améliorations significatives de métriques telles que le temps moyen de réparation (MTTR) et a décidé d'étendre le déploiement à l'ensemble de ses plus de 350 services.
De plus, PagerDuty a permis de réduire le nombre d'alertes. « Au lieu d'être submergés d'alertes, PagerDuty regroupe les alertes liées en un seul incident, centralisant toutes les informations au lieu de les disperser dans plusieurs outils. Cela réduit non seulement le nombre d'alertes, mais nous aide aussi à prioriser les incidents les plus urgents », a expliqué Krishnan.
L'investissement de Tokopedia dans la transformation numérique et la gestion moderne des incidents lui a permis d'être bien préparée à faire face aux pics de demande consécutifs à la pandémie de COVID-19 en Asie du Sud-Est. « En migrant vers le cloud et en adoptant PagerDuty, nous avons pu mieux maîtriser le nombre d'incidents auxquels nous sommes confrontés. Cela s'est avéré particulièrement crucial lors de l'explosion des achats en ligne pendant la pandémie de COVID-19 et nous a permis de réagir plus rapidement aux incidents afin de minimiser les perturbations pour les vendeurs et les acheteurs. »
« En migrant vers le cloud et en adoptant PagerDuty, nous avons pu mieux contrôler le nombre d'incidents auxquels nous sommes confrontés. »
– Rajesh Gopala Krishnan , vice-président adjoint de la productivité en ingénierie, Tokopedia
PagerDuty a également aidé Tokopedia à adopter une gestion complète du service et à promouvoir une culture de responsabilité, chose qu'elle avait auparavant du mal à faire avec ses outils internes de gestion des incidents.
Comme l'explique Krishnan, il était souvent difficile de savoir qui devait intervenir en cas d'incident. « Ce qui manquait, c'était la responsabilisation : qui est responsable de ce service ou de cette application ? A-t-on constaté le problème et travaille-t-on à le résoudre ? Nous n'avions pas une vision très claire de la situation. »
Les ingénieurs d'astreinte disposaient également de téléphones supplémentaires pour que les équipes puissent les joindre en cas d'alerte. Mais même ainsi, contacter les bonnes personnes restait complexe, faute de système centralisé de gestion des escalades. « Avec PagerDuty, nous avons pu éliminer les processus manuels de réponse aux incidents. Désormais, dès réception d'une alerte, les incidents sont automatiquement acheminés, selon nos politiques d'escalade, vers le responsable du service concerné », a expliqué Krishnan.
« Depuis l’adoption de PagerDuty, nos ingénieurs consacrent moins de temps à la gestion des incidents. »
– Rajesh Gopala Krishnan , vice-président adjoint de la productivité en ingénierie, Tokopedia
Avantages de PagerDuty
Après la mise en œuvre de PagerDuty, Tokopedia a bénéficié d'une meilleure visibilité et d'un contrôle accru sur les incidents au sein de son environnement, avec les avantages suivants :
- Responsabilisation accrue des équipes d'ingénierie
- Bruit d'alerte réduit
- Temps de réponse aux incidents plus rapides
- Augmentation du nombre de mises à jour logicielles de 10 à plus de 300 par jour, parallèlement à l'amélioration de la productivité des équipes grâce à l'automatisation.
« Depuis l'adoption de PagerDuty, nos ingénieurs consacrent moins de temps à la gestion des incidents. Ils peuvent ainsi se concentrer sur l'amélioration de l'expérience client, la compréhension des besoins de nos marchands et de nos clients, et l'analyse de leur utilisation de nos services », explique Krishnan. « Grâce à l'automatisation offerte par PagerDuty, la productivité des ingénieurs a également considérablement augmenté. Nous avons constaté une hausse de 3 000 % du nombre de déploiements logiciels quotidiens. »
Tourné vers l'avenir
À l'avenir, Tokopedia continuera d'étendre son utilisation de PagerDuty. Cela implique notamment de surveiller les performances des nouvelles fonctionnalités avant leur déploiement afin d'identifier les problèmes avant leur mise en production. De plus, à mesure que Tokopedia adopte l'automatisation tout au long du cycle de développement logiciel et conçoit des applications autoréparatrices, PagerDuty jouera un rôle essentiel dans la création de flux de travail et de procédures opérationnelles permettant de prévenir, diagnostiquer et résoudre les incidents sans avoir à solliciter l'intervention d'un expert.
Pour découvrir comment PagerDuty peut aider votre équipe à simplifier ses processus et à transformer ses opérations dans un monde numérique, contactez votre responsable de compte ou essayez un Essai gratuit de 14 jours aujourd'hui.