- PagerDuty /
- Blog /
- Non classé /
- Tests de bout en bout des fournisseurs de SMS : c’est ainsi que nous garantissons la bonne réception des alertes SMS.
Blog
Tests de bout en bout des fournisseurs de SMS : c’est ainsi que nous garantissons la bonne réception des alertes SMS.
La fiabilité est importante pour nous. Nous en avons même injecter l'échec dans nos systèmes tous les vendredis Pour le prouver. Mais en matière d'envoi d'alertes, la fiabilité ne se limite pas à un code irréprochable. Nous dépendons de plusieurs opérateurs tiers pour acheminer les alertes à nos clients. Si un SMS n'est pas distribué, vous n'êtes pas averti d'une panne. Nous ne pouvons pas faire l'autruche et vous dire que c'est dû à une défaillance de nos fournisseurs. Ce n'est pas acceptable. Nous devons trouver un moyen de garantir la réception de vos alertes en toutes circonstances.
Au départ, nous avons privilégié la fiabilité grâce à la redondance de nos fournisseurs. Plusieurs d'entre eux nous aident à diffuser nos alertes SMS à nos clients. La redondance est un excellent système que nous continuerons d'utiliser. Cependant, nous pensions pouvoir faire encore mieux.
Au cours des quatre derniers mois, nous avons mis en place des tests de bout en bout pour nos fournisseurs de SMS afin d'identifier proactivement tout retard ou panne, même si leurs pages d'état publiques ne sont plus à jour. Nous avons souvent constaté que nos fournisseurs indiquaient que leurs systèmes étaient pleinement disponibles, mais que les SMS n'étaient pas reçus, malgré l'envoi d'une confirmation de livraison. Grâce à ces tests, nous pouvons rapidement modifier l'ordre de nos fournisseurs principaux, secondaires et tertiaires afin de garantir que les alertes de nos clients ne soient pas affectées par des pannes inattendues chez nos fournisseurs tiers. Avant ces tests, nous n'avions d'autre choix que de nous fier à nos fournisseurs et d'agir en conséquence.
Comment nous réalisons les tests de bout en bout des fournisseurs de SMS
Nous testons en permanence nos fournisseurs de SMS. Pour nos numéros courts, nous envoyons un SMS de test toutes les deux minutes, tandis que la fréquence varie pour nos numéros longs moins utilisés. Pour effectuer ces tests, nous nous envoyons des alertes tout au long de la journée via chacun de nos fournisseurs. Nous pouvons ainsi mesurer le temps de réception du message, le cas échéant, afin de déterminer la disponibilité du fournisseur (et son niveau de performance). Nous décidons ensuite s'il convient de privilégier ou de déclasser l'utilisation de nos fournisseurs.
Comment nous automatisons les tests de bout en bout des fournisseurs de SMS
-
Actuellement, nous proposons trois téléphones Android compatibles avec différents opérateurs : AT&T, Verizon et T-Mobile. (Sprint sera bientôt disponible.)
-
En utilisant notre application Android développée en interne pour ce système de test, nous envoyons des alertes SMS de test de notre système à chacun de nos téléphones Android selon une rotation circulaire.
-
À l'aide de Datadog, nous calculons le temps nécessaire à chaque SMS pour atteindre le téléphone de test désigné et le temps de réponse de notre application de test.
-
À partir de ces mesures, nous déterminons si un fournisseur est hors service ou dégradé, puis nous prenons les mesures appropriées.
Nous considérons qu'un fournisseur est défaillant si son délai de livraison des SMS dépasse 3 minutes ou si aucun SMS n'est reçu lors des deux dernières tentatives d'envoi sur chacun des réseaux mobiles. En cas de dégradation du service, notre équipe est alertée et remplace le fournisseur afin d'éviter que nos clients ne manquent aucune alerte SMS.
L'avenir des tests de bout en bout des fournisseurs de SMS
Actuellement, la modification du niveau de priorité de nos fournisseurs SMS est effectuée manuellement. Nous recevons une alerte signalant la dégradation d'un fournisseur et nous réagissons en conséquence. À l'avenir, nous automatiserons ce processus grâce à un modèle probabiliste, ce qui nous permettra de nous affranchir des alertes de défaillance de fournisseur.
Ce processus permet à notre équipe de recevoir les alertes pertinentes de nos systèmes de test, évitant ainsi de multiplier les alertes sur différentes ressources pour être informé des problèmes. Cela réduit le nombre d'appels reçus par notre ingénieur d'astreinte, ce qui nous permet de nous concentrer sur la résolution des problèmes et l'amélioration des processus sans être distraits par des notifications superflues.
Chez PagerDuty, la fiabilité reste notre priorité. Nos tests et pratiques d'automatisation garantissent la disponibilité de notre produit et nous permettent d'acquérir de précieuses connaissances sur l'état des systèmes auxquels nous nous connectons. Grâce à une connaissance approfondie des performances de nos opérateurs mobiles, sans dépendre de rapports externes, nous pouvons anticiper les problèmes et vous offrir une expérience PagerDuty optimale.