- PagerDuty /
- Blog /
- Non classé /
- Bilan de la panne – 11 décembre 2013
Blog
Bilan de la panne – 11 décembre 2013
Le 11 décembre, PagerDuty a subi une panne qui a affecté certains clients et bloqué l'accès à toutes les adresses pagerduty.com. Nous tenons tout d'abord à vous présenter nos plus sincères excuses. Toute panne, quel que soit le nombre de clients touchés, est inacceptable. La cause de cette panne est un problème au niveau de notre infrastructure DNS, et plus précisément de DNSSEC. Cet article détaille les événements survenus et les améliorations que nous mettrons en œuvre afin d'éviter qu'un tel incident ne se reproduise.
Informations générales sur DNSSEC chez PagerDuty
En juin dernier, nous avons activé les extensions de sécurité du système de noms de domaine (DNSSEC) pour tous les domaines PagerDuty . Cette mesure visait à permettre aux clients de valider de manière sécurisée les enregistrements DNS reçus de PagerDuty . Le processus de signature DNSSEC utilise des clés de signature de zone (ZSK) pour signer les enregistrements de ressources (RR). La signature résultante (RRSIG) est ensuite déployée automatiquement par notre fournisseur DNS. De nouvelles RRSIG sont générées tous les trois mois et font l'objet d'une rotation et d'un déploiement réguliers. Afin de garantir la présence permanente d'une RRSIG valide, les nouvelles et les anciennes RRSIG sont déployées simultanément, assurant ainsi un certain chevauchement. DNSSEC est utilisé depuis 2005 et la plupart des principaux fournisseurs DNS l'ont implémenté au cours des cinq dernières années. Plus tôt cette année, Comcast et Google DNS ont également commencé à appliquer DNSSEC. Cela signifie que si DNSSEC est activé pour un enregistrement DNS, mais que le RRSIG ne peut être validé, la requête DNS sera rejetée afin de protéger le demandeur contre d'éventuelles manipulations des données DNS. C'est ce qui s'est produit le soir du 11 décembre 2013.
Chronologie des événements (toutes les heures sont en heure du Pacifique) :
- 27 novembre – Un nouveau ZSK pour notre zone pagerduty.com est créé par notre fournisseur DNS, cependant le nouveau RRSIG n'est pas déployé en raison d'un défaut dans l'infrastructure d'automatisation de notre fournisseur DNS.
- 11 déc. 22h51 – Le groupe RRSIG déployé sur la zone pagerduty.com expire. Les fournisseurs DNS appliquant DNSSEC ne renvoient plus aucun résultat pour la zone pagerduty.com.
- 11 décembre 23h51 – Notre fournisseur de surveillance externe secondaire nous alerte que pagerduty.com est inaccessible.
- 12 déc. 00h03 – Un ingénieur de PagerDuty supprime l'enregistrement de signature de délégation (DS) pour désactiver DNSSEC sur la zone pagerduty.com
- 12 décembre 00h37 – Les fournisseurs DNS ayant activé l'application du protocole DNSSEC renvoient désormais les enregistrements DNS de pagerduty.com.
L'impact
Durant la panne, les clients utilisant un fournisseur DNS imposant le protocole DNSSEC n'ont pu accéder à aucune adresse pagerduty.com. De ce fait, une petite partie de notre clientèle n'a pas pu utiliser notre site web, notre API ni nos applications mobiles. Nous avons conseillé aux clients concernés d'utiliser un autre fournisseur DNS pour contourner ce problème. N'ayant pas reçu de trafic provenant de ces clients, il est difficile d'évaluer précisément l'impact. Toutefois, d'après l'analyse du trafic moyen de notre équilibreur de charge, nous estimons que moins de 2 % de notre volume total de requêtes a été affecté.
Ce que nous avons appris
Lors de l'activation initiale de DNSSEC, nous avons mis en place une surveillance de nos enregistrements DNS. Cependant, cette surveillance était axée sur le réseau plutôt que sur la sécurité. Par conséquent, bien que notre principal fournisseur de surveillance externe ait détecté que Google DNS renvoyait des résultats invalides, nous n'avons pas reçu d'alertes appropriées. En surveillant les dates d'expiration des RRSIG, nous aurions pu identifier ce problème bien plus tôt. Même si un fournisseur DNS secondaire n'aurait pas résolu ce problème précis, une redondance supplémentaire est nécessaire pour nous protéger des pannes DNS. Enfin, si cette panne est passée inaperçue, c'est parce que tous les fournisseurs DNS n'appliquent pas DNSSEC. Google et Comcast ont pris des mesures pour renforcer la sécurité du DNS et nous espérons que d'autres fournisseurs suivront leur exemple.
Ce que nous faisons à ce sujet
Bien que la cause profonde de cette panne ne soit pas de notre ressort, nous allons apporter des améliorations afin d'éviter qu'elle ne se reproduise et de détecter le problème plus tôt.
Nous allons:
- Mettre à jour notre principal fournisseur de surveillance externe afin qu'il traite les modifications DNS comme des alertes de niveau catastrophique.
- Mettez en place une surveillance et des alertes continues concernant les dates d'expiration de nos RRSIG.
- Réglez le TTL de notre enregistrement DS à 1 minute pour réduire les délais de propagation autour des changements.
- Configurer un fournisseur DNS secondaire
Nous améliorons constamment notre infrastructure afin d'offrir à nos clients un service optimal. Pour toute question ou remarque, n'hésitez pas à nous contacter.