Rapport de panne initial
Hier a été une mauvaise journée pour le cloud. PagerDuty, ainsi que plusieurs de nos clients et collègues, ont subi d'importantes pannes suite à plusieurs attaques DDoS sophistiquées contre un fournisseur DNS populaire.
Nous avons subi une panne majeure hier, vendredi 21 octobre, qui a duré près de trois heures, de 10 h à 13 h, heure normale du Pacifique. Durant cette période, nous avons été totalement indisponibles pendant environ 30 minutes, suivies d'une période de disponibilité limitée en raison d'une charge très élevée, le temps de traiter un important volume de notifications en attente et de résoudre d'autres problèmes DNS sur nos systèmes.
Notre mission est d'être votre partenaire fiable et de confiance en matière de réponse et de résolution des incidents TOUJOURS Cela inclut les problèmes mineurs, les pannes majeures et les interruptions de service à moitié. Hier, nous n'avons pas été à la hauteur des attentes que nous nous étions fixées. Je suis personnellement déçu et regrette nos faibles performances et les interruptions de service liées à cet incident majeur. Toute l'équipe de PagerDuty et moi-même en sommes sincèrement désolés.
Tous nos services ont été rétablis et fonctionnent normalement depuis hier, vendredi 21 octobre à 13 h, heure du Pacifique. Depuis, nous sommes tous mobilisés pour mener une analyse approfondie. Nous vous tiendrons régulièrement informés de la situation, des mesures prises pour y remédier et des mesures que nous prenons pour éviter que cela ne se reproduise. Dans les prochains jours, nous publierons les deux articles suivants :
- Le lundi 24 octobre : une chronologie complète des événements décrivant ce qui s'est passé et ce que nous avons fait pour résoudre la panne
- Le mardi 25 octobre : le plan d'action pour la résolution des causes profondes qui décrit l'ensemble des mesures que nous entreprendrons pour aider à prévenir de tels problèmes à l'avenir
Les pannes d'hier ont été causées par un événement cygne noir majeur, auquel beaucoup d'entre nous, dans le secteur, n'étaient pas préparés. Vous comptez sur nous pour être préparés, et nous aurions dû l'être. Peu importe le caractère unique de cet événement… il n'y a pas d'excuses Nous ne rejetons la faute sur personne et ne disons pas « nous ne l'avions pas vu venir ». Nous devons simplement être prêts à gérer ce genre de situations. Nous devons être opérationnels lorsque vous êtes en panne ; d'ailleurs, vous comptez sur nous lorsque vos systèmes sont en panne. Chez PagerDuty , nous sommes tous déçus et désolés pour cette panne.
Ce fut un signal d'alarme pour nous. Nous allons remédier à cette situation pour vous et votre entreprise. Nous travaillerons avec diligence pour tirer les leçons de cet incident et nous nous engageons à devenir un partenaire meilleur, plus fort, plus résilient et plus fiable. Toute l'équipe de PagerDuty, des développeurs et des équipes opérationnelles au support client, en passant par les ventes, les services et notre équipe de direction, est déterminée à vous offrir le meilleur service possible. Nous mettrons tout en œuvre pour vous prouver que vous pouvez toujours compter sur nous.
N'hésitez pas à contactez-moi directement ou contactez notre équipe de soutien Si vous avez des questions ou des préoccupations, restez à l'écoute pour notre prochain article, le lundi 24 octobre, qui présentera la chronologie complète des événements.
Sincèrement,
Alex Salomon
CTO et cofondateur