- PagerDuty /
- Der Blog /
- Unkategorisiert /
- Lehren aus Virtuoso: Drei Schritte, mit denen Sie das Alarmvolumen in drei Wochen um bis zu 94 % reduzieren können
Der Blog
Lehren aus Virtuoso: Drei Schritte, mit denen Sie das Alarmvolumen in drei Wochen um bis zu 94 % reduzieren können
Wie ein Kunde mit PagerDuty und Event Enrichment das Alarmaufkommen deutlich reduzierte und seine Betriebsabläufe verbesserte
Der Kunde
Wir haben uns kürzlich mit Shawn Motley, Senior DevOps Engineer bei Virtuose , um über seine Erfahrungen mit PagerDuty und die Plattform zur Event-Anreicherung (EEP). Virtuoso ist ein Reiseportal für anspruchsvolle Kunden mit über 200 Mitarbeitern und acht Websites. Als globales Luxusreiseunternehmen ist das Image ein wichtiger Bestandteil des Geschäfts von Virtuoso. Wenn ein Kunde während eines teuren Urlaubs Probleme hat, müssen die Reiseberater unabhängig von Ort und Uhrzeit auf die Websites von Virtuoso zugreifen können. Die Websites müssen rund um die Uhr verfügbar sein.
Die Hintergrundgeschichte
Als Virtuoso vor 7 Monaten begann, sich auf seine DevOps-Initiative zu konzentrieren, Sie erhielten alle 24 Stunden Tausende von Ereignissen, die Mehrheit davon waren Lärm Sie mussten die Anzahl der Warnmeldungen reduzieren, und zwar schnell. Für die meisten Organisationen ist die Unterdrückung von Warnmeldungen in jedem einzelnen Überwachungssystem aufgrund von Ressourcen-, Zeit- und Betriebsbeschränkungen nicht möglich. Mit EEP werden Unterdrückungen zentral über eine intuitive Web-Benutzeroberfläche verwaltet, die eine aktive Ereignisunterdrückung und -verwaltung ermöglicht. Durch den Einsatz von EEP und PagerDuty konnte das Virtuoso DevOps-Team die tägliche Ereignislast im operativen Bereich schnell auf nur wenige Ereignisse pro Tag reduzieren.
Schritt Eins: Richten Sie ein System ein
Mit der Einführung von PagerDuty und der Event Enrichment Platform konnte die Betriebseffizienz sofort gesteigert werden. Mit dem EEP PagerDuty -Integration , werden ihre Warnungen an EEP weitergeleitet, als umsetzbar oder als Rauschen klassifiziert, mit Abhilfeinformationen angereichert und dann an PagerDuty weitergeleitet, um eine garantierte Zustellung der Warnungen an ihr Ops-Team zu gewährleisten.
Schritt 2: Erweitern und individualisieren Sie Ihre Benachrichtigungen
Sie fügten der ursprünglichen Warnung Anreicherungen, also konkrete Lösungsschritte, hinzu, damit jeder, der auf einen Vorfall reagierte, die nötigen Informationen zur Triage und Behebung des Problems hatte. Diese nun angereicherten Warnungen leiteten sie über EEP-Notifier an spezifische PagerDuty Dienste weiter. Die Anreicherungsschritte wurden im Vorfall angezeigt und enthielten einen Link zurück zum Vorfall im EEP mit allen Details.
Durch Klicken auf „Bestätigen“ oder „Auflösen“ einer Warnung in EEP wurde diese Aktion automatisch in PagerDuty ausgeführt. Ebenso wurde durch die Reaktion auf die PagerDuty -SMS- oder Mobile-App-Warnung das Ereignis in EEP bestätigt und behoben.
Schritt 3: Richten Sie wöchentliche Ereignis-Triages ein
Jetzt mit drastisch reduzierter Ereignislast und der verbleibende Warnungen angereichert Sie verfügten über die Informationen, die sie brauchten, wenn sie sie am dringendsten brauchten. Sie sahen eine großartige Möglichkeit, den Lärm weiter zu reduzieren und ihre Warnmeldungen durch die Einrichtung wöchentlicher Triages zu korrigieren. Aus dem EEP konnten sie eine Liste aller aktuellen Vorfälle herunterladen und diese einer von zwei Kategorien zuordnen: Lärm oder Handlungsbedarf. Die Plattform erleichterte es ihnen, große Cluster unnötiger Ereignisse mit EEP-Klassifizierungen schnell zu unterdrücken.
Innerhalb einer Woche hatten sie ihr Alarmvolumen um 82 % und innerhalb von drei Wochen auf 94 % gesenkt.
Nachverfolgen
Da die tägliche Alarmanzahl unter hundert lag, setzten sie ihre wöchentlichen Triages fort und konnten die Anzahl der täglichen Alarme weiter reduzieren. Derzeit erhält Virtuoso nur noch eine Handvoll Vorfälle pro Tag, von denen nur einige eine Eskalation und die Einbindung anderer Teams erfordern. PagerDuty und EEP halfen Virtuoso DevOps, die Situationswahrnehmung ihrer Infrastruktur deutlich zu verbessern.
Zeugnis
„Es ist ein brillantes System“, sagte Shawn. „Es bringt Ihr Unternehmen auf die nächste Ebene und funktioniert mit all den anderen Partnern da draußen.“
Dank der wertvollen Zeit, die durch den Einsatz von PagerDuty und EEP gewonnen wurde, konnte Virtuoso seine Bereitstellungs-, Build- und Release-Intervalle deutlich beschleunigen. Durch die Konzentration auf die wesentlichen Ereignisse konnte das Operations-Team seine Initiativen zur Infrastrukturoptimierung sehr erfolgreich umsetzen.
„Jetzt können wir DevOps-Philosophien wirklich auf unser Team anwenden“, fügte er hinzu. „Wir konzentrieren uns auf die Automatisierung unserer Infrastruktur, nicht auf das Sortieren von Warnmeldungen.“
„Da wir die Störungen beseitigen konnten, verfügen wir nun über eine deutlich bessere Telemetrie unserer Server. Dadurch können wir besser zwischen Server- und Codeproblemen unterscheiden“, so Shawn. „Wir beheben Systemprobleme jetzt viel schneller und eskalieren sie bei Problemen auf Codeebene bei Bedarf an die Entwickler.“

