Die REA Group setzt mit PagerDuty auf digitale Transformation.

PagerDuty image

Größe: 1.300 Mitarbeiter

Industrie: Digitale Medien / Immobilien

Standort: Melbourne, Australien

Kunde seit: 2014

Wichtige Integrationen:

Dynatrace
New Relic
Nagios
Logikmonitor
Zendesk
Splunk
AWS CloudWatch
Locker
 

REA Group ersetzt Pager durch PagerDuty

Die REA Group Limited ist ein multinationales Unternehmen für digitale Werbung mit Schwerpunkt auf Immobilien. Sie betreibt die führende Immobilienwebsite Australiens sowie prominente Websites in ganz Asien. Ihr Ziel ist es, die Art und Weise, wie Menschen Immobilien erleben, zu verändern. Dies erreichen sie durch die Entwicklung innovativer Produkte und die Schaffung einer dynamischen Arbeitskultur, die innovatives Denken fördert. Millionen von Menschen weltweit nutzen täglich die Websites der REA Group, um Immobilien zu finden. Daher muss die Plattform stets verfügbar und leistungsstark sein, damit Nutzer jederzeit und überall nach Immobilien suchen können. Für die REA Group ist es daher geschäftskritisch, auf Störungen der Plattformleistung zu reagieren, ohne dass die Kunden dies bemerken. Gleichzeitig darf die REA Group angesichts des rasanten Wachstums die operative Effizienz ihres Softwareentwicklungs- und Managementteams nicht aus den Augen verlieren.

Herausforderungen: Monolithische Vorfallsalarmierung und isolierte Betriebsabläufe

Vor der Einführung von PagerDuty im Jahr 2014 nutzte das Betriebsteam der REA Group ein monolithisches, ineffizientes Alarmierungssystem, das von den Technikern verlangte, ständig physische Pager mit sich zu führen. Da ein solches System schwer zu ändern und zu optimieren war, konnte das REA-Team nicht garantieren, dass die richtigen Alarme die richtigen Personen erreichten, was die Reaktionszeiten bei Störungen verzögerte. Zudem wurden die Bereitschaftstechniker, insbesondere außerhalb der regulären Arbeitszeiten, ständig über nicht kritische oder nicht umsetzbare Alarme informiert. „Es war ein Albtraum in der Nacht – ein wirklich mühsamer Prozess“, sagte der Global Infrastructure and Architecture Manager der REA Group über die Erfahrungen im Bereitschaftsdienst in dieser Anfangszeit.

Die zweite große Herausforderung für das Team war die Siloartige Struktur der Organisation Die Organisation bestand aus vielen verschiedenen Gruppen, die jeweils für die Entwicklung bestimmter Teile des Unternehmensökosystems verantwortlich waren. Alle Vorfälle wurden jedoch an ein zentrales Betriebsteam weitergeleitet. REA konzentrierte sich darauf, diese Silos durch die Einführung einer DevOps-Kultur aufzubrechen und die Verantwortung für den Betrieb auf die Teams zu verlagern, die die Anwendungen entwickelten und warteten. Für den Erfolg dieser Umstellung mussten Warnmeldungen direkt an das jeweilige Team und nicht an eine separate zentrale Einheit gesendet werden.

„Wir haben nun die Möglichkeit, die richtigen Warnmeldungen zur richtigen Zeit an die richtigen Personen zu senden.“

Globaler Infrastruktur- und Architekturmanager bei der REA-Gruppe

Agiles Incident-Management mit PagerDuty erreichen

Im Jahr 2014 führte das Team PagerDuty ein, um die Reaktionszeit bei Vorfällen zu verbessern und die DevOps-Arbeitsweise vollständig zu übernehmen.

Mit PagerDuty kann REA die Art und Weise, wie Vorfälle im gesamten Unternehmen verwaltet werden, durch die Koordination optimieren. Reaktion auf Vorfälle Die Eskalationsrichtlinien für Vorfälle werden individuell angepasst, sodass Benachrichtigungen je nach Art des Problems an die richtigen Personen weitergeleitet werden. Dazu gehören das Team, das für den betroffenen Dienst verantwortlich ist, und der zuständige Techniker. Die Teams legen nun großen Wert darauf, ihre Benachrichtigungen an die SLAs anzupassen und sicherzustellen, dass sie nur bei triftigem Grund benachrichtigt werden. Dadurch tragen alle für den Dienst verantwortlichen Teams die volle Verantwortung. Dies erforderte einen grundlegenden Mentalitätswandel: Die Teams verstehen nun, dass sie für den Betrieb ihrer Systeme selbst verantwortlich sind. „Die Möglichkeit, die Zeitpläne anzupassen, war für uns ein echter Gewinn“, erklärte er.

Physische Pager gehören der Vergangenheit an. Störungsmeldungen werden nun über PagerDuty übermittelt, sodass Techniker (Entwickler, QA-Mitarbeiter, Systemadministratoren usw.) über ihre Smartphones und andere Geräte, die sie bereits nutzen, benachrichtigt werden können. „Der Verzicht auf physische Pager hat unser Leben grundlegend verändert“, sagte er.

Mithilfe der von PagerDuty automatisch erfassten Kennzahlen konnten Turegano und sein Team ihre Abläufe optimieren. PagerDuty liefert Daten, die ihnen helfen, die mittlere Reparaturzeit (MTTR) zu ermitteln. Dadurch kann die REA Group die Leistungsentwicklung ihres Einsatzteams im Verlauf eines Vorfalls verfolgen. PagerDuty aggregiert außerdem Kennzahlen aus verschiedenen Quellen. Überwachungstools die das Team bereits verwendet, wie zum Beispiel AWS CloudWatch , Nagios , New Relic Und Splunk Diese aggregierten Kennzahlen sind für die Durchführung von Tests von unschätzbarem Wert. Obduktionen nach einem Vorfall Um zu verhindern, dass ähnliche Probleme in Zukunft erneut auftreten, sagte er.

REA nutzt PagerDuty nun für den Betrieb all seiner Systeme. digitale Operationen „Alles, was ausfallen kann, löst eine Benachrichtigung an PagerDuty aus, und wir haben jetzt die Möglichkeit, die richtigen Benachrichtigungen an die richtigen Personen zu senden“, sagte er. Er fügte hinzu, dass REA nicht nur effizienter im Umgang mit Benachrichtigungen geworden sei, sondern einen umfassenden DevOps-Kulturwandel durchlaufen habe und PagerDuty dabei eine entscheidende Rolle gespielt habe.

Wenn Sie mehr darüber erfahren möchten, wie REA den Bereitschaftsdienst ausgebaut hat, lesen Sie diesen Beitrag in deren Technikblog Die