
Größe: 1.300 Mitarbeiter
Industrie: Digitale Medien / Immobilien
Standort: Melbourne, Australien
Kunde seit: 2014
Wichtige Integrationen:







REA Group ersetzt Pager durch PagerDuty
REA Group Limited ist ein multinationales digitales Werbeunternehmen, das sich auf Immobilien spezialisiert hat. Das Unternehmen betreibt die führende Immobilien-Website in Australien sowie bekannte Websites in ganz Asien. Ziel ist es, „die Art und Weise zu verändern, wie die Welt Immobilien erlebt“. Dies geschieht durch die Entwicklung innovativer Produkte und die Schaffung einer dynamischen Arbeitskultur, die erfinderisches Denken fördert. Millionen von Menschen weltweit nutzen täglich die Websites der REA Group, um Immobilien zu finden. Daher muss die Plattform immer verfügbar und leistungsstark sein, damit Nutzer jederzeit und überall nach Immobilien suchen können. Daher ist es für die REA Group von entscheidender Bedeutung, auf Vorfälle zu reagieren, die die Plattformleistung beeinträchtigen, ohne dass ihre Kunden es bemerken. Gleichzeitig darf die REA Group die betriebliche Effizienz ihres Softwareentwicklungs- und Managementteams nicht aus den Augen verlieren, insbesondere angesichts des schnellen Wachstums.
Herausforderungen: Monolithische Vorfallwarnungen und isolierte Abläufe
Vor der Einführung von PagerDuty im Jahr 2014 verließ sich das Betriebsteam der REA Group auf ein monolithisches, ineffizientes Alarmbenachrichtigungssystem, bei dem die Techniker ständig physische Pager bei sich tragen mussten. Da ein auf physischen Pagern basierendes System schwierig zu ändern und zu optimieren war, konnte das REA-Team nicht garantieren, dass die richtigen Alarme die richtigen Personen erreichten, was die Reaktionszeiten bei Vorfällen verzögerte. Darüber hinaus wurden die Techniker im Bereitschaftsdienst ständig über nicht kritische oder nicht umsetzbare Alarme benachrichtigt, insbesondere außerhalb der Arbeitszeiten. „Nachts war es ein Albtraum – ein wirklich mühsamer Prozess“, sagte Javier Turegano Molina, Global Infrastructure and Architecture Manager bei der REA Group, über die Erfahrungen im Bereitschaftsdienst in diesen Anfangstagen.
Die zweite große Herausforderung für das Team war die Silostruktur der Organisation Die Organisation bestand aus vielen verschiedenen Gruppen, die jeweils für die Entwicklung unterschiedlicher Bereiche des Unternehmens-Ökosystems verantwortlich waren. Alle Vorfälle wurden jedoch an ein zentrales Betriebsteam weitergeleitet. REA konzentrierte sich darauf, diese Silos aufzubrechen, indem es eine DevOps-Kultur einführte und die Verantwortung für den Betrieb auf die Teams verlagerte, die die Anwendungen entwickelten und warteten. Damit diese Änderung erfolgreich war, mussten Warnmeldungen direkt an das Team und nicht an eine separate zentrale Einheit übermittelt werden.
„Wir haben jetzt eine Möglichkeit, die richtigen Warnungen zum richtigen Zeitpunkt an die richtigen Personen zu senden.“
– Javier Turegano Molina , Global Infrastructure and Architecture Manager bei der REA Group
Agiles Incident Management mit PagerDuty
Im Jahr 2014 implementierten Turegano und sein Team PagerDuty , um die Reaktionszeit bei Vorfällen zu verbessern und die DevOps-Arbeitsweise vollständig zu übernehmen.
Mit PagerDuty kann REA die Art und Weise, wie Vorfälle in der gesamten Organisation verwaltet werden, optimieren, indem es Reaktionen auf Vorfälle maßgeschneidert und agil. Die Eskalationsrichtlinien für Vorfälle werden individuell angepasst, sodass Warnmeldungen je nach Art des Problems an die richtigen Personen übermittelt werden, darunter an das Team, das für den betroffenen Dienst verantwortlich ist, und an den Techniker, der am besten für die Bearbeitung des Problems geeignet ist. Die Teams legen nun großen Wert darauf, ihre Warnmeldungen so zu gestalten, dass sie den SLAs entsprechen und das Team nicht ohne triftigen Grund benachrichtigt wird. Das Ergebnis ist, dass nun alle Teams, die für den Dienst verantwortlich sind, die volle Verantwortung tragen. Dies erforderte einen entscheidenden Mentalitätswandel, da die Teams nun verstehen: Wer etwas baut, der betreibt es auch. „Die Möglichkeit, die Zeitpläne anzupassen, war für uns eine wirklich tolle Funktion“, erklärte Turegano.
Physische Pager gehören der Vergangenheit an. Benachrichtigungen über Vorfälle werden jetzt über PagerDuty übermittelt, sodass Ingenieure (Entwickler, Qualitätssicherung, Systemtechniker usw.) über ihre Telefone und andere Geräte, die sie bereits nutzen und besitzen, benachrichtigt werden können. „Keine physischen Pager mehr zu haben, hat mein Leben verändert“, sagte Turegano.
Mit den von PagerDuty automatisch erfassten Kennzahlen konnten Turegano und sein Team ihre Betriebsabläufe verbessern. PagerDuty liefert Daten zur Ermittlung der mittleren Reparaturzeit (MTTR). So kann die REA Group die Leistungsentwicklung ihres Betriebsteams im Laufe eines Vorfalls verfolgen. PagerDuty aggregiert außerdem Kennzahlen aus verschiedenen Überwachungstools die das Team bereits nutzt, wie zum Beispiel AWS CloudWatch , Nagios , Neues Relikt Und Splunk Diese aggregierten Kennzahlen sind von unschätzbarem Wert für die Durchführung Obduktionen nach einem Vorfall um zu verhindern, dass ähnliche Probleme in Zukunft erneut auftreten, sagte Turegano.
REA nutzt nun PagerDuty für alle seine digitale Operationen „Alles, was kaputtgeht, sendet eine Warnung an PagerDuty, und wir können jetzt die richtigen Warnungen an die richtigen Personen senden“, sagte Turegano. Er fügte hinzu, dass REA nicht nur effizienter mit Warnungen umgeht, sondern auch einen umfassenden DevOps-Kulturwandel durchlaufen hat, und PagerDuty hat diesen Weg maßgeblich unterstützt.
Wenn Sie mehr darüber lesen möchten, wie REA den Bereitschaftsdienst skaliert hat, lesen Sie diesen Beitrag in ihrer Technikblog .