PagerDuty image

PagerDuty hilft CTC bei der Transformation des Betriebs in einer Remote-Welt

PagerDuty image

Größe: 101–500 Mitarbeiter

Industrie: Finanzdienstleistungen

Standort: Chicago, IL

Kunde seit: 2014

Wichtige Integrationen:

JIRA
Locker
Splunk
AWS

Die 1995 gegründete Chicago Trading Company (CTC) ist ein auf den Handel mit Derivaten spezialisiertes Unternehmen, das sich auf den Markthandel mit einer Vielzahl von Produkten, Dienstleistungen und Strategien konzentriert. CTC handelt aktiv mit einem breiten Spektrum an Anlageklassen, darunter Aktien, Zinsen und Rohstoffe. Die Handelstische sind 20 Stunden am Tag, sechs Tage die Woche geöffnet, und das Unternehmen gilt als führender Anbieter von Liquidität und Preisbildung an zahlreichen Aktien- und Derivatebörsen weltweit.

Da der Markt im Mikrosekundenbereich schwankt, müssen die kritischen Anwendungen und Dienste von CTC jederzeit online und für die Nutzer sofort verfügbar sein, um ein konsistentes Kundenerlebnis zu gewährleisten. „Da unsere Dienste direkt mit dem offenen Markt verbunden sind, ist Ausfallzeit keine Option“, erklärte der Leiter für SRE und Observability bei CTC. „Wenn wir nicht im Markt präsent sind, verpassen wir Chancen.“ Der Leiter für SRE und Observability ist verantwortlich für das Observability-Management bei CTC und leitet das SRE-Team, das die Verfügbarkeit der Vorproduktions- und Produktionsumgebungen unterstützt, automatisiert und verbessert.

CTC reduced alert noise 10x with PagerDuty

Vor PagerDuty

Vor der Implementierung von PagerDuty stand das Team vor mehreren Herausforderungen, darunter:

  • Reaktionsverzögerungen aufgrund eines manuellen Bereitschaftsdienstverzeichnisses mit veralteten Zeitplänen und Rotationen
  • Schwierigkeiten bei der Kommunikation mit den Bereitschaftsdiensten außerhalb der Geschäftszeiten
  • Fehlende Automatisierung im Reaktionsprozess führte zu mehr manueller Arbeit für die Bereitschaftskräfte.
  • Ein veraltetes Dashboard, das mit nicht relevanten Ereignissen und Warnmeldungen überladen war, führte zu Verzögerungen bei der Bestätigung und Behebung von Vorfällen.
  • Alarmstürme, die die Fähigkeit der Teams beeinträchtigten, die Art der Vorfälle zu verstehen und effektiv darauf zu reagieren.

Angesichts des jüngsten Trends zum Homeoffice war CTC gezwungen, seine Geschäftstätigkeit schnell auf ein digitales Modell umzustellen. Die erhöhte Marktvolatilität führte zudem dazu, dass die Kunden ihre Handelsfrequenz steigerten, wodurch die ständige Verfügbarkeit der CTC-Handelsplattform wichtiger denn je wurde.

Um dies zu erreichen, musste CTC seinen Incident-Management-Prozess überdenken und gleichzeitig ein konsistentes Kundenerlebnis gewährleisten. Die Teams mussten sich daher auf das Tagesgeschäft anstatt auf langfristige Projekte konzentrieren – und das alles in einer neuen, primär auf Remote-Arbeit basierenden Umgebung. „Unsere Teams arbeiten mit Hochdruck daran, sicherzustellen, dass die Systeme die erhöhte Kapazität bewältigen und dem Markt Liquidität bereitstellen, um unsere Kunden zufrieden zu stellen“, so der Leiter für SRE und Observability.

Kommunikation und Zusammenarbeit priorisieren

Vor der Umstellung auf Homeoffice wurde der Großteil der Informationen mündlich im Büro kommuniziert. Da nun das gesamte Unternehmen remote arbeitet, ist die effektive Kommunikation und Zusammenarbeit zwischen den Teams wichtiger denn je. PagerDuty hat CTC dabei unterstützt, die Kommunikationskanäle für Vorfälle vollständig zu digitalisieren. „Mit PagerDuty konnten wir Vorfälle schnell und effizient aus der Ferne melden und unseren Vorfallmanagementprozess zentralisieren. So konnten wir Teams schnell in einem einzigen Kanal zusammenführen und direkt von dort aus Entscheidungen treffen.“

CTC nutzt außerdem Slack, das Teil von PagerDuty ist. Ökosystem mit über 600 Integrationen Um die Kommunikation und Zusammenarbeit zwischen den Teams bei Vorfällen zu verbessern sowie um Nachbesprechungen durchzuführen. Mit dem Slack-Integration Teams können PagerDuty Vorfälle direkt in der Slack-Oberfläche erstellen, darauf reagieren und sie beheben. Das reduziert den Aufwand durch die Nutzung mehrerer Kommunikationskanäle und ermöglicht es allen beteiligten Teams, gemeinsam an der Bearbeitung des Vorfalls zu arbeiten. „Da alle Teams jetzt remote arbeiten, erstellen wir den Vorfall einfach direkt in Slack. Das Playbook gibt allen den richtigen Zoom-Raum vor, und schon kann es losgehen“, so der Leiter für SRE und Observability.

Verbesserung der operativen Transparenz

In einer zunehmend digitalisierten Welt ist es für die Beteiligten von entscheidender Bedeutung, in Echtzeit einen vollständigen Überblick über den Zustand ihrer kritischen Systeme und Dienste zu haben, damit sie im Falle eines Vorfalls schnell eine angemessene Reaktion einleiten können.

Vor PagerDuty nutzte CTC ein herkömmliches Dashboard, das das Team über Serviceausfälle und Störungen informierte. „Wir bekamen dann die sogenannte ‚rote Wand‘ zu sehen – buchstäblich einen Bildschirm voller Hunderter von Warnmeldungen, ohne dass wir erkennen konnten, was betroffen war oder was in unserer Umgebung vor sich ging“, erklärte der Leiter für SRE und Observability.

Um diesem Problem entgegenzuwirken, implementierte CTC Folgendes: PagerDuty Ereignisintelligenz Um Warnmeldungen automatisch zu gruppieren und die Anzahl der Benachrichtigungen für alle geschäftskritischen Dienste und Anwendungen zu reduzieren, erklärte er: „Vor PagerDuty erhielten wir manchmal 50 bis 200 Warnmeldungen gleichzeitig. Dank Event Intelligence ist diese Zahl nun auf 5 bis 10 gesunken.“

Dank Event Intelligence verfügen die Reaktionsteams von CTC über den nötigen Kontext, um Probleme schnell zu beheben, bevor sie sich auf größere Kundengruppen auswirken. „Die Möglichkeit, irrelevante Meldungen zu reduzieren und Warnmeldungen innerhalb der Plattform zu bereinigen, spart unserem SRE-Team viel Zeit, sodass es sich auf wichtigere Aufgaben konzentrieren kann“, so der Leiter für SRE und Observability.

Wie viele Unternehmen heutzutage muss auch CTC weiter wachsen, um mit der Kundennachfrage und neuen Innovationen Schritt zu halten. Obwohl Geschwindigkeit für ein Handelsunternehmen wie CTC unerlässlich ist, ermöglicht die Ausführung latenzunempfindlicher Workloads in AWS CTC, schneller zu skalieren und neue Ideen schneller auf den Markt zu bringen. Viele der neuen, in AWS bereitgestellten Services folgen dem Prinzip „Sie entwickeln es, Sie besitzen es“. PagerDuty bietet eine zentrale Möglichkeit, Vorfälle unternehmensweit zu eskalieren, zu verfolgen und zu messen – unabhängig davon, wer für den Service verantwortlich ist.

„Die Möglichkeit, die Störungen zu reduzieren und Warnmeldungen innerhalb der Plattform zu beseitigen, spart unseren SRE-Teammitgliedern viel Zeit, sich auf wichtigere Aufgaben zu konzentrieren.“

Leiter SRE und Observability, CTC

Vorteile von PagerDuty

Seit der Einführung von PagerDuty hat CTC mehrere Vorteile festgestellt, darunter:

  • Reduzierte Alarmmüdigkeit und verbesserte Reaktion auf Vorfälle mit PagerDuty Ereignisintelligenz
  • Schnellere mittlere Reaktionszeit (MTTA/MTTR) in allen kritischen Systemen und Diensten
  • Verbesserte tägliche Vorfallbearbeitung und die Möglichkeit, die Übergabe von Vorfällen von Schicht zu Schicht zu automatisieren
  • Eine offene Kommunikationslinie zu den leitenden Händlern im Parkett, die Vorfälle bei Bedarf an die diensthabenden Manager über verschiedene Zeitzonen hinweg eskaliert.
  • Nahtloses Incident-Management für 24/7-Anwendungen, die auf AWS laufen.

PagerDuty unterstützte auch die Strategie von CTC zur Geschäftskontinuität. „In dieser neuen, dezentralen Arbeitsumgebung fühlen sich Mitarbeiter oft abgekoppelt vom Geschehen, und genau das versuchen wir mit PagerDuty zu verhindern. Fast alle im Unternehmen nutzen die PagerDuty -Plattform, egal ob Stakeholder oder Vollnutzer“, so der Leiter für SRE und Observability.

Zukunftsorientiert

CTC plant, den Einsatz von PagerDuty unternehmensweit weiter auszubauen. Beispielsweise hat das Unternehmen beschlossen, sich stärker auf Kennzahlen zu konzentrieren, um zukünftige Maßnahmen zu steuern. Daher befasst sich Rottas Team mit operativen Überprüfungen sowie … PagerDuty Analytics und intelligente Dashboards Um den Zustand des Teams und die Auswirkungen von Vorfällen auf das Geschäft besser zu verstehen, SLAs zu messen und Kennzahlen nahtlos mit der Geschäftsleitung zu teilen, erklärte er: „Dies könnte uns bei der Entscheidung helfen, in welche Anwendungen wir investieren sollten.“

Darüber hinaus hat CTC zwar bereits alle wichtigen Geschäftsdienste in Status-Dashboards eingerichtet, möchte deren Nutzung aber unternehmensweit ausweiten, um der Führungsebene einen besseren Überblick über den Status von Vorfällen oder Diensten zu ermöglichen. Mit dem Wachstum der PagerDuty Plattform bei CTC freut sich das Team darauf, deren Funktionalität auf weitere Bereiche der Infrastruktur auszudehnen. „Mir gefällt die Einfachheit. Ich muss mich um nichts kümmern, weil die Plattform einfach ihre Arbeit macht“, erklärte er.

Um zu erfahren, wie PagerDuty Ihr Team dabei unterstützen kann, Abläufe zu vereinfachen und Prozesse in einer zunehmend digitalisierten Welt zu transformieren, wenden Sie sich an Ihren Kundenbetreuer oder testen Sie es. 14 Tage kostenlos testen Heute.