- PagerDuty /
- Der Blog /
- Gemeinschaft /
- Chaos Engineering mit Ana Medina
Der Blog
Chaos Engineering mit Ana Medina
Vor Kurzem habe ich mich mit Ana Medina von Gremlin zu einem PagerDuty Community AMA getroffen!
Ana arbeitet derzeit als Chaos Engineer bei Gremlin und unterstützt Unternehmen dabei, Ausfälle durch proaktive Chaos-Engineering-Experimente zu vermeiden. Zuvor war sie bei Uber als Ingenieurin in den SRE- und Infrastrukturteams tätig, wo sie sich speziell auf Chaos Engineering und Cloud Computing konzentrierte. Twittern Sie unter @Ana_M_Medina über Reisen, Vielfalt in der Technologie und psychische Gesundheit.
Sie können sich das gesamte AMA hier ansehen:
https://www.youtube.com/watch?v=Rf7CedwLnYY
Wenn Sie jedoch lieber lesen möchten, finden Sie hier einige der gestellten Fragen sowie eine Zusammenfassung von Anas Antworten.
F: Ich habe an mehreren Projekten mitgewirkt und mit Kunden zusammengearbeitet, bei denen Chaos Monkey diskutiert oder ins Spiel gebracht wurde und großes Interesse und viele Gespräche aufkamen. Doch sobald es an die tatsächliche Umsetzung geht, bekommen die Leute Angst. Es kommen Einwände, und es entwickelt sich ein Spiel nach dem Motto: „Aber was, wenn Daten beschädigt werden, ein Kunde betroffen ist oder die wichtigste Person verärgert ist?“ Sind Sie mit solchen Einwänden konfrontiert worden und wie haben Sie sie überwunden? – Joel Heenan
Es muss nicht beängstigend sein – bedenken Sie die Voraussetzungen wie Explosionsradius und Überwachung. Der erste Schritt ist Überwachung und Beobachtbarkeit. Sie können nicht loslegen, wenn Sie nicht wissen, wie Ihr aktuelles System oder Ihr Dienst jetzt aussieht oder wie es nach dem Start Ihres Experiments aussehen wird.
Überlegen Sie als Nächstes, welche Art von Experiment Sie durchführen möchten. Verstehen Sie Ihre Hypothese und überlegen Sie, welche Maßnahmen erforderlich sind, um das Experiment abzubrechen, wenn Sie feststellen, dass Sie kurz davor stehen, gegen ein SLA zu verstoßen. Machen Sie sich mit den Abbruchbedingungen vertraut.
Berücksichtigen Sie auch Ihren Explosionsradius – warum sollte man das in der Produktion ausführen, wenn man nicht weiß, welche Auswirkungen es in der Staging- oder einer anderen Vorproduktionsumgebung hat? Sie können es in einer Umgebung außerhalb der Produktion starten, die sicherer ist und keinen Kundenkontakt hat. Anstatt es auf 50 Prozent Ihrer Infrastruktur laufen zu lassen, könnten Sie es vielleicht nur auf drei Ihrer Hosts laufen lassen, um ein Gefühl für die möglichen Auswirkungen zu bekommen. Als Ana beispielsweise bei Uber arbeitete, wurde das SRE-Team mit den Service-Eigentümern zusammengeführt, um ihnen die Auswirkungen des Experiments zu erläutern und so ein besseres Verständnis der Bedingungen und möglichen Auswirkungen zu entwickeln.
Viele Bedenken drehen sich um die Sicherheit. Daher ist ein „großer roter Knopf“ wichtig, der alle Experimente stoppt. Durch Überwachung und Beobachtung lässt sich dies automatisieren. So können Sie die Experimente automatisch beenden, wenn etwas schiefgeht, bevor ein Problem mit Auswirkungen auf die Kunden auftritt.
Und schließlich kann es wirklich helfen, Ängste und Bedenken zu überwinden, wenn Sie die potenziellen Erkenntnisse kommunizieren, die aus den Experimenten gewonnen werden können.
F: Was ist Ihrer Erfahrung nach am wirksamsten, um einem Burnout vorzubeugen, wenn man auf Abruf arbeitet oder in kurzer Zeit mehrere intensive Projekte bearbeitet? – Taylor Dolezal
Ein guter Vorgesetzter und eine gute Beziehung zu ihm sind entscheidend. Sie müssen mit Ihrem Vorgesetzten darüber sprechen können, was los ist mit Du und wie Ihr Arbeitspensum aussieht. Machen Sie deutlich, dass dies Ihre oberste Priorität ist, wenn Sie auf Abruf sind, und dass es nicht effektiv ist, gleichzeitig an Projekten mit hoher Priorität zu arbeiten.
Chaos Engineering kann Burnout vorbeugen, da Sie sich auf die 2-Uhr-Seiten vorbereiten können, indem Sie während der Geschäftszeiten üben und so Ihr Muskelgedächtnis für die Reaktion auf Ausfälle stärken. Noch besser: Sie können potenzielle Probleme möglicherweise im Voraus erkennen und die 2-Uhr-Seiten von vornherein verhindern.
Auch die Selbstfürsorge ist ein wichtiger Faktor zur Burnout-Prävention. Achten Sie auf eine gesunde Ernährung und ausreichend Ruhe … und stopfen Sie sich nicht mit Zucker voll, auch wenn es Ihnen im Moment gut erscheint! Wenn Ana Bereitschaftsdienst hat, plant sie immer Zeit für Ausflüge mit Freunden ein, um vom Stress der Bereitschaft abzuschalten. Sie ist viel unterwegs und hat zum Stressabbau immer Badebomben dabei!
F: Wer ist Ihre Lieblingsperson (oder Ihre Lieblingspersonen) innerhalb der technischen Community? – Taylor Dolezal
Da Burnout in früheren Positionen ein wichtiger Faktor war, ist Anas aktueller Manager Tammy Bütow ist einer ihrer Favoriten; Amy Chen ist ein weiterer Favorit.
F: Was möchten Sie im Moment lernen? – Taylor Dolezal
Ana konzentriert sich derzeit auf das Lernen über Weltgeschichte und amerikanische Geschichte. Sie interessiert sich auch für die Erforschung der Suche SRE Buch und Untersuchung der Best Practices rund um die Beobachtbarkeit.
F: Worauf freuen Sie sich im Chaos-Engineering-Bereich im Jahr 2019 am meisten? – Taylor Dolezal
Es wird ein Jahr der Akzeptanz – 2018 haben sich viele Menschen mit dem Thema beschäftigt, sich mit Observability-Praktiken vertraut gemacht usw. Nachdem die Grundlagenarbeit nun erledigt ist, erwartet Ana eine stärkere Akzeptanz.
F: Wie kann PagerDuty von Chaos Engineers verwendet werden? – Tammy Bütow
Ein Chaos-Ingenieur verfügt in der Regel über einen PagerDuty Account! Er hat wahrscheinlich bereits Erfahrung im Bereitschaftsdienst, könnte aber auch der Ingenieur sein, der PagerDuty Warnmeldungen mit Dummy-Diensten testet und Chaos-Experimente mit ihnen durchführt. Dies hilft auch dabei, Ingenieure darin zu schulen, effektiv auf Warnmeldungen zu reagieren.
Vielen Dank für das Lesen dieser AMA-Zusammenfassung und vergessen Sie nicht, sich unsere anderen AMA-Videos ! Und wenn Sie sich fragen, wer unser nächster Gast beim PagerDuty Community AMA sein wird, besuchen Sie unsere Community-Foren für Updates!