• PagerDuty
    /
  • Blog
    /
  • DevOps
    /
  • Permettre une réponse plus rapide aux incidents et atténuer les risques de sécurité dans les services financiers

Blog

Permettre une réponse plus rapide aux incidents et atténuer les risques de sécurité dans les services financiers

par Joe Pusateri 14 juillet 2021 | 9 minutes de lecture

Les logiciels sont en train de dévorer le monde. La transformation numérique est au cœur des préoccupations des entreprises qui cherchent à répondre aux demandes toujours croissantes des consommateurs et à numériser les processus manuels. Ce phénomène n'est pas propre au secteur technologique. Le commerce électronique, la finance, la santé et d'autres secteurs évoluent tous dans cette direction.

Alors que les attentes des clients augmentent dans tous les secteurs, les secteurs réglementés, en particulier les services financiers, sont confrontés à une pression accrue pour minimiser les temps d'arrêt et les risques de sécurité. Nous attendons d'eux qu'ils fournissent des services de manière sécurisée et sans interruption. Nulle part cela n'est plus vrai que dans le secteur financier. Les services financiers ont un impact sur des millions de personnes et des milliards de dollars de revenus lorsqu'ils sont en panne. Dans un marché concurrentiel rempli de startups fintech cherchant à perturber le secteur, associé à ce niveau de disponibilité et de fiabilité plus élevé, les incidents peuvent éroder la confiance très rapidement, poussant les clients à rechercher des solutions alternatives. Chaque seconde compte !

PagerDuty, en partenariat avec AWS, peut aider les équipes à améliorer leur approche des opérations numériques grâce à de meilleures alertes, une réponse automatisée aux incidents, des processus DevOps sécurisés et une communication rationalisée. Voyons comment cela fonctionne.

Recevez les bonnes alertes avec PagerDuty et DevOps Guru

Imaginez qu'une société de banque en ligne soit confrontée à un incident dans lequel les dépôts directs n'apparaissent pas dans l'historique du compte des utilisateurs de l'application. Cela affecte un grand nombre de clients et crée beaucoup d'anxiété chez eux, et ils veulent que le problème soit résolu le plus rapidement possible. Ce type de problème peut rapidement détériorer la confiance et faire fuir les clients. Non seulement il faut le résoudre immédiatement, mais il est essentiel de veiller à ce que cela ne se reproduise pas pour fidéliser et faire confiance aux clients. Voyons donc ce qui se passe.

Le processus de réponse aux incidents démarre lorsqu'un retard anormal est détecté dans le système d'Amazon. DevOpsGuru et une nouvelle alerte est envoyée à PagerDuty. Cette alerte peut être automatiquement corrélée à tout autre problème ouvert similaire en fonction de la configuration. Cela signifie que plusieurs alertes concernant le même problème (il peut y en avoir beaucoup) seraient toutes regroupées dans le même incident, réduisant ainsi le nombre de notifications que la personne de garde doit accuser réception. Il n'y a rien de plus ennuyeux que d'avoir votre téléphone continuellement en train de vibrer avec une notification concernant un problème sur lequel vous travaillez déjà !

Grâce à son architecture unique basée sur les services, PagerDuty sait automatiquement qui est de garde pour ce service et le type de problème. Pour les problèmes critiques et de haute urgence, PagerDuty peut appeler son téléphone, lui envoyer un SMS et envoyer un push vers son application mobile PagerDuty . Cela garantit que lorsque l’alarme se déclenche, la bonne personne au sein de la bonne équipe est rapidement engagée pour gérer le processus de réponse aux incidents. Il s’agit de la première étape pour réduire le temps global nécessaire à la résolution des problèmes : réduire le temps nécessaire pour commencer à y travailler.

Mais ce n’est qu’un début. Il est également important de tirer parti de l’automatisation pour garantir que le processus d’atténuation se déroule le plus facilement possible.

Automatisez la réponse aux incidents avec PagerDuty et EventBridge

Mais ce n'est que le début, imaginez que le retard de service se produise sur une instance AWS EC2. Pendant le processus de réponse, la personne de garde commencera généralement à enquêter en exécutant des diagnostics pour comprendre ce qui se passe. Pour ce faire, elle devra se connecter à la console AWS (à condition d'avoir les informations d'identification à portée de main, d'avoir le bon niveau d'autorisation et, espérons-le, de ne pas avoir expiré). En tirant parti des capacités d'automatisation de PagerDuty, l'intervenant peut facilement déclencher l'exécution de ces diagnostics dans AWS via Amazon de PagerDuty Intégration EventBridge tandis que le reste de l’équipe d’intervention est averti en parallèle.

L'un des avantages de l'architecture basée sur les services de PagerDuty est que, même si une équipe s'intéresse principalement aux alertes envoyées à ses services à partir de ses propres outils de surveillance, PagerDuty fournit aux intervenants des informations sur les problèmes rencontrés dans d'autres systèmes. sont liés à celui sur lequel ils travaillent.

PagerDuty répond aux questions qu'un intervenant poserait normalement, telles que :

  • Qu’est-ce qui vous alerte actuellement et pendant combien de temps ?
  • Ce problème s'est-il déjà produit ? Si oui, quand ?
  • Qu'avons-nous fait à ce sujet avant ?

Ces informations historiques peuvent être essentielles pour décider des mesures à prendre, et fournir ces réponses plus rapidement aux intervenants permet d’économiser du temps et de l’argent.

Lorsque l'intervenant visualise l'incident, celui-ci est mis à jour avec les résultats du diagnostic ainsi que ces informations historiques cruciales. Cela permet de gagner du temps et de fournir à l'intervenant les informations dont il a besoin pour effectuer un tri efficace et sans avoir besoin d'accéder directement aux systèmes eux-mêmes. Alors qu'il faudrait normalement fournir un identifiant et donner un accès autorisé à de nombreux systèmes afin d'exécuter des diagnostics individuels, cela permet d'économiser les coûts de configuration et de déléguer en toute sécurité les tâches aux intervenants via le libre-service.

Image of EventBridge Integration showing quickstart event bus configuration.

Screenshot of EventBridge integration add service function

Screenshot of EventBridge integration custom action EC2 instance restart

Dans cet exemple, il s'avère (sur la base des diagnostics) que le retard de traitement est dû à une interaction avec la base de données. L'intervenant ne peut pas résoudre le problème sans faire appel à d'autres experts. Ils voudront trouver la personne de garde pour ce service. Pas besoin de rechercher qui fait partie de quelle équipe ou le dernier calendrier de vacances, PagerDuty peut appeler à volonté les intervenants de garde des équipes sélectionnées. Demandez simplement à la personne de garde de l'équipe de base de données de se joindre à l'incident et au répondeur et de revenir au dépannage du problème. Lorsque le répondeur supplémentaire ou l'un de ses membres suppléants accepte la demande, il peut rejoindre un pont de conférence ou discuter pour se coordonner avec le reste des répondeurs.

Screenshot of EventBridge integration conference bridge

Mais que se passe-t-il si le service subit un impact négatif en raison de sa dépendance à l’égard d’un autre service, par exemple une file d’attente SQS ? Les applications et leurs services sous-jacents sont plus que jamais interdépendants. Comment puis-je savoir sur quels autres services repose mon application ? PagerDuty est généralement utilisé par de nombreuses équipes différentes, chacune possédant et gérant ses propres outils de surveillance et flux de travail. Un service est le moyen utilisé par PagerDuty pour répartir la charge de travail de gestion entre chaque équipe, tout en fournissant une vue unifiée de l'impact global sur l'entreprise.

Dans cet exemple, les intervenants pensent que le problème peut être résolu par un redémarrage rapide du service sur l'instance concernée. PagerDuty peut fournir un élément de menu que le répondeur peut sélectionner et qui déclenchera un script ou une commande via EventBridge ou la plate-forme d'automatisation RunDeck de PagerDuty pour terminer cette action. En fait, si cette réponse est la réponse par défaut en cas d'incidents répétés, PagerDuty peut exécuter ce script sans intervention humaine, pendant ou même avant que les intervenants ne soient avertis ! Si nous choisissons d’attendre avant d’avertir qui que ce soit, il se peut que l’incident se résolve automatiquement sans réveiller personne, ce qui contribue grandement à offrir une meilleure qualité de vie aux intervenants !

Cet exemple de flux d'incidents est logique pour une erreur d'infrastructure ou d'application qui peut être triée et corrigée par un membre de l'équipe DevOps, mais saviez-vous que PagerDuty peut également aider pour d'autres cas d'utilisation avec AWS ? Regardons une faille de sécurité pour un autre exemple.

Restez en sécurité et renforcez la confiance avec PagerDuty et GuardDuty

Le risque de faille de sécurité est particulièrement élevé pour les institutions financières. La mise en place d'Amazon Service de garde permet aux équipes de surveiller intelligemment l'activité du réseau, l'accès aux comptes et les flux de données pour détecter tout comportement anormal ou menaçant.

Imaginez dans ce nouvel exemple que GuardDuty vient de détecter un modèle de données indiquant un accès non autorisé au réseau. Tout comme il l'a fait précédemment lors de la dégradation du système, PagerDuty trouvera la bonne équipe et la bonne personne de garde à avertir en urgence, car les secondes comptent lorsqu'une faille de sécurité est en cours.

Dans ce cas, nous configurerions l'automatisation pour éventuellement rediriger le trafic, verrouiller les segments de réseau appropriés et isoler les composants concernés dès que l'alerte est déclenchée et que l'incident est créé. De plus, l'ingénieur de sécurité d'astreinte souhaitera voir un instantané de diagnostic. PagerDuty lancera cette opération et reliera les résultats à l'incident. Au moment où l'ingénieur observe l'incident, toutes les informations pertinentes sont présentes et il n'a pas perdu de temps pour éviter d'autres dommages.

Un élément important de cela est que, quel que soit le niveau d'accès de l'ingénieur, la personne de garde a accès aux informations nécessaires. diagnostique ressources. L'automatisation garantit que le moins de privilèges possible est accordé à la personne et que les ressources sous-jacentes restent sécurisées.

Screenshot of GuardDuty team user profile serviceScreenshot of GuardDuty team user permissions

Tenir les parties prenantes informées et éliminer les incidents

Chaque fois qu’un incident de gravité élevée perturbe l’expérience client ou risque d’exposer la sécurité, les propriétaires de services commerciaux et les autres parties prenantes souhaitent être informés. Combien de temps faudra-t-il attendre avant que nous puissions à nouveau fonctionner ? Combien de clients ont été touchés ? Nos données ont-elles été exposées ? Ce sont toutes des questions importantes, et ces parties prenantes doivent être prises en compte. Malheureusement, la collecte des données pertinentes, la recherche du bon groupe de parties prenantes et l’élaboration de la bonne réponse ralentissent la capacité de l’intervenant à résoudre le problème.

PagerDuty fournit un canal pour tenir les parties prenantes concernées au courant des messages qui leur sont destinés. Coutume ' pièces de réponse « peut attribuer des ponts de conférence et automatiser l'envoi du message pertinent aux bonnes parties prenantes, réduisant ainsi le temps que les intervenants passent à gérer l'incident et leur permettant de se concentrer à nouveau sur la résolution du problème.

Une fois le problème résolu, la création d'un post-mortem irréprochable au sein de la plateforme PagerDuty enrichit le processus de réponse d'apprentissages et génère les meilleures pratiques pour ce type de problème. Ici, les équipes capturent ce qu’elles ont bien fait et ce qui aurait pu être mieux, offrant ainsi la possibilité de s’améliorer continuellement.

Permettre aux organisations de services financiers de migrer vers le cloud en toute sécurité

La transformation numérique peut être particulièrement difficile pour les organisations financières, mais avec les bons partenaires de l'écosystème et une configuration de gestion des opérations numériques, elles peuvent s'adapter à ces réglementations supplémentaires en matière de conformité et de sécurité tout en offrant une haute disponibilité et des services transparents à leurs clients. PagerDuty et AWS permettent au secteur financier de migrer vers le cloud en toute sécurité, tout en minimisant l'impact sur les clients et les temps d'arrêt et en accélérant l'innovation pour répondre aux demandes des clients.

Apprenez-en plus sur ces intégrations PagerDuty et AWS et bien d'autres sur https://www.pagerduty.com/integrations/aws/ .