• PagerDuty
    /
  • Blog
    /
  • DevOps
    /
  • Permettre une réponse plus rapide aux incidents et atténuer les risques de sécurité dans les services financiers

Blog

Permettre une réponse plus rapide aux incidents et atténuer les risques de sécurité dans les services financiers

par Joe Pusateri 14 juillet 2021 | 9 minutes de lecture

Les logiciels envahissent le monde. La transformation numérique est au cœur des préoccupations des entreprises qui cherchent à répondre aux demandes croissantes des consommateurs et à numériser leurs processus manuels. Ce phénomène n'est pas propre au secteur technologique. Le e-commerce, la finance, la santé et d'autres secteurs évoluent tous dans cette direction.

Alors que les attentes des clients augmentent dans tous les secteurs, les secteurs réglementés, notamment les services financiers, subissent une pression accrue pour minimiser les temps d'arrêt et les risques de sécurité. Nous attendons d'eux qu'ils fournissent des services sécurisés et ininterrompus. C'est particulièrement vrai dans le secteur financier. Les services financiers impactent des millions de personnes et des milliards de dollars de chiffre d'affaires lorsqu'ils sont en panne. Dans un marché concurrentiel saturé de start-ups fintech cherchant à révolutionner le secteur, et compte tenu de ces normes de disponibilité et de fiabilité accrues, les incidents peuvent rapidement éroder la confiance, poussant les clients à rechercher des solutions alternatives. Chaque seconde compte !

PagerDuty, en partenariat avec AWS, peut aider les équipes à améliorer leur approche des opérations numériques grâce à de meilleures alertes, une réponse automatisée aux incidents, des processus DevOps sécurisés et une communication simplifiée. Voyons comment cela fonctionne.

Recevez les bonnes alertes avec PagerDuty et DevOps Guru

Imaginez qu'une banque en ligne soit confrontée à un incident : les dépôts directs n'apparaissent pas dans l'historique des comptes des utilisateurs de l'application. Ce problème impacte un grand nombre de clients et suscite beaucoup d'anxiété. Ils souhaitent que le problème soit résolu rapidement. Ce type de problème peut rapidement miner la confiance et faire fuir les clients. Il est non seulement nécessaire de le résoudre immédiatement, mais il est également essentiel de veiller à ce que cela ne se reproduise pas pour fidéliser et fidéliser les clients. Examinons donc ce qui se passe.

Le processus de réponse aux incidents démarre lorsqu'un retard anormal est détecté dans le système d'Amazon. DevOpsGuru Une nouvelle alerte est envoyée à PagerDuty. Cette alerte peut être automatiquement corrélée avec d'autres problèmes similaires ouverts, selon la configuration. Ainsi, plusieurs alertes concernant le même problème (il peut y en avoir beaucoup) sont regroupées dans un même incident, réduisant ainsi le nombre de notifications à accuser réception par la personne d'astreinte. Rien de plus agaçant que d'entendre son téléphone vibrer en permanence à cause d'une notification concernant un problème sur lequel on travaille déjà !

Grâce à son architecture unique basée sur les services, PagerDuty sait automatiquement qui est d'astreinte pour ce service et ce type de problème. Pour les problèmes critiques et urgents, PagerDuty peut appeler le client, lui envoyer un SMS et une notification sur son application mobile. Ainsi, dès que l'alarme se déclenche, la personne appropriée, au sein de l'équipe PagerDuty , est rapidement mobilisée pour gérer le processus de réponse aux incidents. C'est la première étape pour réduire le temps global de résolution des problèmes : réduire le temps nécessaire à leur traitement.

Mais ce n'est qu'un début. Il est également important de tirer parti de l'automatisation pour garantir que le processus d'atténuation se déroule le plus efficacement possible.

Automatisez la réponse aux incidents avec PagerDuty et EventBridge

Mais ce n'est qu'un début : imaginez que le retard de service se produise sur une instance AWS EC2. Lors de la réponse, l'intervenant commence généralement par effectuer des diagnostics afin de comprendre la situation. Pour ce faire, il doit se connecter à la console AWS (à condition d'avoir les identifiants nécessaires, le niveau d'autorisation approprié et, espérons-le, leur validité). Grâce aux fonctionnalités d'automatisation de PagerDuty, l'intervenant peut facilement déclencher ces diagnostics dans AWS via Amazon. Intégration EventBridge tandis que le reste de l'équipe d'intervention est notifié en parallèle.

L'un des avantages de l'architecture basée sur les services de PagerDuty est que, tandis qu'une équipe s'intéresse principalement aux alertes envoyées à ses services à partir de ses propres outils de surveillance, PagerDuty fournit aux intervenants des informations sur les problèmes dans d'autres systèmes qui sont liés à celui sur lequel ils travaillent.

PagerDuty répond aux questions qu'un intervenant poserait normalement, telles que :

  • Qu’est-ce qui alerte d’autre actuellement et pour combien de temps ?
  • Ce problème s'est-il déjà produit ? Si oui, quand ?
  • Qu'avons-nous fait à ce sujet avant ?

Ces informations historiques peuvent être essentielles pour décider des mesures à prendre, et fournir ces réponses plus rapidement aux intervenants permet d’économiser du temps et de l’argent.

Lorsque l'intervenant consulte l'incident, celui-ci est mis à jour avec les résultats du diagnostic et ces informations historiques cruciales. Cela permet de gagner du temps et de fournir à l'intervenant les informations nécessaires pour un tri efficace, sans avoir besoin d'accéder directement aux systèmes. Alors qu'il faudrait normalement configurer un identifiant et autoriser l'accès à plusieurs systèmes pour effectuer des diagnostics individuels, cette solution réduit les coûts de configuration et permet de déléguer les tâches aux intervenants en toute sécurité, en libre-service.

Image of EventBridge Integration showing quickstart event bus configuration.

Screenshot of EventBridge integration add service function

Screenshot of EventBridge integration custom action EC2 instance restart

Dans cet exemple, il s'avère (d'après les diagnostics) que le retard de traitement est dû à une interaction avec la base de données. L'intervenant ne peut résoudre le problème sans faire appel à d'autres experts. Il va donc falloir trouver la personne d'astreinte pour ce service. Plus besoin de consulter les équipes ou les derniers plannings de vacances : PagerDuty peut appeler les intervenants d'astreinte des équipes sélectionnées à volonté. Il suffit de demander à la personne d'astreinte de l'équipe Base de données de se joindre à l'incident et à l'intervenant, puis de reprendre la résolution du problème. Lorsque l'intervenant supplémentaire ou l'un de ses remplaçants accepte la demande, il peut rejoindre une conférence téléphonique ou un chat pour se coordonner avec les autres intervenants.

Screenshot of EventBridge integration conference bridge

Mais que se passe-t-il si le service est impacté négativement en raison de sa dépendance à un autre service, par exemple une file d'attente SQS ? Les applications et leurs services sous-jacents sont plus interdépendants que jamais. Comment savoir sur quels autres services mon application s'appuie ? PagerDuty est généralement utilisé par de nombreuses équipes différentes, chacune possédant et gérant ses propres outils de surveillance et workflows. Un service permet à PagerDuty de répartir la charge de travail de gestion entre chaque équipe, tout en offrant une vision unifiée de l'impact global sur l'entreprise.

Dans cet exemple, les intervenants pensent que le problème peut être résolu par un redémarrage rapide du service sur l'instance affectée. PagerDuty propose un menu que l'intervenant peut sélectionner pour déclencher un script ou une commande via EventBridge ou la plateforme d'automatisation RunDeck de PagerDuty afin de terminer l'action. En effet, si cette réponse est la réponse par défaut pour les incidents répétés, PagerDuty peut exécuter ce script sans intervention humaine, pendant ou même avant que les intervenants ne soient avertis ! Si nous choisissons d’attendre avant d’avertir qui que ce soit, il se peut que l’incident se résolve automatiquement sans réveiller personne, ce qui contribue grandement à offrir une meilleure qualité de vie aux intervenants !

Cet exemple de flux d'incidents est pertinent pour une erreur d'infrastructure ou d'application pouvant être triée et corrigée par un membre de l'équipe DevOps. Mais saviez-vous que PagerDuty peut également être utile pour d'autres cas d'utilisation avec AWS ? Prenons l'exemple d'une faille de sécurité.

Restez en sécurité et renforcez la confiance avec PagerDuty et GuardDuty

Le risque de faille de sécurité est particulièrement élevé pour les institutions financières. La mise en place d'Amazon Service de garde permet aux équipes de surveiller intelligemment l'activité du réseau, l'accès aux comptes et les flux de données pour détecter tout comportement anormal ou menaçant.

Imaginez, dans ce nouvel exemple, que GuardDuty vient de détecter un modèle de données indiquant un accès non autorisé au réseau. Comme lors de la dégradation du système, PagerDuty identifiera l'équipe et la personne d'astreinte appropriées à alerter en urgence, car chaque seconde compte en cas de faille de sécurité.

Dans ce cas, nous configurerions l'automatisation pour rediriger le trafic, verrouiller les segments réseau appropriés et isoler les composants affectés dès le déclenchement de l'alerte et la création de l'incident. De plus, l'ingénieur sécurité d'astreinte souhaitera consulter un instantané du diagnostic. PagerDuty lancera cette analyse et reliera les résultats à l'incident. Lorsque l'ingénieur visualisera l'incident, toutes les informations pertinentes seront disponibles et aucune perte de temps n'aura été constatée pour éviter d'autres dommages.

Un élément important de ceci est que, quel que soit le niveau d'accès de l'ingénieur, la personne de garde a accès aux informations nécessaires. diagnostique ressources. L'automatisation garantit que le moins de privilèges est accordé à la personne et que les ressources sous-jacentes restent sécurisées.

Screenshot of GuardDuty team user profile serviceScreenshot of GuardDuty team user permissions

Tenir les parties prenantes informées et les incidents irréprochables

Chaque fois qu'un incident grave perturbe l'expérience client ou risque d'exposer la sécurité, les responsables des services métier et les autres parties prenantes souhaitent être informés. Combien de temps faudra-t-il pour que le système soit de nouveau opérationnel ? Combien de clients ont été impactés ? Nos données ont-elles été exposées ? Ce sont des questions importantes, et ces parties prenantes doivent être prises en compte. Malheureusement, la collecte des données pertinentes, la recherche du bon groupe de parties prenantes et l'élaboration d'une réponse adaptée ralentissent la résolution du problème.

PagerDuty offre un canal permettant de tenir les parties prenantes concernées informées grâce à des messages qui leur sont spécifiquement destinés. pièces de réponse « peut attribuer des ponts de conférence et automatiser l'envoi du message pertinent aux bonnes parties prenantes, réduisant ainsi le temps que les intervenants passent à gérer l'incident et leur permettant de se concentrer à nouveau sur la résolution du problème.

Une fois le problème résolu, la création d'un post-mortem sans reproche au sein de la plateforme PagerDuty enrichit le processus de réponse grâce aux enseignements tirés et génère des bonnes pratiques pour ce type de problème. Les équipes peuvent ainsi identifier leurs points forts et leurs points faibles, offrant ainsi une opportunité d'amélioration continue.

Permettre aux organisations de services financiers de migrer vers le cloud en toute sécurité

La transformation numérique peut s'avérer particulièrement complexe pour les organisations financières. Cependant, avec des partenaires d'écosystème adaptés et une gestion des opérations numériques bien structurée, elles peuvent s'adapter aux nouvelles réglementations de conformité et de sécurité tout en offrant une haute disponibilité et des services fluides à leurs clients. PagerDuty et AWS permettent au secteur financier de migrer vers le cloud en toute sécurité, tout en minimisant l'impact client et les temps d'arrêt, et en accélérant l'innovation pour répondre aux demandes des clients.

Apprenez-en plus sur ces intégrations PagerDuty et AWS et bien d'autres sur https://cbandstaging.wpengine.com/integrations/aws/ .