Nasdaq utilise AWS pour devenir un pionnier du stockage de données boursières dans le Cloud
2020
Nasdaq est une société multinationale de services financiers et de technologie qui possède et exploite la bourse Nasdaq. Nasdaq exploite un total de 27 marchés, un dépositaire central de titres et une chambre de compensation pour diverses catégories de ressource en Amérique du Nord et en Europe. Elle abrite près de 4 000 entreprises cotées sur l'ensemble de ses marchés internationaux et fournit sa technologie stratégique à d'autres opérateurs d'infrastructure du marché, répartis dans 50 pays.
Le Nasdaq Stock Exchange est la plus grande franchise de titres dans le monde en termes de volume, et il gère le rapprochement des acheteurs et des vendeurs à des volumes et des vitesses élevés, tout en délivrant des flux de données de cours pour les titres échangés électroniquement. Nasdaq utilise une application interne pour collecter et stocker toutes les données de bourse protégées. « Ces données comprennent les commandes, les devis, les transactions et les annulations », explique Robert Hunt, vice-président de l'ingénierie logicielle chez Nasdaq. Tous les soirs, Nasdaq reçoit des milliards d'enregistrements qui doivent être importés à des fins de facturation et de rapports avant l'ouverture des marchés le lendemain matin.
Depuis que les plateformes d'échange automatisées sont entrées sur le marché, le rythme et le volume des transactions ont augmenté. En 2014, pour augmenter l'échelle et les performances tout en diminuant les coûts opérationnels, Nasdaq est passé d'un entrepôt de données hérité sur site à un entrepôt de données Amazon Web Services (AWS) alimenté par un cluster Amazon Redshift. Entre 2014 et 2018, lorsque la société a étendu sa solution pour soutenir tous ses marchés nord-américains, ce cluster Amazon Redshift est passé à 70 nœuds. En 2018, la solution ingérait les données de marchés financiers de milliers de sources tous les soirs, soit de 30 à 55 milliards d'enregistrements et plus de 4 téraoctets.
Au fil du temps, la croissance du volume des données a entraîné un changement d'approche pour l'analytique. Le traitement par lots au cours de la nuit, exécuté dans l'entrepôt, causait des difficultés : il fallait traiter des volumes énormes pour respecter les délais serrés. Les utilisateurs s'appuient sur les données pour réaliser la facturation, la création de rapports et la surveillance. « Lorsque la volatilité des marchés s'est accrue au début de 2018, les volumes de données de l'entrepôt ont considérablement augmenté, atteignant 55 milliards d'enregistrements en 2018 », rappelle Hunt.
Des pratiques d'échange plus sophistiquées ont entraîné une hausse massive du volume des données, et il était crucial que Nasdaq commence à planifier l'adoption d'une nouvelle architecture pour continuer de respecter les normes de performance et l'excellence opérationnelle attendue par son écosystème. « Nous devons à la fois charger et consommer les 30 milliards d'enregistrements entre la clôture du marché et le matin suivant. Le chargement des données retardait la livraison de nos rapports », explique Robert Hunt. « Nous avions besoin de pouvoir écrire ou charger des données très rapidement dans notre solution de stockage de données, sans interférer avec la lecture et l'interrogation des données au même moment. »
Nous avons pu facilement faire face au passage de 30 à 70 milliards d'enregistrements par jour, grâce à la flexibilité et à la capacité de mise à l'échelle d'Amazon S3 et d'Amazon Redshift. »
Robert Hunt
Vice-président de l'ingénierie logicielle, Nasdaq
Les solutions AWS au service de la flexibilité, de la capacité de mise à l'échelle et de la performance
En 2018, Nasdaq a choisi de créer les bases d'un nouveau lac de données sur Amazon Simple Storage Service (Amazon S3). La société a ainsi pu séparer le calcul et le stockage et mettre à l'échelle chaque fonction indépendamment. Dans les déploiements d'entrepôts de données traditionnels, la mise à l'échelle de la capacité de stockage nécessite souvent de mettre à l'échelle la capacité de calcul en parallèle, car l'application et le stockage sont étroitement liés. Des modifications matérielles sur site étaient nécessaires pour tout changement apporté à l'un de ces aspects. « En plus de la flexibilité qu'apporte la séparation du calcul et du stockage, Amazon S3 offre de meilleures propriétés de mise à l'échelle en termes d'écriture et de lecture de grands ensembles de données simultanément », précise Robert Hunt. « Amazon S3 apporte une solution qui évite tout conflit entre les processus de chargement et d'interrogation des données. »
Initialement axée sur les performances, cette solution est devenue un lac de données multi-usage partagé entre les équipes, apportant un avantage supplémentaire à l'entreprise.
Mise à l'échelle pour prendre en charge 70 milliards d'enregistrements par jour
Chargement des données du marché pour créer un rapport en 5 heures de moins
À propos de Nasdaq
Avantages d'AWS
- Ingère 70 milliards d'enregistrements par jour
- Charge les données des marchés financiers en 5 heures de moins
- Exécute les requêtes Amazon Redshift à une vitesse 32 % supérieure
- Soutient la transformation commerciale grâce aux partage des données
- Stimule l'innovation en offrant de nouveau cas d'utilisation
Services AWS utilisés
Amazon Simple Storage Service
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets offrant une capacité de mise à l'échelle, une disponibilité des données, une sécurité et des performances de pointe.
Amazon Redshift
Amazon Redshift vous offre le meilleur des entrepôts de données de haute performance avec la flexibilité et l'évolutivité illimitées du stockage de données en lac.
AWS Identity and Access Management
AWS Identity and Access Management (IAM) vous permet de contrôler de façon sécurisée l'accès aux services et ressources AWS.
Amazon S3 Glacier
Amazon S3 Glacier et S3 Glacier Deep Archive sont des classes de stockage Amazon S3 dans le cloud sécurisées, durables et à très faibles coûts qui permettent l'archivage et la sauvegarde longue durée des données.