Ancestry accélère l'analyse des données génomiques grâce à Amazon EFS
2020
Ancestry® est un leader mondial de l'histoire familiale et de la génomique grand public, et utilise les arbres généalogiques, les données historiques et l'ADN pour aider les gens dans leur parcours de découverte personnelle. Ancestry compte plus de 18 millions de personnes dans son réseau ADN grand public. AncestryDNA® utilise la science génomique avancée pour aider les individus à découvrir de nouveaux détails sur leur histoire familiale en leur donnant davantage de moyens d'explorer leurs correspondances ADN, de se connecter à des régions plus précises et de mieux comprendre les informations génétiques sur la santé et les traits personnels.
L'équipe d'AncestryDNA comprend des dizaines de scientifiques, notamment spécialisés en génétique des populations, en biologie informatique, en statistiques, en épidémiologie, en données génomiques et en bio-informatique, qui développent des algorithmes pour analyser des données génétiques, entre autres, représentant plusieurs téraoctets de stockage. Auparavant, l'équipe gérait elle-même ses clusters de stockage en réseau (NAS) à capacité de mise à l'échelle horizontale sur site, mais elle n'était pas en mesure de mettre à l'échelle rapidement les ressources de stockage et de calcul sans surveillance, provisionnement et planification avancée pour anticiper les besoins futurs. « Nos données ne cessent de croître et l'un de nos défis était de savoir comment les adapter à l'évolution de notre réseau génétique », explique Eurie Hong, PhD, directrice adjointe de la génomique chez AncestryDNA. « Nous voulions augmenter la capacité de calcul pour répondre à une augmentation quadratique de la taille des jeux de données à des fins d'analyse. »
L'équipe scientifique d'AncestryDNA avait également besoin de plus d'élasticité pour supporter des charges de travail imprévisibles. « Nos flux de travail peuvent être très complexes et il était difficile d'allouer un budget lorsque nous ne pouvions pas prévoir la quantité de stockage et de calcul dont nous aurions besoin pour l'année », explique Asher Baltzell, PhD, responsable de la bio-informatique chez Ancestry.
Grâce à Amazon EFS, nous n'avons pas à nous soucier de la mise à l'échelle des charges de travail de recherche, puisque le système peut croître automatiquement pour répondre aux besoins de nos équipes de recherche, quelles que soient les exigences de calcul et de stockage.»
Dr. Eurie Hong, PhD
Directrice adjointe de la génomique, AncestryDNA
Transfert des charges de travail de recherche en génomique vers AWS
L'équipe scientifique d'AncestryDNA a décidé de passer à Amazon Web Services (AWS). « Dans l'ensemble, notre entreprise avait commencé à passer à AWS et nous étions intéressés par la capacité de mise à l'échelle et la flexibilité du cloud », explique Asher.
L'équipe utilise Amazon Elastic Compute Cloud (Amazon EC2) pour le calcul à la demande et Amazon Elastic File System (Amazon EFS), un système de fichier réseau (NFS) élastique, entièrement géré et à capacité de mise à l'échelle, en tant que système de fichiers de données partagé. « Les scientifiques travaillent généralement avec des serveurs de fichiers traditionnels. Nous savions donc que nous voulions quelque chose qui soit similaire à ce qu'ils utilisaient auparavant », explique Eurie. « Grâce à Amazon EFS, nous n'avons pas à nous soucier de la mise en œuvre ou de la gestion continue, car Amazon EFS fournit la capacité de mise à l'échelle et l'élasticité nécessaires pour faire face à l'évolution de notre charge de travail. » AncestryDNA s'appuie également sur Amazon Simple Storage Service (Amazon S3).
L'équipe scientifique d'AncestryDNA a pu terminer la migration plus tôt que prévu, sans répercussion sur les délais du projet ni interruption de la productivité de l'équipe de science des données.
Mise à l'échelle aisée pour répondre aux besoins des scientifiques en matière de calcul et de stockage
Ancestry peut désormais effectuer des recherches dans le cadre de son projet Ancestry Human Diversity sans avoir à se soucier des limites de stockage de données. « Grâce à Amazon EFS, nous n'avons pas à nous soucier de la mise à l'échelle des charges de travail de recherche, puisque le système peut croître automatiquement pour répondre aux besoins de nos équipes de recherche, quelles que soient les exigences de calcul et de stockage », explique Eurie.
De plus, Amazon EFS étant un système de fichiers cloud entièrement géré, AncestryDNA n'a pas eu à créer et à gérer ses propres serveurs NFS. « Nous ne voulons pas perdre notre temps et notre argent à créer et à gérer notre propre système de fichiers, nous voulons nous concentrer sur la recherche », explique Eurie. « Nous pouvons le faire en utilisant Amazon EFS. »
Gagner en élasticité pour faire face aux pics de charge de travail et optimiser les coûts
Ancestry possède désormais l'élasticité dont elle a besoin pour gérer des augmentations ou des diminutions imprévisibles de sa charge de travail. « L'élasticité et la flexibilité qu'offre Amazon EFS sont très importantes pour nous », déclare Asher. En outre, grâce à Amazon EC2, l'équipe peut optimiser les coûts. « Les équipes de recherche peuvent utiliser plus de ressources à la fois, et ne pas payer pour des ressources inutilisées. Plutôt que de faire fonctionner 10 serveurs en permanence, nous pouvons faire fonctionner 100 serveurs uniquement pendant le temps nécessaire. Cela nous permet également de prévoir et de gérer les coûts plus facilement. »
Intégrer de nouveaux scientifiques plus rapidement
Amazon EFS fournit un environnement conforme à l'ancien système sur site d'Ancestry, permettant aux scientifiques des données de partager des projets et des dossiers personnels, tous montables à partir de leurs blocs-notes d'analyse de science des données Jupyter et RStudio, pour faciliter la gestion des tâches. En outre, cela facilite l'intégration de nouveaux scientifiques, car l'environnement cloud de travail utilise les mêmes méthodes d'accès et de stockage des données que celles qu'ils utilisent déjà. Comme ils disposent d'un système de fichiers familier, les scientifiques peuvent utiliser des services AWS adjacents susceptibles de les aider à accélérer leur rythme d'innovation, au lieu de perdre leur temps à apprendre à effectuer des calculs et des analyses. Les scientifiques de l'équipe utilisent également Amazon EMR pour soutenir des recherches qui s'appuient sur le framework de big data Hadoop.
Les scientifiques d'AncestryDNA peuvent désormais se concentrer davantage sur l'innovation. « Grâce à AWS, nous pouvons consacrer davantage de temps à rechercher de nouvelles façons d'aider nos clients à découvrir l'histoire unique de leur famille », explique Eurie. « Nous continuerons à essayer de trouver des méthodes qui aident nos clients à mieux comprendre leur famille et à découvrir comment leur génétique peut les informer sur leur santé future. »
À propos d'Ancestry
Ancestry est l'un des principaux fournisseurs d'histoire familiale et de génomique grand public. Avec une collection de plus de 27 milliards de données et plus de 18 millions de personnes dans son réseau ADN en pleine expansion, Ancestry aide ses clients à découvrir l'histoire de leur famille et à obtenir des informations exploitables sur leur santé et leur bien-être. Depuis plus de 30 ans, des millions de personnes ont choisi Ancestry comme plateforme pour découvrir, préserver et partager les informations les plus importantes sur elles-mêmes et leur famille.
Avantages d'AWS
- Permet à plusieurs scientifiques d'effectuer des recherches en génomique
- Met automatiquement à l'échelle les ressources de calcul et de stockage
- Permet d'intégrer de nouveaux scientifiques plus rapidement et plus facilement
Services AWS utilisés
Amazon Elastic File System
Amazon Elastic File System (Amazon EFS) est un système de fichiers NFS simple, pouvant être mis à l'échelle et entièrement géré qui s'utilise avec les services Cloud AWS et les ressources sur site.
Amazon S3
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets offrant une évolutivité, une disponibilité des données, une sécurité et des performances de pointe.
Amazon Elastic Compute Cloud
Amazon Elastic Compute Cloud (Amazon EC2) est un service Web qui fournit une capacité de calcul sécurisée et redimensionnable dans le cloud.
Amazon EMR
Exécutez et mettez à l'échelle facilement les frameworks Apache Spark, Hive, Presto et d'autres frameworks de big data.
Démarrer
Les entreprises de toute taille et de tous les secteurs d'activités transforment chaque jour leurs activités à l'aide d'AWS. Contactez nos spécialistes et entamez votre transition vers le cloud AWS dès aujourd'hui.