Accelerating data processing for IRCC with Amazon EC2 instances

Lire cet article en Français

AWS branded background design with text overlay that says "Accelerating data processing for IRCC with Amazon EC2 instances"

The capacity to efficiently process and analyze extensive datasets is not just an advantage but a necessity. Immigration, Refugees, and Citizenship Canada (IRCC) faced a significant challenge: the need to perform complex fuzzy string matching across two different datasets. This computationally heavy work needs months to complete due to both the time needed to run the workloads themselves and also the time needed to actually procure, install, and configure the infrastructure needed to run these workloads.

IRCC embarked on a transformative project that redefined its data processing capabilities and showcased the power of cloud computing in overcoming substantial data challenges. Instead of dealing with months of undifferentiated heavy lifting activities, IRCC successfully used Amazon Elastic Compute Cloud (Amazon EC2) instances to complete the work in a only few days.

The challenge: Overcoming data complexity and infrastructure limitations

IRCC’s task was to perform approximate string matching across two datasets: an external dataset comprising 380,000 rows and an internal dataset containing 65 million rows. The process involved linking client information from a partner organization to IRCC’s own client list by creating a common identification key. The disparity in data formats between these sets necessitated a comprehensive approach to data standardization, ensuring seamless processing.

The complexity of the task was compounded by the requirement to apply both probabilistic and deterministic algorithms, resulting in approximately 300 actions per comparison. This process translated to a staggering total of 7.4 quadrillion actions. All rows were matched to each other, generating more than 2 million scores ranging from 0 (indicating no match) to 1 (indicating a strong probability of a match). An algorithm was created to distill statistically valid matches, which were then forwarded for human validation.

Initially, the project could run on an on-premises setup, executing jobs with much smaller datasets to process. However, the project was tasked to process much larger datasets internally and externally, with projections indicating a completion time of one year using a machine with 48 threads, 128 gigabytes (GB) of RAM, and a 2 terabyte (TB) I/O-specific disk. This timeline was untenable, prompting a pivot towards a more scalable and efficient solution.

The solution: Scalability meets efficiency

IRCC’s pivot to Amazon EC2 was driven by the need for a solution that could offer both the scalability to handle massive datasets and the efficiency to process data at unprecedented speeds. Amazon EC2 provides a broad spectrum of purpose-built instance types, enabling organizations to tailor their compute resources to the specific demands of their workloads.

Within two days, IRCC’s in-house developed scripts were adjusted and optimized to work on a fleet of 200 Amazon EC2 instances. Specifically, all machines were r5a.8xlarge with 2 TB storage, selected for their balance of compute, memory, and storage resources. The provisioning of these instances took 20 minutes, showcasing the cloud’s ability to rapidly scale resources.

Conclusion: A leap in data processing speed

The success of IRCC’s data processing project serves as a compelling example of how Amazon Web Services (AWS), particularly Amazon EC2 in this case, can transform public sector organizations on both business and technology levels. This initiative not only addressed a critical operational challenge but also set a new benchmark for what is achievable with cloud technology, completing in days what was once took months.

If you are planning to build a solution to process data effectively and faster than ever, contact your AWS account team, or contact the AWS Public Sector team directly.

IRCC: un traitement des données plus rapide grâce aux instances Amazon EC2

La capacité à traiter et à analyser efficacement de vastes jeux de données est non seulement un avantage, mais aussi une nécessité. Immigration, Réfugiés et Citoyenneté Canada (IRCC) a dû faire face à un défi de taille : procéder à des appariements complexes de chaînes à correspondance partielle entre deux jeux de données différents. Cette tâche lourde sur le plan informatique nécessite des mois de travail en raison, à la fois, du temps nécessaire à l’exécution des applications elles-mêmes et de celui qu’il faut pour acquérir, installer et configurer l’infrastructure requise par cette exécution.

IRCC s’est lancé dans un projet de transformation qui a redéfini ses capacités de traitement des données et mis en valeur la puissance de l’infonuagique dans la résolution des problèmes de taille liés à ces données. Le ministère a utilisé avec succès des instances Amazon Elastic Compute Cloud (Amazon EC2) pour effectuer ce travail en quelques jours seulement, ce qui lui a permis de s’épargner plusieurs mois d’activités indifférenciées et intenses en termes de ressources.

Le défi: surmonter la complexité des données et les limites de l’infrastructure

IRCC a eu pour mission d’effectuer des appariements approximatifs de chaînes entre deux jeux de données : un jeu de données externe comprenant 380 000 lignes et un jeu de données interne qui en comptait 65 millions. Le processus a consisté à relier les informations client d’une organisation partenaire à la propre liste des clients d’IRCC en créant une clé d’identification commune. La disparité des formats de données entre ces jeux a nécessité la normalisation complète des données, assurant ainsi un traitement homogène.

La tâche était d’autant plus difficile qu’il fallait appliquer des algorithmes qui soient à la fois probabilistes et déterministes, ce qui a donné lieu à environ 300 étapes par comparaison. Au total, l’opération s’est faite en rien de moins que 7,4 quadrillions d’étapes. Toutes les lignes ont été appariées les unes aux autres, ce qui a généré plus de 2 millions de scores allant de 0 (aucune correspondance) à 1 (forte probabilité de correspondance). Un algorithme a été créé pour distiller des correspondances statistiquement valides, qui ont ensuite été transmises pour validation humaine.

Au départ, le projet pouvait se faire sur site et les jeux de données à traiter étaient beaucoup plus petits. Cependant, la mission portait sur des jeux bien plus importants en interne et en externe, les projections indiquant un délai d’exécution d’un an à l’aide d’un ordinateur comportant 48 fils d’exécution, 128 gigaoctets (Go) de RAM et un disque spécifique aux E/S de 2 téraoctets (To). Irréaliste, ce calendrier a incité l’organisation à se tourner vers une solution plus évolutive et plus efficace.

La solution AWS: la capacité de mise à l’échelle alliée à l’efficacité

Si IRCC a fait le choix d’Amazon EC2, c’est parce qu’il lui fallait une solution offrant à la fois la capacité de mise à l’échelle nécessaire pour gérer d’énormes jeux de données et l’efficacité permettant de traiter ces données à des vitesses sans précédent. Amazon EC2 fournit un large éventail de types d’instances sur mesure, ce qui permet aux organisations d’adapter leurs ressources de calcul aux exigences propres à leurs applications.

En l’espace de deux jours, les scripts élaborés en interne par IRCC ont été ajustés et optimisés pour fonctionner sur une flotte de 200 instances Amazon EC2. Plus précisément, tous les ordinateurs étaient de type r5a.8xlarge, dotés de 2 To d’espace de stockage et sélectionnés pour leur équilibre entre les ressources de calcul, de mémoire et de stockage. L’approvisionnement de ces instances a pris 20 minutes, ce qui démontre la capacité du nuage à faire rapidement évoluer les ressources.

Conclusion: un saut dans la vitesse de traitement des données

Le succès du projet de traitement des données d’IRCC illustre de manière convaincante la manière dont les services AWS – et notamment Amazon EC2 dans le cas présent – peuvent transformer les organisations du secteur public, tant au niveau commercial que technologique. Cette initiative a non seulement permis de relever un défi opérationnel critique, mais aussi établi une nouvelle référence par rapport aux capacités de la technologie infonuagique, grâce à laquelle on peut réaliser en quelques jours ce qui prenait des mois auparavant.

Si vous envisagez de concevoir une solution pour traiter efficacement des données en un temps record, contactez l’équipe de votre compte AWS ou directement l’équipe du secteur public AWS.

AWS Public Sector Blog