Apache Hadoop in Amazon EMR
Perché Apache Hadoop su EMR?
Apache™ Hadoop® è un progetto software open source che consente di elaborare in modo efficiente grandi set di dati. Invece di utilizzare un solo computer molto potente per elaborare e immagazzinare i dati, con Hadoop è possibile unire in cluster prodotti hardware di largo consumo per analizzare set di dati di grandi dimensioni in parallelo.
L'ecosistema Hadoop dispone di molte applicazioni e motori di esecuzione, che offrono gli strumenti adatti alla maggior parte dei carichi di lavoro di analisi. Con Amazon EMR è semplice creare e gestire cluster elastici completamente configurati di istanze Amazon EC2 che eseguono Hadoop e altre applicazioni del suo ecosistema.
Cos'hanno in comune Hadoop e i Big Data?
Hadoop viene spesso utilizzato nei carichi di lavoro per i big data per la sua eccezionale scalabilità. Per aumentare la potenza di calcolo del cluster Hadoop, è sufficiente aggiungere server con i requisiti di CPU e memoria appropriati.
Hadoop offre elevati livelli di durabilità e disponibilità e allo stesso tempo permette di elaborare carichi di lavoro di analisi in parallelo. Ciò che rende Hadoop lo strumento ideale per l'elaborazione di Big Data è la combinazione di disponibilità, durabilità e scalabilità. Con Amazon EMR bastano pochi minuti per creare e configurare un cluster di istanze Amazon EC2 che eseguono Hadoop; creare valore aggiunto dai dati non è mai stato così facile.