Amazon EMR Studio

Perché EMR Studio?

EMR Studio è un ambiente di sviluppo integrato (IDE) che semplifica lo sviluppo, la visualizzazione e il debug di applicazioni di data engineering e data science scritte in R, Python, Scala e PySpark per i data scientist e i data engineer.

EMR Studio fornisce notebook Jupyter completamente gestiti e strumenti come l'interfaccia utente di Spark e YARN Timeline Service per semplificare il debug. I data scientist e gli analisti possono installare librerie e kernel personalizzati, collaborare con i colleghi utilizzando repository di codice come GitHub e BitBucket o eseguire notebook parametrizzati come parte di flussi di lavoro programmati tramite servizi di orchestrazione come Apache Airflow o Amazon Managed Workflows for Apache Airflow.

Le applicazioni e i kernel di EMR Studio vengono eseguiti nei cluster EMR in modo da poter sfruttare i vantaggi dell'elaborazione dei dati distribuiti attraverso il runtime di Amazon EMR per Apache Spark a prestazioni ottimizzate. Gli amministratori possono configurare EMR Studio in modo che gli analisti possano eseguire le loro applicazioni sui cluster EMR esistenti oppure creare nuovi cluster utilizzando i modelli predefiniti di AWS Cloud Formation per EMR.

Semplicità d'uso

EMR Studio facilita l'interazione con le applicazioni su un cluster EMR. Puoi accedere a EMR Studio dalla Console AWS utilizzando il servizio di autenticazione IAM di AWS oppure senza accedere alla Console AWS abilitando l'accesso federato dal tuo gestore dell'identità digitale (IdP) tramite AWS IAM Identity Center (sostituisce AWS SSO). Puoi esplorare, elaborare e visualizzare interattivamente i dati utilizzando i notebook, costruire e pianificare pipeline ed eseguire il debug delle applicazioni senza accedere ai cluster EMR.

Notebook Jupyter completamente gestiti

Notebook Jupyter completamente gestiti

Con EMR Studio, puoi avviare i notebook in pochi secondi, eseguire l'onboarding con notebook di esempio ed esplorare i dati. È possibile collaborare con i colleghi attraverso lo strumento integrato di collaborazione in tempo reale e tenere traccia delle modifiche tra le versioni dei notebook tramite i repository Git. È inoltre possibile personalizzare l'ambiente caricando propri kernel e librerie Python dai notebook.

Notebook Jupyter completamente gestiti

Applicazioni facili da creare

EMR Studio facilita il passaggio dalla creazione del prototipo alla produzione. Puoi attivare le pipeline da repository di codice, eseguire semplicemente i notebook come pipeline usando strumenti di orchestrazione come Apache Airflow o Amazon Managed Workflows for Apache Airflow, oppure collegare i notebook a un cluster più grande con un solo clic.

Applicazioni facili da creare

Debug semplificato

Con EMR Studio puoi eseguire il debug dei processi e accedere ai registri senza accedere al cluster. Questa funzione è valida sia per i cluster attivi che per quelli terminati. Puoi usare le interfacce delle applicazioni native come l'interfaccia utente di Spark e YARN Timeline Service direttamente da EMR Studio. EMR Studio permette anche di individuare rapidamente il cluster o il processo di cui eseguire il debug usando filtri come lo stato del cluster, la data di creazione e l'ID del cluster.

Notebook Jupyter completamente gestiti

Notebook collaborativi in tempo reale

Con EMR Studio, i data scientist, gli ingegneri e gli analisti possono collaborare tra team in tempo reale. Puoi invitare i tuoi colleghi a visualizzare e modificare i notebook. Ciò consente la creazione condivisa, il debug dei codici e le revisioni dei codici per i notebook Jupyter.

SQL Explorer

EMR Studio viene fornito con SQL Explorer, una funzione nel tuo WorkSpace che permette di sfogliare il catalogo dei dati ed eseguire query SQL su cluster EMR direttamente da EMR Studio. In SQL Explorer puoi connetterti ad Amazon EMR su cluster EC2 con Presto per visualizzare e sfogliare il catalogo dei dati. SQL Explorer offre anche un Editor per eseguire query SQL, visualizzare i risultati della query in una tabella e scaricarli in formato csv.

Notebook multilingue

EMR Studio ti consente di usare più linguaggi all'interno di un singolo notebook Jupyter. Passa da un'applicazione all'altra tra Python, Scala, SparkSQL e R all'interno dello stesso notebook Jupyter e condividi i dati tra celle tramite le tabelle temporanee. Con questa funzione, puoi scrivere codici nei linguaggi più adatti ai diversi componenti dei tuoi flussi di lavoro.

Notebook Jupyter completamente gestiti

Casi d'uso

Con EMR Studio, puoi avviare i notebook in pochi secondi, eseguire l'onboarding con notebook di esempio ed esplorare i dati. È possibile collaborare con i colleghi attraverso lo strumento integrato di collaborazione in tempo reale e tenere traccia delle modifiche tra le versioni dei notebook tramite i repository Git. È inoltre possibile personalizzare l'ambiente caricando propri kernel e librerie Python dai notebook.

In EMR Studio, è possibile usare il repository di codice per attivare le pipeline. È inoltre possibile parametrizzare e concatenare i notebook per creare le pipeline. È possibile integrare i notebook in flussi di lavoro programmati tramite servizi di orchestrazione dei flussi di lavoro come Apache Airflow o Amazon Managed Workflows for Apache Airflow. EMR Studio consente anche di ricollegare i notebook a un cluster più grande per eseguire un lavoro.

In EMR Studio è possibile eseguire il debug di per notebook dall'interfaccia utente dei notebook. È inoltre possibile eseguire il debug delle pipeline riducendo prima i cluster usando filtri come lo stato del cluster e diagnosticare i processi sia sui cluster attivi che su quelli terminati con il minor numero di clic possibile per aprire le interfacce utente di debug native come l'interfaccia utente di Spark, l'interfaccia utente di Tez e Yarn Timeline Service.