Amazon EMR Studio
Perché EMR Studio?
EMR Studio è un ambiente di sviluppo integrato (IDE) che semplifica lo sviluppo, la visualizzazione e il debug di applicazioni di data engineering e data science scritte in R, Python, Scala e PySpark per i data scientist e i data engineer.
EMR Studio fornisce notebook Jupyter completamente gestiti e strumenti come l'interfaccia utente di Spark e YARN Timeline Service per semplificare il debug. I data scientist e gli analisti possono installare librerie e kernel personalizzati, collaborare con i colleghi utilizzando repository di codice come GitHub e BitBucket o eseguire notebook parametrizzati come parte di flussi di lavoro programmati tramite servizi di orchestrazione come Apache Airflow o Amazon Managed Workflows for Apache Airflow.
Le applicazioni e i kernel di EMR Studio vengono eseguiti nei cluster EMR in modo da poter sfruttare i vantaggi dell'elaborazione dei dati distribuiti attraverso il runtime di Amazon EMR per Apache Spark a prestazioni ottimizzate. Gli amministratori possono configurare EMR Studio in modo che gli analisti possano eseguire le loro applicazioni sui cluster EMR esistenti oppure creare nuovi cluster utilizzando i modelli predefiniti di AWS Cloud Formation per EMR.
Semplicità d'uso
EMR Studio facilita l'interazione con le applicazioni su un cluster EMR. Puoi accedere a EMR Studio dalla Console AWS utilizzando il servizio di autenticazione IAM di AWS oppure senza accedere alla Console AWS abilitando l'accesso federato dal tuo gestore dell'identità digitale (IdP) tramite AWS IAM Identity Center (sostituisce AWS SSO). Puoi esplorare, elaborare e visualizzare interattivamente i dati utilizzando i notebook, costruire e pianificare pipeline ed eseguire il debug delle applicazioni senza accedere ai cluster EMR.
Notebook Jupyter completamente gestiti
Con EMR Studio, puoi avviare i notebook in pochi secondi, eseguire l'onboarding con notebook di esempio ed esplorare i dati. È possibile collaborare con i colleghi attraverso lo strumento integrato di collaborazione in tempo reale e tenere traccia delle modifiche tra le versioni dei notebook tramite i repository Git. È inoltre possibile personalizzare l'ambiente caricando propri kernel e librerie Python dai notebook.
Applicazioni facili da creare
EMR Studio facilita il passaggio dalla creazione del prototipo alla produzione. Puoi attivare le pipeline da repository di codice, eseguire semplicemente i notebook come pipeline usando strumenti di orchestrazione come Apache Airflow o Amazon Managed Workflows for Apache Airflow, oppure collegare i notebook a un cluster più grande con un solo clic.
Debug semplificato
Con EMR Studio puoi eseguire il debug dei processi e accedere ai registri senza accedere al cluster. Questa funzione è valida sia per i cluster attivi che per quelli terminati. Puoi usare le interfacce delle applicazioni native come l'interfaccia utente di Spark e YARN Timeline Service direttamente da EMR Studio. EMR Studio permette anche di individuare rapidamente il cluster o il processo di cui eseguire il debug usando filtri come lo stato del cluster, la data di creazione e l'ID del cluster.
Notebook collaborativi in tempo reale
Con EMR Studio, i data scientist, gli ingegneri e gli analisti possono collaborare tra team in tempo reale. Puoi invitare i tuoi colleghi a visualizzare e modificare i notebook. Ciò consente la creazione condivisa, il debug dei codici e le revisioni dei codici per i notebook Jupyter.
SQL Explorer
EMR Studio viene fornito con SQL Explorer, una funzione nel tuo WorkSpace che permette di sfogliare il catalogo dei dati ed eseguire query SQL su cluster EMR direttamente da EMR Studio. In SQL Explorer puoi connetterti ad Amazon EMR su cluster EC2 con Presto per visualizzare e sfogliare il catalogo dei dati. SQL Explorer offre anche un Editor per eseguire query SQL, visualizzare i risultati della query in una tabella e scaricarli in formato csv.
Notebook multilingue
EMR Studio ti consente di usare più linguaggi all'interno di un singolo notebook Jupyter. Passa da un'applicazione all'altra tra Python, Scala, SparkSQL e R all'interno dello stesso notebook Jupyter e condividi i dati tra celle tramite le tabelle temporanee. Con questa funzione, puoi scrivere codici nei linguaggi più adatti ai diversi componenti dei tuoi flussi di lavoro.