Apache Spark di Amazon EMR
Mengapa menggunakan Apache Spark di EMR?
Amazon EMR memungkinkan Anda membangun danau data transaksional terbuka dengan Apache Spark dan Apache Iceberg. Runtime kami dengan performa yang dioptimalkan 100% kompatibel dengan API dengan Spark sumber terbuka, mengeksekusi hingga 4,5x lebih cepat daripada yang setara dengan sumber terbuka sekaligus memberikan performa penulisan Iceberg 2,7x lebih cepat.
EMR mendukung Apache Iceberg v3 dan Spark 4.0 (pratinjau), yang memungkinkan Anda memanfaatkan kemampuan, seperti transaksi ACID dan evolusi skema dengan fitur, seperti tipe data VARIANT atau data semi-terstruktur dalam skala besar serta kepatuhan ANSI SQL untuk integritas data. Entah Anda memerlukan kontrol granular EC2, skala terkontainer EKS, atau kesederhanaan EMR Nirserver, Amazon EMR menyediakan kecepatan, keandalan, dan integritas data.
Fitur dan manfaat
Runtime Apache Spark yang dioptimalkan untuk performa Amazon EMR mempercepat beban kerja danau data dengan eksekusi hingga 4,5x lebih cepat daripada yang setara dengan sumber terbuka sekaligus mempertahankan kompatibilitas API 100%. Pengoptimalan ini meluas ke operasi Apache Iceberg, memberikan kinerja penulisan 2,7x lebih cepat untuk danau data transaksional yang menuntut kecepatan dan keandalan.
Dengan dukungan untuk Apache Iceberg v3 dan Spark 4.0 (pratinjau), EMR memungkinkan kemampuan lanjutan termasuk transaksi ACID, evolusi skema, tipe data VARIANT untuk pemrosesan data semi-terstruktur, dan kepatuhan ANSI SQL.
Runtime Amazon EMR untuk Spark mengoptimalkan rencana kueri Anda agar berjalan sepenuhnya dalam memori, yang memaksimalkan pemanfaatan perangkat keras Anda. Dengan merampingkan cara penanganan data perantara, EMR mengurangi waktu hingga mencapai hasil untuk beban kerja machine learning yang paling padat sumber daya, memungkinkan Anda melakukan iterasi lebih cepat.
Modernisasi alur kerja Anda dengan Studio Terpadu SageMaker dan Studio EMR, yang menyediakan lingkungan terintegrasi untuk SQL, Python, dan Scala. Manfaatkan Amazon Q Developer untuk menghasilkan kode PySpark yang dioptimalkan dan memecahkan masalah rencana eksekusi kompleks (DAG) secara waktu nyata. Tidak seperti Spark standar, EMR menyediakan Persistent Spark UI, yang memungkinkan Anda menganalisis dan men-debug log pekerjaan bahkan setelah aplikasi nirserver atau klaster sementara Anda dihentikan. Persistensi ini sangat penting untuk audit dan penyetelan kinerja berkelanjutan di lingkungan produksi.
EMR Nirserver menghilangkan gesekan operasional dengan memberikan pengalaman notebook instant-on. Anda tidak perlu lagi menyediakan, menskalakan, atau mengelola klaster. Anda melampirkan lingkungan pengembangan pilihan Anda, seperti Studio Terpadu Amazon SageMaker atau JupyterLab, ke aplikasi EMR Nirserver dan mulai membuat kueri. Runtime EMR untuk Spark memastikan bahwa kode interaktif Anda bekerja dengan kecepatan tingkat korporasi yang sama dengan pipeline produksi Anda. Baik Anda melakukan penemuan data ad-hoc pada petabyte data S3 maupun menjalankan tugas rekayasa fitur yang kompleks, Amazon EMR menyediakan lingkungan yang leluasa dan berkinerja tinggi yang diperlukan untuk mempercepat alur kerja ilmu data Anda yang paling penting.
Agen peningkatan Apache Spark secara otomatis mengidentifikasi perubahan API dan modifikasi perilaku di seluruh aplikasi PySpark dan Scala. Teknisi dapat memulai peningkatan langsung dari Studio Terpadu SageMaker atau IDE pilihan mereka dengan bantuan kompatibilitas MCP (Protokol Konteks Model). Selama proses peningkatan, agen menganalisis kode yang ada dan menyarankan perubahan spesifik, lalu teknisi dapat meninjau dan menyetujui sebelum implementasi. Agen memvalidasi kebenaran fungsional melalui validasi kualitas data. Agen saat ini mendukung peningkatan dari Spark 2.4 ke 3.5 dan mempertahankan akurasi pemrosesan data selama proses peningkatan.
Kasus penggunaan
Konsumsi dan proses data waktu nyata dari Amazon Kinesis, Apache Kafka, atau aliran data lainnya dengan Spark Streaming di EMR. Lakukan analisis streaming dengan cara yang menoleransi kesalahan dan tulis hasilnya ke S3 atau HDFS di klaster.
Apache Spark di EMR mencakup MLlib untuk berbagai algoritme machine learning yang dapat diskalakan. Anda juga dapat menggunakan pustaka Anda sendiri. Dengan menyimpan set data dalam memori selama mengerjakan tugas, Spark memiliki performa yang kuat untuk kueri iteratif yang umum di beban kerja machine learning. Anda dapat meningkatkan kemampuan Amazon SageMaker dengan menghubungkan instans notebook ke klaster Apache Spark yang berjalan di Amazon EMR, dengan Amazon SageMaker Spark untuk melatih model dan meng-hosting model dengan mudah.
Gunakan Spark SQL untuk kueri interaktif berlatensi rendah dengan SQL atau HiveQL. Spark di EMR dapat memanfaatkan EMRFS, sehingga Anda dapat memiliki akses ad hoc ke set data Anda di S3. Anda juga dapat memanfaatkan EMR Studio, EMR Notebooks, Zeppelin notebook, atau alat BI melalui koneksi ODBC dan JDBC.
Kesuksesan pelanggan
Yelp
Tim penargetan iklan Yelp membuat model prediksi untuk menentukan kemungkinan interaksi pengguna dengan suatu iklan. Dengan menggunakan Apache Spark di Amazon EMR untuk memproses sejumlah besar data untuk melatih model machine learning, Yelp telah meningkatkan pendapatan dan rasio klik-tayang iklan.
The Washington Post
The Washington Post menggunakan Apache Spark di Amazon EMR untuk membangun model yang mendukung mesin rekomendasi situs webnya untuk meningkatkan keterlibatan dan kepuasan pembaca. Mereka memanfaatkan konektivitas kinerja Amazon EMR dengan Amazon S3 untuk memutakhirkan model hampir secara waktu nyata.
Krux
Sebagai bagian dari Platform Manajemen Data untuk wawasan pelanggan, Krux menjalankan banyak machine learning dan beban kerja pemrosesan umum menggunakan Apache Spark. Krux memanfaatkan klaster Amazon EMR sementara dengan Kapasitas Spot Amazon EC2 untuk menghemat biaya dan menggunakan Amazon S3 dengan EMRFS sebagai lapisan data untuk Apache Spark.
GumGum
GumGum, suatu platform iklan pada gambar dan pada layar, menggunakan Spark di Amazon EMR untuk memprediksi inventaris, memproses log clickstream, dan analisis ad hoc terhadap data tidak terstruktur di Amazon S3. Peningkatan kinerja Spark menghemat waktu dan biaya GumGum untuk alur kerja ini.
Hearst Corporation
Hearst Corporation, suatu perusahaan media dan informasi besar dengan layanan beragam, memiliki pelanggan yang melihat konten pada lebih dari 200 properti web. Dengan menggunakan Apache Spark Streaming di Amazon EMR, karyawan editorial Hearst dapat mempertahankan laju waktu nyata yang berarti artikel mereka bekerja dengan baik dan tema mereka populer.
CrowdStrike
CrowdStrike menyediakan proteksi titik akhir untuk menghentikan pelanggaran. Mereka menggunakan Amazon EMR dengan Spark untuk memproses ratusan terabyte data peristiwa dan meningkatkannya menjadi deskripsi perilaku tingkat yang lebih tinggi pada host. Dari data tersebut, CrowdStrike dapat menarik data peristiwa sekaligus dan mengidentifikasi adanya aktivitas berbahaya.