Amazon SageMaker Data Wrangler

Cara tercepat dan termudah guna menyiapkan data untuk machine learning - sekarang di SageMaker Canvas

Kenapa SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler mengurangi waktu persiapan data untuk data tabular, gambar, dan teks dari minggu ke menit. Dengan SageMaker Data Wrangler Anda dapat menyederhanakan persiapan data dan rekayasa fitur melalui antarmuka bahasa visual dan alami. Pilih, impor, dan ubah data secara cepat dengan SQL dan lebih dari 300 transformasi bawaan tanpa menulis kode. Hasilkan laporan kualitas data yang intuitif untuk mendeteksi anomali di seluruh tipe data dan memperkirakan performa model. Skalakan untuk memproses petabita data.

Manfaat Pengatur Data SageMaker

Pilih data, pahami wawasan data, dan transformasikan data guna menyiapkannya untuk machine learning (ML) dalam hitungan menit.
Perkirakan akurasi model ML dan diagnosis masalah sebelum model dilakukan deployment ke dalam produksi secara cepat.
Bawa penyiapan data ke produksi lebih cepat tanpa perlu menulis kode PySpark, menginstal Apache Spark, atau mempercepat klaster.

Cara kerja

Cara kerjanya: Amazon SageMaker Data Wrangler

Cara kerjanya

Cara kerja Amazon SageMaker Data Wrangler

Akses, pilih, dan kuerikan data dengan lebih cepat

Dengan SageMaker Data Wrangler, Anda dapat dengan cepat mengakses data tabulasi, teks, dan gambar dari layanan Amazon seperti S3, Athena, Redshift, serta 50+ sumber pihak ketiga. Anda dapat memilih data dengan builder kueri visual, menulis kueri SQL, atau mengimpor data secara langsung dalam berbagai format, seperti CSV dan Parquet.

Buat wawasan data dan pahami kualitas data

SageMaker Data Wrangler memberikan laporan kualitas data dan wawasan yang secara otomatis memverifikasi kualitas data (seperti nilai yang hilang, baris duplikat, dan tipe data) serta membantu mendeteksi anomali (seperti pencilan, ketidakseimbangan kelas, dan kebocoran data) dalam data Anda. Setelah Anda dapat memverifikasi kualitas data secara efektif, Anda dapat dengan cepat menerapkan pengetahuan domain guna memproses set data untuk pelatihan model ML.

Pahami data Anda dengan visualisasi

SageMaker Data Wrangler membantu Anda memahami data melalui templat visualisasi bawaan yang kuat seperti histogram, plot sebaran, tingkat kepentingan fitur, dan korelasi. Percepat eksplorasi data dengan laporan kualitas data intuitif yang mendeteksi anomali di seluruh jenis data dan memberikan rekomendasi untuk meningkatkan kualitas data. 

Transformasikan data dengan lebih efisien

SageMaker Data Wrangler menawarkan lebih dari 300 transformasi PySpark prabangun serta antarmuka bahasa alami untuk menyiapkan data tabulasi, deret waktu, teks, dan gambar tanpa pengodean. Kasus penggunaan umum seperti vektorisasi teks, pencantuman tanggal waktu, enkode, penyeimbangan data, atau augmentasi gambar juga dicakup. Anda juga dapat membuat transformasi kustom di PySpark, SQL, dan Pandas atau menggunakan antarmuka bahasa alami untuk menghasilkan kode. Pustaka cuplikan kode bawaan menyederhanakan penulisan transformasi kustom.

Pahami kekuatan prediktif data Anda

SageMaker Data Wrangler menyediakan analisis Model Cepat untuk memperkirakan kekuatan prediktif data Anda. Anda mendapatkan perkiraan akurasi model, tingkat kepentingan fitur, dan matriks kebingungan untuk membantu memvalidasi kualitas data sebelum melatih model.

Otomatiskan dan deploy alur kerja persiapan data ML

SageMaker Data Wrangler memungkinkan Anda menskalakan untuk menyiapkan petabita data tanpa perlu mengodekan PySpark atau memprogram klaster. Luncurkan tugas pemrosesan secara langsung dari UI, atau integrasikan persiapan data ke dalam alur kerja ML dengan mengekspor data ke SageMaker Feature Store atau mengintegrasikannya dengan SageMaker Pipelines. Anda juga dapat mengekspor aliran data sebagai notebook Jupyter atau skrip Python untuk replikasi terprogram langkah-langkah persiapan data Anda.

Pelanggan

Invista
“Di INVISTA, kami didorong oleh transformasi dan berupaya mengembangkan produk serta teknologi yang bermanfaat bagi pelanggan di seluruh dunia. Kami melihat ML sebagai cara untuk meningkatkan pengalaman pelanggan. Namun, dengan set data yang menjangkau ratusan juta baris, kami membutuhkan solusi untuk membantu menyiapkan data, dan mengembangkan, melakukan deployment, serta mengelola model ML dalam skala besar. Dengan Amazon SageMaker Data Wrangler, kami sekarang dapat secara interaktif memilih, membersihkan, mengeksplorasi, dan memahami data secara efektif, sehingga dapat memberdayakan tim ilmu data untuk membuat pipeline rekayasa fitur yang dapat menskalakan dengan mudah ke set data yang menjangkau ratusan juta baris. Dengan Amazon SageMaker Data Wrangler, kami dapat mengoperasionalkan alur kerja ML dengan lebih cepat.”

Caleb Wilkinson, Former Lead Data Scientist, INVISTA

3M
“Dengan ML, 3M meningkatkan produk yang sudah diuji coba, seperti ampelas, dan mendorong inovasi di beberapa bidang lain, termasuk layanan kesehatan. Seiring dengan rencana kami untuk menskalakan ML ke lebih banyak area di 3M, kami mendapati bahwa jumlah data dan model terus berkembang secara pesat dengan jumlah yang berlipat ganda setiap tahun. Kami sangat antusias terkait fitur SageMaker baru karena fitur tersebut akan membantu kami menskalakan. Amazon SageMaker Data Wrangler memudahkan penyiapan data untuk pelatihan model, dan Amazon SageMaker Feature Store akan menghapus kebutuhan untuk membuat fitur model yang sama berulang kali. Terakhir, Amazon SageMaker Pipelines akan membantu kami mengotomatiskan penyiapan data, pembuatan model, dan deployment model ke dalam alur kerja ujung ke ujung sehingga kami dapat mempercepat waktu masuk pasar untuk model kami. Peneliti kami sangat menantikan untuk dapat memperoleh manfaat kecepatan baru dari sains di 3M.”

David Frazee, Eks Technical Director, 3M Corporate Systems Research Lab

Deloitte
“Amazon SageMaker Data Wrangler membuat kami dapat memulai dengan cepat dalam memenuhi kebutuhan penyiapan data dengan beraneka ragam koleksi alat transformasi yang mempercepat proses penyiapan data ML yang diperlukan untuk menghadirkan produk baru ke pasar. Selanjutnya, klien kami mendapatkan manfaat dari tingkat penskalaan model yang dilakukan deployment sehingga kami dapat memberikan hasil yang terukur dan berkelanjutan yang akan memenuhi kebutuhan klien kami dalam hitungan hari, bukan bulan.”

Frank Farrall, Principal, AI Ecosystems and Platforms Leader, Deloitte

NRI
“Sebagai Partner Konsultasi Premier AWS, tim rekayasa kami bekerja sama dengan AWS untuk membangun solusi inovatif guna membantu pelanggan kami agar dapat terus meningkatkan efisiensi operasi mereka. ML adalah inti dari solusi inovatif kami, tetapi alur kerja penyiapan data kami memerlukan teknik penyiapan data canggih yang, oleh karenanya, memerlukan banyak waktu agar dapat dioperasionalkan dalam lingkungan produksi. Dengan Amazon SageMaker Data Wrangler, ilmuwan data kami dapat menyelesaikan setiap langkah alur kerja penyiapan data, termasuk pemilihan, pembersihan, eksplorasi, dan visualisasi data, yang membantu kami mempercepat proses penyiapan data serta menyiapkan data dengan mudah untuk ML. Dengan Amazon SageMaker Data Wrangler, kami dapat menyiapkan data untuk ML secara lebih cepat.”

Shigekazu Ohmoto, Senior Corporate Managing Director, NRI Japan

equilibrium
“Karena jejak kami di pasar manajemen kesehatan populasi terus meluas ke lebih banyak payor kesehatan, penyedia, pengelola manfaat farmasi, dan organisasi kesehatan lainnya, kami membutuhkan sebuah solusi untuk mengotomatiskan proses ujung ke ujung untuk sumber data yang digunakan oleh model ML kami, termasuk data klaim, data pendaftaran, dan data farmasi. Dengan Amazon SageMaker Data Wrangler, kami sekarang dapat mempercepat waktu yang diperlukan untuk mengagregasikan serta menyiapkan data untuk ML menggunakan set alur kerja yang lebih mudah untuk divalidasi dan digunakan kembali. Hal ini secara signifikan mempercepat waktu pengiriman dan kualitas model sehingga meningkatkan efektivitas ilmuwan data kami, dan mengurangi waktu penyiapan data hingga hampir 50%. Selain itu, SageMaker Data Wrangler telah membantu kami menghemat banyak iterasi ML dan waktu GPU secara signifikan sehingga dapat mempercepat seluruh proses ujung ke ujung untuk klien karena kami sekarang dapat membangun data mart dengan ribuan fitur termasuk farmasi, kode diagnosis, kunjungan UGD, rawat inap, serta determinan demografis dan determinan sosial lainnya. Dengan SageMaker Data Wrangler, kami dapat mentransformasikan data dengan efisiensi tinggi untuk membangun set data pelatihan, menghasilkan wawasan data pada set data sebelum menjalankan model ML, dan menyiapkan data dunia nyata untuk inferensi/prediksi dalam skala besar.”

Lucas Merrow, CEO, Equilibrium Point IoT

Mulai dengan SageMaker Data Wrangler

Video

VIDEO

AWS re:Invent 2023: Democratize ML with no code/low code using Amazon SageMaker Canvas (AWS re:Invent 2023: Demokrasikan ML dengan tanpa kode/kode rendah menggunakan Amazon SageMaker Canvas (AIM217))

re:Invent 2023—Demokrasikan ML dengan tanpa kode (56:00)
VIDEO

AWS re:Invent 2023: New LLM capabilities in Amazon SageMaker Canvas, with Bain & Company (AIM363) (AWS Re:Invent 2023: Kemampuan LLM baru di Amazon SageMaker Canvas, dengan Bain & Company (AIM363))

re:Invent 2023—Kemampuan LLM baru di Amazon SageMaker Canvas (53:43)

Apa yang baru

  • Tanggal (Terbaru hingga Terlama)
Hasil tidak ditemukan
1